5. Positional Encoding 位置编码

1. 动机

为什么要加位置编码？
- Self-Attention 本身不感知输入顺序，把序列当成无序集合（Set），缺乏序列（Sequence）信息。
- 必须人为注入"位置信息"，让模型知道"顺序" （Transformer需要）。
和其他架构对比：
- CNN 通过卷积核隐式捕捉局部顺序
- RNN 按时间步显式感知顺序
- Transformer 完全依赖位置编码来感知顺序

2. 位置编码的实现

基本方法：
- 给长度为 $n$ 、维度为 $d$ 的输入 $X \in R^{n \times d}$ ，为每个位置 $i$ 添加一个位置向量（位置信息） $P_{i}$ ，构成位置编码矩阵 $P \in R^{n \times d}$ ，输入变为 $X + P$ ，从而加入位置信息。。
位置编码矩阵 $P$ （正弦-余弦编码）：
$P_{i, 2 j} = \sin (\frac{i}{10000^{2 j / d}}), P_{i, 2 j + 1} = \cos (\frac{i}{10000^{2 j / d}})$
- $i$ ：位置索引
- $j$ ：维度索引的一半
- $d$ ：总维度
绝对位置信息：计算机的二进制编码
相对位置信息：
- 有编码的频率参数 $w_{j} = 1 / 10000^{2 j / d}$ ，那么，
  - $P_{i, 2 j}, P_{i, 2 j + 1}$ ：第 $i$ 个位置的编码的两个分量
  - $P_{i + δ, 2 j}, P_{i + δ, 2 j + 1}$ ：第 $i + δ$ 个位置的编码分量
  - $δ$ ：两个位置之间的距离（如 $δ = 1$ 就是前后相邻）
  - 这个旋转矩阵（只跟 $δ$ 和 $w_{j}$ 有关）可以把位置 $i$ 的编码线性投影到任意位置 $i + δ$ ，方便模型计算和理解相对位置信息。

\begin{aligned} [\begin{array}{c} \cos (δ w_{j}) & \sin (δ w_{j}) \\ - \sin (δ w_{j}) & \cos (δ w_{j}) \end{array}] [\begin{array}{c} P_{i, 2 j} \\ P_{i, 2 j + 1} \end{array}] = [\begin{array}{c} P_{i + δ, 2 j} \\ P_{i + δ, 2 j + 1} \end{array}] \end{aligned}

3. 例子：英汉翻译任务中的位置编码

英汉翻译任务中的位置编码
1. 例如句子"你好吗？"，首先会进入词向量层，被转为 $4 \times 4$ 的词向量矩阵。
2. 然后进行位置编码，将位置信息加到原始词向量上。
3. 具体地，用正弦和余弦公式，生成一个 $4 \times 4$ 的位置编码矩阵。
4. 将每个词的词向量与对应位置编码直接相加，得到新的输入特征。
原理说明：
1. 为什么直接加位置编码不会破坏词向量信息？
  - 训练数据充足，几乎所有"词+位置"组合模型都能见到并学习。
  - 神经网络足够深、参数足够多，能有效区分并利用"词向量+位置编码"的复杂特征。
2. 这种方法极大丰富了输入特征空间。例如：有3个词语（ $a$ , $b$ , $c$ ）和3个位置编码（ $x$ , $y$ , $z$ ），每个词都可以和3个位置组合，得到9种独特的新表示：
  - 词语向量
    - $a = [a_{1}, a_{2}, a_{3}, a_{4}]$
    - $b = [b_{1}, b_{2}, b_{3}, b_{4}]$
    - $c = [c_{1}, c_{2}, c_{3}, c_{4}]$
  - 位置编码向量
    - $x = [x_{1}, x_{2}, x_{3}, x_{4}]$
    - $y = [y_{1}, y_{2}, y_{3}, y_{4}]$
    - $z = [z_{1}, z_{2}, z_{3}, z_{4}]$
  - 词 $a$ 的组合： $a + x$ ， $a + y$ ， $a + z$
  - 词 $b$ 的组合： $b + x$ ， $b + y$ ， $b + z$
  - 词 $c$ 的组合： $c + x$ ， $c + y$ ， $c + z$
3. 有一种特殊情况，在数学上称为"碰撞"，不同的词向量和位置编码组合结果，恰好是同一个向量表示（如 $a + x = b + y$ ）。这种情况出现时，会使训练数据产生歧义，但是由在高纬度空间， $w = [w_{1}, . . ., w_{n}] ， n = 512$ 即使某个维度出现"碰撞"，对整个维度来说几乎没有影响。