4. Self-Attention 自注意力

1. 核心思想

输入：一个长度为 $n$ 的序列 $x_{1}, . . ., x_{n}$ ，每个元素 $x_{i} \in R^{d}$ 。
核心步骤：
1. 每个输入向量通过不同的线性变换生成查询（query） $q_{i}$ 、键（key） $k_{i}$ 、值（value） $v_{i}$ 。
2. 对每个序列元素，计算其 query 与所有 key 的相似度，得到注意力权重。
3. 用这些权重对所有 value 加权求和，得到输出 $y_{i}$ 。
数学表达（单头自注意力）：
$Attention (Q, K, V) = softmax (\frac{Q K^{⊤}}{\sqrt{d_{k}}}) V$
其中 $Q$ , $K$ , $V$ 是所有 query、key、value 向量的拼接， $d_{k}$ 是维度缩放因子。
输出：每个位置 $i$ 的输出 $y_{i}$ 都是全序列的加权和，因此每个 token 能"看到"序列中所有其他 token 的信息。

自注意力本质上是"信息自助池化"
- 每个位置决定自己从全序列哪里"取信息"，关注相关部分，抑制无关内容。
- 例如，句子中"它"可能需要从远处的"猫"那里获得语义信息，自注意力能轻松捕捉这种长距离依赖。
与 CNN / RNN 的对比

CNN RNN 自注意力

计算复杂度 $O (k n d^{2})$ $O (n d^{2})$ $O (n^{2} d)$

并行度 $O (n)$ $O (1)$ $O (n)$

最长路径 $O (n / k)$ $O (n)$ $O (1)$
- 自注意力的并行性和最短信息流路径是 transformer 取代 RNN/CNN 的关键原因。
位置编码（Positional Encoding）
- 自注意力本身无序列顺序感知能力，所以 transformer 需要引入位置编码（Positional Encoding）补充顺序信息。
- 常用位置编码方法：
  - 正弦/余弦编码：不同频率的正余弦函数，将位置 $i$ 编码为一组向量，加到输入 embedding 上。
  - 这样模型可以感知 token 之间的相对或绝对顺序。
- 位置编码让 transformer 能区分"a b c"和"c b a"。