1. Attention 核心思想

1. 动机

平均汇聚（最简单的回归）
- 给定数据： $(x_{i}, y_{i}), i = 1, \dots, n$ 。
- 平均池化：是最简单的方案： $f (x) = \frac{1}{n} \sum_{i = 1}^{n} y_{i}$ 。
- 缺点：无视输入，无法反映输入与输出间的实际关系，表现通常很差。
更好的方案是 60 年代提出的 Nadaraya-Watson 核回归：
- 改进思路：不同输入 $x$ 附近的样本应该对输出影响更大，因此引入核函数 $K$ (Kernel function) 对输入加权求和。
- Nadaraya-Watson核回归公式：
$f (x) = \sum_{i = 1}^{n} \frac{K (x - x_{i})}{\sum_{j = 1}^{n} K (x - x_{j})} y_{i},$
- 这里 $K$ 是核函数（如高斯核），为 $x$ 与 $x_{i}$ 的距离分配权重。
注意力机制视角：
$f (x) = \sum_{i = 1}^{n} α (x, x_{i}) y_{i}$
- 根据 $x$ 和 $x_{i}$ 的相似度计算得到注意力权重 $α (x, x_{i})$ 。
  - $x$ ：查询（Query）
  - $x_{i}$ ：键（Key）
  - $α (x, x_{i})$ ：注意力权重
- $α (x, x_{i})$ 非负且归一化（加起来等于1），即概率分布。

高斯核定义： $K (u) = \frac{1}{\sqrt{2 π}} \exp (- \frac{u^{2}}{2})$
代入核回归公式后， $α (x, x_{i})$ 可写为 softmax 形式： $\begin{array}{r} \begin{aligned} f (x) & = \sum_{i = 1}^{n} α (x, x_{i}) y_{i} \\ = \sum_{i = 1}^{n} \frac{\exp (- \frac{1}{2} (x - x_{i})^{2})}{\sum_{j = 1}^{n} \exp (- \frac{1}{2} (x - x_{j})^{2})} y_{i} \\ = \sum_{i = 1}^{n} softmax (- \frac{1}{2} (x - x_{i})^{2}) y_{i} . \end{aligned} \end{array}$
解释： $x$ 离哪个 $x_{i}$ 近， $y_{i}$ 被分配的权重越大。
非参数模型：无需显式参数，数据足够时有一致性，能逼近最优预测。

参数化注意力：距离项乘以（可学习的）参数 $w$ ： $f (x) = \sum_{i = 1}^{n} softmax (- \frac{1}{2} [(x - x_{i}) \cdot w]^{2}) \cdot y_{i}$
$w$ 可通过学习自适应分配 注意力权重 $α (x, x_{i})$ ，模型更灵活。

注意力机制核心在于通过query和key分配权重，有偏向性地聚合输入： $f (x) = \sum_{i = 1}^{n} α (x, x_{i}) \cdot y_{i}$
Nadaraya-Watson核回归可视为最早的注意力池化思想，用核函数对样本加权平均。
非参数注意力权重全依赖输入相似度，带参数版本能通过学习获得更优注意力分布。
该思想为现代深度学习注意力机制（如Transformer中的自注意力）打下理论基础。