1. Attention 核心思想

1. Attention 核心思想

1. 动机

  • 灵感:人类处理信息时,会选择性关注关键部分,注意力机制模仿了这一处理方式。
  • 作用:序列模型面对长输入时,注意力机制让模型能分配不同"权重",聚焦重要信息片段。
  • 实现:为每个输出位置,模型通过查询(query)键(key) 计算相关性分数,对输入各部分进行加权汇聚,生成上下文表示。

2. 非参数注意力池化(Nadaraya-Watson 核回归)

  1. 平均汇聚(最简单的回归)

    • 给定数据(xi,yi),i=1,,n
    • 平均池化:是最简单的方案:f(x)=1ni=1nyi
    • 缺点:无视输入,无法反映输入与输出间的实际关系,表现通常很差。
  2. 更好的方案是 60 年代提出的 Nadaraya-Watson 核回归

    • 改进思路:不同输入 x 附近的样本应该对输出影响更大,因此引入核函数 K (Kernel function) 对输入加权求和。
    • Nadaraya-Watson核回归公式
    f(x)=i=1nK(xxi)j=1nK(xxj)yi,
    • 这里K是核函数(如高斯核),为 xxi 的距离分配权重。
  3. 注意力机制视角

    f(x)=i=1nα(x,xi)yi
    • 根据 xxi 的相似度计算得到 注意力权重 α(x,xi)
      • x:查询(Query)
      • xi:键(Key)
      • α(x,xi) :注意力权重
    • α(x,xi) 非负且归一化(加起来等于1),即概率分布。

3. 高斯核 (Gaussian Kernel) & softmax 形式

  • 高斯核定义:K(u)=12πexp(u22)
  • 代入核回归公式后,α(x,xi) 可写为 softmax 形式:f(x)=i=1nα(x,xi)yi=i=1nexp(12(xxi)2)j=1nexp(12(xxj)2)yi=i=1nsoftmax(12(xxi)2)yi.
  • 解释x 离哪个 xi近 ,yi 被分配的权重越大。
  • 非参数模型:无需显式参数,数据足够时有一致性,能逼近最优预测。

4. 带参数注意力池化(可学习)

  • 参数化注意力:距离项乘以(可学习的)参数 wf(x)=i=1nsoftmax(12[(xxi)w]2)yi
  • w 可通过学习自适应分配 注意力权重 α(x,xi),模型更灵活。

5. 总结

  • 注意力机制核心在于通过query和key分配权重,有偏向性地聚合输入:f(x)=i=1nα(x,xi)yi
  • Nadaraya-Watson核回归可视为最早的注意力池化思想,用核函数对样本加权平均。
  • 非参数注意力权重全依赖输入相似度,带参数版本能通过学习获得更优注意力分布。
  • 该思想为现代深度学习注意力机制(如Transformer中的自注意力)打下理论基础。

参考资料

李沐《手动深度学习》:注意力提示
李沐《手动深度学习》:注意力汇聚 Nadaraya-Watson 核回归


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

1. Attention 核心思想
http://neurowave.tech/2025/04/18/7-1-Attention/
作者
Artin Tan
发布于
2025年4月18日
更新于
2025年6月30日