1. Attention 核心思想
1. Attention 核心思想
1. 动机
- 灵感:人类处理信息时,会选择性关注关键部分,注意力机制模仿了这一处理方式。
- 作用:序列模型面对长输入时,注意力机制让模型能分配不同"权重",聚焦重要信息片段。
- 实现:为每个输出位置,模型通过查询(query) 和 键(key) 计算相关性分数,对输入各部分进行加权汇聚,生成上下文表示。
2. 非参数注意力池化(Nadaraya-Watson 核回归)
-
平均汇聚(最简单的回归)
- 给定数据:
。 - 平均池化:是最简单的方案:
。 - 缺点:无视输入,无法反映输入与输出间的实际关系,表现通常很差。
- 给定数据:
-
更好的方案是 60 年代提出的 Nadaraya-Watson 核回归:
- 改进思路:不同输入
附近的样本应该对输出影响更大,因此引入核函数 (Kernel function) 对输入加权求和。 - Nadaraya-Watson核回归公式:
- 这里
是核函数(如高斯核),为 与 的距离分配权重。
- 改进思路:不同输入
-
注意力机制视角:
- 根据
和 的相似度计算得到 注意力权重 。 :查询(Query) :键(Key) :注意力权重
非负且归一化(加起来等于1),即概率分布。
- 根据
3. 高斯核 (Gaussian Kernel) & softmax 形式
- 高斯核定义:
- 代入核回归公式后,
可写为 softmax 形式: - 解释:
离哪个 近 , 被分配的权重越大。 - 非参数模型:无需显式参数,数据足够时有一致性,能逼近最优预测。
4. 带参数注意力池化(可学习)
- 参数化注意力:距离项乘以(可学习的)参数
: 可通过学习自适应分配 注意力权重 ,模型更灵活。
5. 总结
- 注意力机制核心在于通过query和key分配权重,有偏向性地聚合输入:
- Nadaraya-Watson核回归可视为最早的注意力池化思想,用核函数对样本加权平均。
- 非参数注意力权重全依赖输入相似度,带参数版本能通过学习获得更优注意力分布。
- 该思想为现代深度学习注意力机制(如Transformer中的自注意力)打下理论基础。
参考资料
“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付
1. Attention 核心思想
http://neurowave.tech/2025/04/18/7-1-Attention/