3. Bahdanau 注意力（Seq2Seq + Attention）

1. 动机

经典 Seq2Seq（编码器-解码器）模型使用两个 RNN：
- Encoder：把整个输入序列"压缩"为一个固定长度的上下文向量（context）。
- Decoder：每一步都依赖这同一个 context 生成下一个输出。
局限性：
1. 输入句子很长时，固定长度的 context 向量无法承载全部信息，导致信息丢失。
2. 实际每个目标词往往只需要关注输入序列的不同部分，而原始 Seq2Seq 总是用同一个 context，缺乏"定位感"。

核心思想：
上下文 $c$ 不再固定，而是每一步动态计算，由解码器当前状态（query）和所有编码器输出（key/value）共同决定。
工作流程：
1. Encoder 输出序列 $h_{1}, . . ., h_{T}$ （每个词的隐藏状态）。
2. 每个解码时刻 $t^{'}$ ，用上一步 Decoder 状态 $s_{t^{'} - 1}$ 作为 query，Encoder每个隐藏状态 $h_{t}$ 作为 key 和 value。
3. 计算注意力权重 $α (s_{t^{'} - 1}, h_{t})$ ，得到各输入对当前输出的贡献度。
4. 动态上下文向量计算公式：
  $c_{t^{'}} = \sum_{t = 1}^{T} α (s_{t^{'} - 1}, h_{t}) h_{t}$
5. $c_{t^{'}}$ 与 Decoder 其他输入（如上一步输出）一起，决定 decoder 下一个状态 $s_{t^{'}}$ 和生成的输出。