2.RNN相关基础知识

2. RNN 相关技术

RNN用潜变量 $h_{t}$ 总结历史信息，适合处理序列数据。
隐藏状态更新公式：
$h_{t} = ϕ (W_{h h} h_{t - 1} + W_{h x} x_{t} + b_{h})$
- $h_{t}$ ：当前时间步的隐藏状态（记忆）
- $h_{t - 1}$ ：上一个时间步的隐藏状态（过去的记忆）
- $x_{t}$ ：当前输入（如词向量）
- $W_{h h}, W_{h x}$ ：可学习的权重矩阵，用于融合历史和当前输入
- $b$ ：偏置项
- $ϕ$ ：激活函数（如 tanh 或 ReLU），引入非线性
- 如果去掉 $W_{h h} h_{t - 1}$ ，RNN就退化成普通的MLP。
RNN 把过去的记忆 $h_{t - 1}$ 和当前输入 $x_{t}$ 融合，经过变换和激活函数，得到新的记忆 $h_{t}$ 。这就是它记住上下文的方式。
输出层公式： $o_{t} = W_{h o} h_{t} + b_{o}$
训练目标：用当前词 $x_{t}$ 和前一状态 $h_{t - 1}$ 计算 $h_{t}$ ，再预测下一个词 $x_{t + 1}$ ，损失函数比较 $o_{t}$ 与 $x_{t + 1}$ 的差异。

π = - \frac{1}{n} \sum_{i = 1}^{n} \log p (x_{i} | x_{1}, . . ., x_{i - 1})

g \leftarrow min (1, \frac{θ}{∥ g ∥}) g

如果梯度范数超过阈值 $θ$ ，则按比例缩放到阈值。(i.e. 当 $| g | > θ$ 时才裁剪)

“觉得不错的话，给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付

RNN

#RNN #Deep_Learning

2.RNN相关基础知识

http://neurowave.tech/2025/04/17/5-2-RNN-RNN相关基础知识/

作者

Artin Tan

发布于

2025年4月17日

更新于

2025年6月25日