1.词嵌入（Word Embedding，Word2Vec）

1. 词嵌入（Word Embedding，Word2Vec）

独热向量（one-hot） 的问题：
1. 高维稀疏性：独热向量维度极高，且大部分元素为 0。
2. 缺乏语义相似性：无法表达词语间的语义关系（例如，"猫"和"狗"都是动物，但向量点积为 0）。

目标：将每个词映射到一个低维稠密向量，使语义相近的词在向量空间中彼此靠近。
通过上下文（context）或中心词（centre word）来训练词向量，包含两种模型结构：
1. Skip-Gram：给定中心词，预测其上下文词。例如："apple" → "eat", "red"。
2. CBOW (Continuous Bag-of-Words)：给定上下文词，预测中心词。例如："cat", "dog" → "animal"。

目标：给定中心词 $w_{c}$ ，预测其上下文词 $w_{o}$ 。
建模思路：
- 对于序列 $w_{1}, w_{2}, . . ., w_{T}$ ，给定中心词 $w_{t}$ ，预测窗口内的上下文词 $w_{t - m}, . . ., w_{t - 1}, w_{t + 1}, . . ., w_{t + m}$ 。
- 每个词有两种向量表示：作为中心词的向量 $v_{i} \in R^{d}$ ，作为上下文的向量 $u_{i} \in R^{d}$ 。
条件概率计算：
$P (w_{o} ∣ w_{c}) = \frac{exp (u_{o}^{⊤} v_{c})}{\sum_{i \in V} exp (u_{i}^{⊤} v_{c})}$
- 词表索引集合 $V = {0, 1, \dots, | V | - 1}$ ，给定长度为 $T$ 的文本序列。
损失函数（负对数似然）：
$- \sum_{t = 1}^{T} \sum_{- m \leq j \leq m, j \neq 0} log P (w^{(t + j)} ∣ w^{(t)}) .$
计算优化：直接计算softmax对大词表太慢，实际训练用 负采样 或 层次softmax 近似。

目标：给定上下文词，预测其中心词。
模型结构
- 上下文词的向量取平均：
  ${\bar{v}}_{o} = \frac{1}{2 m} \sum_{k = 1}^{2 m} v_{k_{o}}$
  其中 $m$ 为上下文窗口大小。
- 条件概率计算：
  $P (w_{c} ∣ W_{o}) = \frac{\exp (u_{c}^{⊤} {\bar{v}}_{o})}{\sum_{i \in V} \exp (u_{i}^{⊤} {\bar{v}}_{o})} .$
训练
- 损失函数：最小化负对数似然： $J = - \sum_{t = 1}^{T} log P (w^{(t)} ∣ w^{(t - m)}, \dots, w^{(t - 1)}, w^{(t + 1)}, \dots, w^{(t + m)}) .$
- 梯度计算：对上下文词向量 $v_{o_{i}}$ 的梯度： $\frac{\partial \log P (w_{c} ∣ W_{o})}{\partial v_{o_{i}}} = \frac{1}{2 m} (u_{c} - \sum_{j \in V} P (w_{j} ∣ W_{o}) u_{j})$
- 这里其实是对 CBOW 损失函数的梯度公式。注意梯度实际会依赖于负采样的采样方式。

Embedding：本质是将词映射到实向量的技术，通过空间距离反映语义相似性。
Word2Vec包含 Skip-Gram 和 CBOW 两种主流结构。
- Skip-Gram：适合小数据集，对低频词表现更好。
- CBOW：训练更快，适合大数据集，对高频词更鲁棒。
局限性：
- 无法处理一词多义。
- 只依赖局部上下文窗口，无法捕捉全局统计信息。