1.文本预处理

1. 文本预处理

序列数据（时序结构）：音乐，语言，视频，文本
建模方法：利用条件概率分解（Chain Rule）建模联合概率： $P (a, b) = P (a) P (b | a) = P (b) P (a | b)$
对条件概率的建模主要有两种方案：
- 马尔科夫假设：只依赖最近 $τ$ 个历史数据点，简化模型复杂度
- 潜变量模型：用潜变量 $h_{t} = f (x_{1}, . . ., x_{t - 1})$ 概括历史信息， $x_{t} \sim p (x_{t} | h_{t})$
时序模型核心思想：当前数据与过去相关
自回归模型，通过自身历史数据预测未来

加载文本
将原始文本作为字符串（String）读入内存。
分词（Tokenisation）
- 使用 tokenise 函数把 文本列表 作为输入，
- 列表中每个元素是一个 文本序列，
- 每个 文本序列 被切分为词元（token）列表。
- Token 是文本的基本单位，可能是单词、子词或字符。
- 最终返回一个由 Token 列表组成的列表。（a list of token lists）
构建词表/字典（Vocabulary）
- 词元是字符串类型，为了后续建模，需要把每个 token 映射成唯一的数字索引。
- 构建词表的主要步骤：
  1. 收集语料（Corpus）：合并所有训练文本，统计唯一 token，并分配数字索引。
  2. 排序：按 token 出现频率从高到低排序。
  3. 过滤低频词：设置最低频率阈值，低于此阈值的 token 会被移除，减少复杂性。
  4. 添加特殊词元
    - <unk>：未登录词（未知词汇）
    - <pad>：填充
    - <bos>：序列开始
    - <eos>：序列结束
  5. 建立2个核心映射
    - token_to_idx: token → 索引
    - idx_to_token: 索引 → token
数值化文本
使用词表，将每个文本序列转换为索引序列，变为可直接输入模型的数字数据。