Chapter 1:绪论
Chapter 1:绪论
在阅读本章时,我的目标不是死记每个细节或参数,而是快速梳理大语言模型的来龙去脉,把握主要发展脉络和核心概念。
我要做的是:先建立一个清晰的大框架,了解最最基础的历史、技术变迁和关键节点,让自己知道 整本书能带来什么,以及 后续学习要关注哪些主线内容。这样后面学具体细节时,才不会迷路,也能做到有重点、成体系。
1.1 大语言模型的基本概念
-
什么是大语言模型?
- 大语言模型(LLM):指参数量达到数百亿甚至更多的深度神经网络模型,通常使用自监督学习方法,在海量未标注文本上训练。
- 2018年以来,BERT、GPT等模型相继发布,全面提升NLP任务效果。
- 2022年11月ChatGPT发布后,LLM能力爆红,大家都知道AI能聊天、写文案、做摘要、翻译,甚至表现出"世界知识"与推理能力。
-
语言模型的目标
- 语言模型要对自然语言的概率分布建模,本质就是计算一句话出现的概率
。 - 直接建模联合概率不现实——词表很大,句子很长,参数量呈爆炸式增长(天文数字)。
- 链式法则:把联合概率分解为条件概率的连乘。
- 例:
- 语言模型要对自然语言的概率分布建模,本质就是计算一句话出现的概率
-
n-gram模型的提出
- 为减少参数空间,n-gram模型假设每个词只依赖前n-1个词:
- 这样能极大降低建模难度,但有明显缺陷:
- 只能建模有限长度上下文,长距离依赖无能为力。
- 必须依赖"平滑技术"解决训练数据中"未见词"n-gram概率为0的问题(如加一平滑、Kneser-Ney平滑等)。
- n增大时数据稀疏性加剧,难以获得可靠参数估计。
- 词是离散one-hot编码,完全忽略了词与词之间的语义相似性。
- 为减少参数空间,n-gram模型假设每个词只依赖前n-1个词:
-
神经网络语言模型(NLM)
- 神经网络语言模型(如前馈神经网络、RNN、CNN、记忆网络)成为新主流。
- 核心思想:用稠密的**词向量(Word Embedding)**替代离散one-hot编码,让相似词的向量距离更近,自动捕获语义关系。
- 优势:能缓解稀疏性、支持更长距离依赖建模。
- 训练方式逐步过渡到自监督学习(利用未标注文本直接构造训练目标)。
-
预训练语言模型(PLM)与微调范式
- 借鉴计算机视觉领域的ImageNet范式,NLP发展出"预训练+微调"的主流方案。
- 先在大规模无标注文本上训练一个通用模型(预训练,学习基础语言知识);下游任务只需简单微调,无需专门为每个任务重新设计和训练新模型。
- 代表模型:ELMo(2018,动态词向量)、BERT(2018,编码器结构)、GPT(2018,解码器结构)。
- PLM时代:每个下游任务都需单独微调。
-
大语言模型爆发 & 新范式
- GPT-3(2020)参数量达1750亿,掀起"规模=能力"热潮,训练资源消耗极大(上千块GPU,训练数周至数月)。
- 出现缩放法则(Scaling Laws):模型性能会随参数量、数据量、算力的指数提升而线性改善(损失降低)。
- 进入In-Context Learning(ICL,语境学习)、"Prompt工程"、指令微调、模型即服务(MaaS)等新阶段。
- ICL:无需模型参数更新,只需输入样例,模型即可迁移执行新任务。
- Prompt/指令微调等让LLM能更好理解和服从人类意图。
1.2 大语言模型的发展历程
-
基础模型阶段(2018年—2021年)
- 2017年,Transformer架构提出,成为后续大模型的技术基石。
- 2018年,Google提出BERT,OpenAI提出GPT-1,预训练语言模型时代拉开序幕。
- 参数量迅速增长:BERT-Base(1.1亿)、BERT-Large(3.4亿)、GPT-1(1.17亿)。
- 2019年,OpenAI发布GPT-2(15亿参数),Google发布T5(110亿参数)。
- 2020年,OpenAI进一步扩展到GPT-3(1750亿参数)。
- 同期,国内发布一批大模型,如清华ERNIE、百度ERNIE、华为PanGu-α等。
- 这一阶段,各种架构探索如仅编码器(BERT类)、仅解码器(GPT类)、编码器-解码器(T5类)并存,但主流还是预训练-微调范式。
- 模型规模迈上十亿量级,微调带来的计算量暴涨。
-
能力探索阶段(2019年—2022年)
- 由于超大模型微调难度大,研究重心转向不微调参数也能用好大模型(零样本/少样本能力)。
- 2019年,GPT-2被用于零样本任务探索。
- GPT-3通过In-Context Learning(ICL,语境学习),只需输入少量有标注样例,无需微调即可解决多种新任务,效果媲美甚至超过传统有监督方法。
- 出现指令微调(Instruction Tuning),将多任务转化为统一的生成框架,微调一次即可泛化。
- 2022年,Ouyang等人提出InstructGPT(有监督微调+奖励建模+强化学习),能让模型更好服从人类指令。
- 出现WebGPT(结合搜索增强问答),进一步拓宽LLM能力边界。
- 大模型在多任务上的泛化和实用性大幅提升。
-
突破发展阶段(2022年11月—2025年2月及以后)
- 以2022年11月ChatGPT发布为标志,LLM进入全面爆发期。
- ChatGPT让LLM通过一个对话框即可支持问答、写作、代码生成、数学推理等复杂任务。
- 2023年3月,GPT-4发布,显著提升多模态理解与复杂推理能力。
- 2024年5月,GPT-4o问世,支持文本、音频、图像多模态输入输出,反应速度极快。
- 2024年9月,GPT-o1等新模型在复杂推理和思维链能力上表现超越前作。
- 国内外开源和闭源模型数量爆炸式增长:如LLaMA、Qwen、DeepSeek、Baichuan、MOSS、ChatGLM、Gemini、Claude等。
- 新一代推理增强模型、智能体、多模态LLM成为研究和产业热点。
1.3 大语言模型的构建流程(以OpenAI为例)
- LLM训练流程一般分为四大阶段,每一阶段对应不同目标和数据类型:
-
预训练(Pretraining)
- 用海量互联网数据(网页、百科、书籍、代码、论文等,数万亿token),在大规模算力集群(数百至数千GPU)上训练出基础模型(Base Model),具备基本的文本生成和世界知识能力。
- 训练耗时极长,资源消耗巨大(如GPT-3需上千块GPU、数周至数月)。
- 模型通过"预测下一个词"或"填空"等自监督目标学习语言本质。
-
有监督微调(Supervised Fine-Tuning, SFT)
- 用少量高质量标注数据(如QA、对话、翻译等),在基础模型上"微调",训练得到SFT模型,使其具备更好的指令理解与上下文把控能力。
- SFT模型能直接用于下游应用,具备初步多任务能力和泛化性。
- 微调所需数据量远小于预训练阶段,资源消耗较低。
-
奖励建模(Reward Modeling)
- 构建奖励模型,对同一输入下SFT模型的多个输出结果进行打分和排序,训练出能自动区分好坏输出的奖励模型。
- 奖励模型本身不能直接用于对话或问答,仅用于后续强化学习阶段的优化目标。
- 奖励建模对标注质量要求极高,需大规模对比数据,且一致性难以保证,是数据瓶颈之一。
-
强化学习(Reinforcement Learning, RL)
- 利用奖励模型给出的反馈信号,对SFT模型参数做进一步优化(如采用PPO算法),提升模型生成内容的质量、相关性与"人类偏好"一致性。
- RLHF可以显著提升模型的泛化与对话能力,但也可能带来多样性下降、收敛不稳定、超参数难调等新问题。
- RL阶段训练数据量适中,资源消耗远小于预训练,但比SFT略高。
- 最终得到的RL模型(如ChatGPT、GPT-4、Claude等)是直接面向用户的产品形态。
参考资料
- 《大语言模型:从理论到实践(第二版)》-- 张奇、桂韬、郑锐、黄萱菁
“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信支付

支付宝支付
Chapter 1:绪论
http://neurowave.tech/2025/04/19/9-1-LLMs从理论到实践/