预训练与后训练 区别
在大语言模型(LLMs)的训练流程中,预训练(Pretraining) 与后训练(Post-training) 是两个目标、数据、方法和产出均截然不同的核心阶段,二者共同决定了模型的基础能力与实用价值。以下从6个关键维度详细对比二者的区别,并结合论文中关于“幻觉(Hallucination)”的分析,说明二者对模型行为的不同影响:
一、核心目标:从“学习语言规律”到“对齐实用需求”
维度 | 预训练(Pretraining) | 后训练(Post-training) |
---|---|---|
核心目标 | 让模型“理解语言”:学习人类语言的语法、语义、常识及世界知识,掌握“概率性语言生成”能力。 | 让模型“好用且安全”:将预训练模型的通用能力对齐具体任务需求(如问答、代码生成),同时减少幻觉、偏见等问题。 |
本质定位 | 无监督的“语言学习阶段”:类似人类童年的语言启蒙,积累基础语言和世界知识。 | 有监督/半监督的“能力微调阶段”:类似人类上学后的专业训练,适配特定场景的实用需求。 |
论文关联 | 预训练是幻觉的“源头”:即使训练数据无错误,统计学习的本质也会导致模型生成错误(如生日猜测错误)。 | 后训练本应减少幻觉,但当前评估体系反而“强化幻觉”:因多数基准(如MMLU、SWE-bench)用二进制评分(对/错),鼓励模型“猜测”而非“承认不确定”。 |
二、训练数据:从“海量通用文本”到“任务特定数据”
训练数据的差异是二者最直观的区别,直接决定了模型能力的“广度”与“精度”:
-
预训练数据:
- 来源:海量、无标注的通用文本(如互联网网页、书籍、论文、新闻等),覆盖多领域、多语言。例如GPT系列模型的预训练数据包含数万亿tokens的公开文本。
- 特点:
- 规模极大(通常以TB级计),确保模型学习到通用语言规律;
- 质量参差不齐,可能包含错误、偏见或半真半假的信息(论文称为“Garbage in, Garbage out”,是幻觉的诱因之一);
- 无明确任务导向,仅需模型学习“文本的概率分布”(即“下一个词最可能是什么”)。
-
后训练数据:
- 来源:小规模、有标注或有偏好的任务特定数据,通常分为三类:
- 指令微调数据:人工编写的“指令-响应”对(如“总结这篇文章→[总结结果]”),让模型理解人类指令意图;
- 反馈数据:人类或AI对模型输出的偏好标注(如“回答A比回答B更准确”),用于强化学习(RLHF/RLAIF);
- 事实校准数据:领域内的权威知识(如医学指南、代码文档),用于修正预训练中的错误认知,减少幻觉。
- 特点:
- 规模小(通常以GB级或更小计),聚焦特定任务的精度提升;
- 质量高,需人工筛选或标注,确保数据的准确性和指导性;
- 强任务导向,直接关联模型的下游使用场景(如客服对话、代码修复)。
- 来源:小规模、有标注或有偏好的任务特定数据,通常分为三类:
三、训练方法:从“无监督密度估计”到“有监督微调/强化学习”
二者的训练目标差异,决定了采用完全不同的学习范式:
-
预训练方法:
- 核心范式:无监督的“密度估计”(Density Estimation),即让模型学习预训练数据的概率分布 ( p(x) ),并输出一个近似分布 ( \hat{p}(x) )。
- 具体任务:
- 主流方法是“自监督学习”,最常见的任务是“下一个词预测”(Next-word Prediction):给定前文,让模型预测下一个词的概率;
- 部分模型会加入“句子排序”“掩码语言建模”(如BERT的MLM任务)等,强化对文本结构的理解。
- 损失函数:以“交叉熵损失(Cross-Entropy Loss)”为主,最小化模型预测分布与真实文本分布的差异,确保模型生成“符合语言规律”的文本(即使内容错误,论文称为“统计压力导致的错误”)。
-
后训练方法:
- 核心范式:有监督或半监督的“任务对齐学习”,通过外部反馈或指令修正模型行为。
- 具体方法:
- 指令微调(Instruction Tuning):用“指令-响应”对直接微调预训练模型,让模型学会“遵循指令”(如 Alpaca 模型用52K条指令数据微调 LLaMA);
- 强化学习(RLHF/RLAIF):基于人类或AI的偏好反馈,构建“奖励模型”,再用强化学习(如PPO算法)优化模型输出,使其更符合人类价值观(如“更准确、更无害”);
- 直接偏好优化(DPO):跳过奖励模型训练,直接用偏好数据优化模型,简化后训练流程,同样用于提升输出质量。
- 损失函数:
- 指令微调:仍用交叉熵损失,但目标是“预测正确的响应”而非“预测下一个词”;
- RLHF/RLAIF:用“奖励损失”(最大化人类偏好的输出概率)和“KL散度损失”(避免模型偏离预训练的通用能力)组合,平衡“对齐”与“能力保留”。
四、模型产出:从“基础语言模型”到“任务适配模型”
两个阶段的训练产出,在能力和适用场景上有本质区别:
-
预训练产出:基础模型(Base Model)
- 能力:具备通用语言理解和生成能力(如流畅写句子、识别语义),但“不会执行具体任务”——例如预训练的GPT-4无法直接回答“什么是光合作用”,需进一步后训练;
- 缺陷:
- 无法理解人类指令意图(如用户说“总结”,模型可能继续生成文本而非总结);
- 易产生幻觉:论文通过“Is-It-Valid(IIV)二进制分类”证明,即使预训练数据无错误,模型的生成错误率(如 hallucination)至少是二分类错误率的2倍(公式:( \text{generative error rate} \gtrsim 2 \cdot \text{IIV misclassification rate} ));
- 校准性较好(如图2所示,预训练模型的“预测置信度”与“实际正确率”匹配),但缺乏“实用判断力”。
-
后训练产出:指令模型(Instruction-Following Model)
- 能力:
- 理解并执行人类指令(如总结、翻译、代码生成);
- 输出更符合人类偏好(如更简洁、更准确);
- 部分修正预训练中的错误(如通过领域数据微调,减少医学、法律领域的幻觉)。
- 缺陷:
- 可能“过拟合”到后训练数据,导致通用能力下降(如代码微调后的模型,写散文能力变差);
- 校准性下降(如图2所示,RLHF后的模型可能“过度自信”——低置信度的预测反而正确率高);
- 幻觉未被根治:论文指出,因多数后训练评估仍用“二进制评分”,模型会继续“猜测”(如回答生日时输出错误日期),而非输出“我不知道”。
- 能力:
五、核心挑战:从“统计误差”到“对齐偏差”
二者面临的核心问题截然不同,反映了LLM训练的两个关键瓶颈:
-
预训练的核心挑战:统计误差与数据质量
- 不可避免的错误:论文证明,即使预训练数据无错误,模型为了“拟合语言分布”,也会生成错误(如对“罕见事实”的猜测——生日、论文标题等,因训练数据中仅出现一次,模型无法准确记忆,只能随机生成);
- 数据污染:预训练数据中的错误、偏见会被模型“记住”并复现(如论文中提到的“阴谋论”,模型会复制训练数据中的错误观点)。
-
后训练的核心挑战:评估体系偏差与对齐成本
- 评估诱导幻觉:当前主流基准(如MMLU、SWE-bench)用“对/错”二进制评分,不奖励“不确定回答”(如“我不知道”得0分,错误猜测也得0分,但猜测有概率得1分),导致模型倾向“冒险猜测”(论文称为“惩罚不确定性的流行病”);
- 对齐成本高:后训练依赖大量人工标注(如RLHF需人类标注偏好),成本昂贵且易引入标注者偏见;
- 泛化性差:针对某一任务的后训练(如数学解题),可能无法迁移到其他任务(如文学创作)。
六、总结:二者的协同关系与核心差异
预训练与后训练并非对立关系,而是“先广度、后精度”的协同流程——预训练决定模型的“上限”(通用能力),后训练决定模型的“下限”(实用表现)。二者的核心差异可概括为:
对比维度 | 预训练(Pretraining) | 后训练(Post-training) |
---|---|---|
目标 | 学习通用语言规律与世界知识 | 对齐人类指令与任务需求,减少缺陷 |
数据 | 海量、无标注、通用文本 | 小规模、有标注、任务特定数据 |
方法 | 无监督下一个词预测(交叉熵损失) | 有监督微调/强化学习(RLHF/DPO) |
产出 | 基础模型(通用但无任务能力) | 指令模型(任务适配但通用能力可能下降) |
对幻觉的影响 | 源头(统计压力+数据错误) | 本应缓解,但受评估体系限制,可能强化幻觉 |
论文的核心观点也印证了这一协同关系:幻觉的根治需同时优化预训练(减少数据错误、改进统计学习方法)和后训练(改革评估体系,奖励“承认不确定”而非“猜测”),尤其是后者——通过修改主流基准的评分规则(如加入“不确定回答”的部分得分),才能引导模型向“更可信”的方向发展。