大模型三阶段训练:预训练、SFT、RLHF解决的核心问题
大模型三阶段训练:预训练、SFT、RLHF解决的核心问题
大模型训练的三阶段(预训练→SFT→RLHF)形成了能力递进的完整链路,每个阶段解决不同层次的关键问题,共同构建出符合人类期望的智能模型。
一、预训练(Pre-training):构建通用知识底座
核心问题解决:
-
语言基础构建:通过海量无标注数据(千亿级tokens)学习语言的语法规则、语义结构和世界常识,形成通用知识网络
-
数据标注困境突破:采用自监督学习(如预测下一个词、掩码语言模型),无需人工标注即可从文本结构中自动提取学习信号
-
计算效率革命:一次预训练(消耗90-99%总算力)可支持下游无数任务微调,大幅降低后续任务成本
-
泛化能力奠基:建立跨领域知识表示,使模型具备"理解语言"而非仅"记忆模式"的能力
技术实现要点:
- 使用Transformer架构,通过自注意力机制捕捉长距离依赖关系
- 采用BERT式掩码语言模型(MLM)或GPT式自回归语言模型(AR)作为训练目标
- 解决"灾难性遗忘":通过精心设计的预训练策略,确保模型在微调时保留核心知识
