当前位置: 首页 > news >正文

请详细说明下面训练阶段的差别: Supervised Fine-Tuning、Reward Modeling、PPO、DPO、KTO、Pre-Training

目录

🔧 一、训练阶段总体流程(从底层到上层)

🧠 1. Pre-Training(预训练)

📌 目的:

📚 数据:

⚙️ 方法:

💡 举个例子:

🧑‍🏫 2. Supervised Fine-Tuning(SFT)监督微调

📌 目的:

📚 数据:

⚙️ 方法:

💡 举个例子:

🏅 3. Reward Modeling(奖励建模)

📌 目的:

📚 数据:

⚙️ 方法:

💡 举个例子:

🤖 4. PPO(Proximal Policy Optimization)强化学习优化

📌 目的:

⚙️ 方法:

📚 PPO 是 RLHF 的关键步骤:

RLHF = SFT + RM + PPO

🆚 5. DPO(Direct Preference Optimization)直接偏好优化

📌 目的:

⚙️ 方法:

💡 举个例子:

✅ 优点:

🧪 6. KTO(Kullback-Leibler Preference Tuning)

📌 目的:

⚙️ 方法:

✅ 优点:

🔚 总结对比表


当然可以!这些训练阶段都是大语言模型(LLM)训练流程中的关键组成部分。我们可以将它们分为三类:


🔧 一、训练阶段总体流程(从底层到上层)

阶段作用举例
1️⃣ Pre-Training让模型学语言、知识、世界常识GPT-3、BERT
2️⃣ Supervised Fine-Tuning(SFT)教模型如何完成任务或对话ChatGPT的第一阶段
3️⃣ Reward Modeling(RM)学习人类偏好,打分响应好坏基于人工标注
4️⃣ PPO / DPO / KTO用强化学习/偏好优化方法强化模型ChatGPT的第二阶段

🧠 1. Pre-Training(预训练)

📌 目的:

让模型学会语言本身,了解各种句式、知识点、世界常识。

📚 数据:

  • 大规模无标注文本(网页、书籍、论文、维基百科等)

⚙️ 方法:

  • 自监督学习(Masked LM 或 Causal LM)

💡 举个例子:

训练时给模型:

 

Input: "The capital of France is" Target: "Paris"

模型在这个阶段学习如何“预测下一个词”。


🧑‍🏫 2. Supervised Fine-Tuning(SFT)监督微调

📌 目的:

让模型“听得懂人话”,学会具体任务(如问答、总结、对话等)。

📚 数据:

  • 人类标注的 <prompt, response>

  • 格式通常是 instruction/instruction+input/output,或 role-based conversation

⚙️ 方法:

  • 传统监督学习(CrossEntropy Loss)

💡 举个例子:

 

json

{ "instruction": "帮我写一封请假邮件", "input": "", "output": "尊敬的领导,我因身体不适请假一天..." }


🏅 3. Reward Modeling(奖励建模)

📌 目的:

让模型学会区分好回答和坏回答

📚 数据:

  • 多个回答由人类进行好坏排序(如 A 比 B 更好)

⚙️ 方法:

  • 输入:同一个 prompt 和多个回答 A/B/C

  • 人类标注回答好坏 → 转换为二分类模型,输出 reward 分数

💡 举个例子:

 

json

{ "prompt": "如何减肥?", "responses": ["每天喝水", "控制饮食+运动"], "preference": "response_2" }

训练出一个 Reward Model,可以打分哪个回答更好。


🤖 4. PPO(Proximal Policy Optimization)强化学习优化

📌 目的:

SFT 模型基础上,用 Reward Model 来指导模型产生更优回答

⚙️ 方法:

  • 模型生成多个回答 → Reward Model 打分 → 计算 reward

  • 用 PPO 算法优化 LLM,让它学会高分回答

📚 PPO 是 RLHF 的关键步骤:

RLHF = SFT + RM + PPO

🆚 5. DPO(Direct Preference Optimization)直接偏好优化

📌 目的:

用人类偏好数据训练模型,但跳过 Reward Model 和 PPO

⚙️ 方法:

  • 输入一对 prompt + (preferred_answer, rejected_answer)

  • 模型直接优化让 preferred 的概率更大

💡 举个例子:

DPO 直接使用偏好对训练:

 

json

{ "prompt": "怎么处理职场矛盾?", "chosen": "倾听对方,寻找共识。", "rejected": "直接对骂。" }

训练目标是:

 

less

P(chosen | prompt) > P(rejected | prompt)

✅ 优点:

  • 比 PPO 简单很多

  • 更稳定、更快、资源占用低


🧪 6. KTO(Kullback-Leibler Preference Tuning)

📌 目的:

另一种“无 reward model 的偏好优化”方法,和 DPO 类似,但更加稳定

⚙️ 方法:

  • 也是用 preferred vs rejected

  • 但优化的是 KL 散度 差异,使模型回答分布更加接近偏好方向

✅ 优点:

  • 比 DPO 更稳

  • 不需要调复杂的超参数(不像 PPO)


🔚 总结对比表

阶段是否需要标注数据是否训练新模型是否需 reward model优点
Pre-Training否(大数据)学习语言本身
SFT✅(人工答案)教模型完成任务
Reward Modeling✅(排序)评估回答好坏
PPO✅(排序)RLHF核心步骤
DPO✅(偏好对)简洁高效
KTO✅(偏好对)稳定度更高

相关文章:

  • 【MySQL】索引特性
  • OpenCV 图形API(37)图像滤波-----分离过滤器函数sepFilter()
  • SvelteKit 最新中文文档教程(20)—— 最佳实践之性能
  • 系统架构设计师:系统架构概述案例分析与简答题、详细解析与评分要点
  • 【Caddy】:现代化、自动 HTTPS 的 Web 服务器新星
  • 基础(测试用例:介绍,测试用例格式,案例)
  • 并发编程之可见性、原子性、有序性问题
  • npm install 版本过高引发错误,请添加 --legacy-peer-deps
  • 使用nvm install XXX 下载node版本时网络不好导致npm下载失败解决方案
  • 智能麻将出牌组件
  • 【更新完毕】2025泰迪杯数据挖掘竞赛A题数学建模思路代码文章教学:竞赛论文初步筛选系统
  • 2025年广东消防设施操作员(初级)考试练习题
  • Spark大数据分析与实战笔记(第四章 Spark SQL结构化数据文件处理-05)
  • 系统与网络安全------弹性交换网络(1)
  • 解决前端vue项目在linux上,npm install,node-sass 安装失败的问题
  • 线上教学平台(vue+springboot+ssm+mysql)含文档+PPT
  • AI赋能PLC(一):三菱FX-3U编程实战初级篇
  • NoETL×大模型:Aloudata重构数据智能新范式,开启Chat BI新落地之道
  • React 高级特性与最佳实践
  • 自我生成,自我训练:大模型用合成数据实现“自我学习”机制实战解析
  • 开家网站建设培训学校/网络营销策划与推广
  • 做公司网站怎么推广/微信销售平台
  • 做企业网站赚钱吗/链接平台
  • 怎么样才能把网站关键词做有排名靠前/营销策划思路
  • 专门做别墅的网站/关键词三年级
  • 外贸工厂网站做seo多吗/苏州搜索引擎排名优化商家