对 DeepSeek、Qwen模型技术报告中的名词部分进行介绍
🧠 1. 预训练
• 目标:从海量无标注文本中学语言能力(通常一次性训练大模型)
• 特点:训练耗时、成本高,但是基础中的基础
• 是否自己做:一般使用开源预训练模型,无需重复训练
📋 2. 指令监督微调(SFT)
• 目标:让模型学会执行人类指令(如问答、对话)
• 方式:使用高质量“指令-回答”对做有监督训练
• 适用:适合构建基础可控模型,例如 chat 模式
🏆 3. 奖励模型训练(RM)
• 目标:训练一个模型来评分输出“好不好”(打分器)
• 用途:给后续的强化学习训练(PPO 等)提供 reward
• 难点:数据构建难,通常需要人类偏好对比(两个答案哪个更好)
🧪 4. PPO(Proximal Policy Optimization)
• 目标:基于 reward(RM 输出)优化模型策略
• 特点:传统 RLHF 强化学习方法,收敛慢,难调参
• 效果:输出多样化、有创造力,但训练代价大
🧬 5. DPO(Direct Preference Optimization)
• 目标:跳过奖励模型,直接用偏好对比做优化
• 优点:比 PPO 简单,不需要 reward model
• 效果:训练稳定性好,适合偏好对比数据(成对答案)
🧮 6. KTO / ORPO / SimPO(偏好优化方法族)
方法 | 特点 | 简介 |
---|
KTO | 数据顺序敏感 | Keep The Order:保留偏好顺序信息 |
ORPO | 在线排序优化 | Online Rank Preference Optimization,处理多个选项的排序关系 |
SimPO | 利用相似性评分 | 使用 Cosine 等方法衡量输出间偏好差异,训练稳定、效果好 |
🪶 7. LoRA / QLoRA
• 是一种训练方式/技巧,而不是训练目标
• 用来替代“全参数训练”,只训练少量插入层,显存省、训练快
• QLoRA 是量化版本(通常 4bit),更节省资源
目标 | 推荐方式 |
---|
基础问答、对话 | 指令微调(SFT) + LoRA |
控制输出质量、有偏好排序 | DPO / ORPO / SimPO |
追求效果极致(预算高) | PPO(需 RM) |
资源紧张 | QLoRA + SimPO |
不想构建 RM | DPO / SimPO 更简单 |