Post-training of LLMs
大模型后训练的三种主要方式:
- 监督微调(SFT):作为最简单且最流行的后训练方法,它属于监督学习/模仿学习范畴。需要创建包含标注的提示-响应对数据集,其中提示通常是给模型的指令,响应则是模型应有的理想回答。此过程仅需1,000至10亿个标记,远少于预训练规模。其训练损失的关键区别在于:仅对响应标记进行训练,而不涉及提示标记。
- 直接偏好优化(DPO):该方法需要创建包含提示及其对应优质/劣质响应的数据集。针对任一提示,可生成多个响应并筛选出优质与劣质样本。训练目标是使模型远离劣质响应并学习优质响应。该方法同样仅需1,000至10亿个标记,并采用更复杂的损失函数(后续课程将详细展开)。
- 在线强化学习(Online RL):此方法只需准备提示集和奖励函数。从提示开始,让语言模型生成响应,再通过奖励函数对该响应进行评分,最后利用该信号更新模型。通常需要1,000至1,000万(或更多)个提示,目标是通过模型自身生成的响应来最大化奖励值。
SFT:
SFT(Supervised Fine-Tuning,监督微调)是一种常见的模型微调方法。它的基本思想是基于已经预训练好的模型,在特定任务上利用标注数据进行监督学习,从而进一步优化模型的表现。
在SFT中,预训练模型首先被加载并固定在初始状态。然后,在给定的标注数据集上进行微调。与一般的微调方法类似,SFT的目标是通过引入任务特定的监督信号(例如标签或目标输出),让模型在目标任务上进一步优化。
SFT的优势
- 提高模型性能:通过在特定任务的数据上进行微调,模型可以显著提高在该任务上的表现。
- 减少标注数据需求:由于预训练模型已经在大量数据上进行过训练,SFT通常只需要较少的标注数据即可达到良好的效果。
- 灵活性:SFT可以应用于各种任务,如文本分类、情感分析、机器翻译等。
DPO:
DPO(Direct Preference Optimization)是一种用于对齐大语言模型(LLMs)的新型方法,旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习(如 RLHF, Reinforcement Learning with Human Feedback)的方式,能够直接优化偏好数据,而无需显式地引入奖励模型(Reward Model)或策略梯度方法。
工作原理
逐步流程
- 数据收集:收集模型的不同输出,以及人类对这些输出的偏好判断。例如,让模型生成两篇不同的文案,然后让人类评判更喜欢哪一篇。
- 损失函数定义:设计一个损失函数,用于衡量模型输出与人类偏好之间的差距。损失函数就像一个裁判,告诉模型它的输出离人类偏好有多远。
- 模型参数更新:根据损失函数的计算结果,使用优化算法更新模型的参数,使模型的输出更接近人类偏好。就像大厨根据顾客反馈调整蛋糕配方一样。
- 重复训练:不断重复上述步骤,直到模型的输出能很好地符合人类偏好。
关键要点
- 直接偏好优化(DPO)是一种通过利用人类偏好来训练模型的有效方法,能提升模型输出与人类期望的契合度。
- 它具有提升用户体验、降低成本等优点,在多个行业有广泛应用前景。
在线强化学习On-Policy
1.在线强化学习和离线强化学习
强化学习(Reinforcement Learning, RL)是一种通过与环境交互来学习最优策略的方法。其中,Online RL和Offline RL是两种主要的范式:
- Online RL: 通过实时与环境交互生成数据进行学习。
- Offline RL: 基于预收集的静态数据集训练,无需实时交互。
两者的区别在于数据来源和使用方式的不同。Online RL依赖实时生成的数据,而Offline RL则利用已有的历史数据。
2. 数据利用效率比较
从数据利用效率的角度来看,Offline RL通常被认为高于Online RL,主要原因如下:
- 数据重复利用: Offline RL可以反复使用历史数据进行训练,而Online RL中的每个样本通常只被使用一次或少数几次。
- 批量处理: Offline RL可以通过批量处理技术一次性对大量数据进行优化,提高计算效率。
- 数据增强技术: Offline RL可以结合数据增强方法生成更多样化的训练样本,进一步提升数据利用率。
然而,Offline RL也面临分布偏移问题,即训练数据的分布可能与实际应用中的分布不一致,这需要通过保守策略优化等方法缓解。
3. 场景适用性分析
不同场景下,Online RL和Offline RL各有优劣:
场景特点 | 适合的RL类型 | 原因 |
---|---|---|
高风险环境 | Offline RL | 避免因实时交互导致的潜在风险。 |
低交互成本 | Online RL | 能够快速适应环境变化。 |
数据稀缺 | Offline RL | 充分利用有限的历史数据。 |
在交互成本高昂或数据采集困难的场景中,Offline RL的高效数据利用能力显得尤为重要。