当前位置：首页 > news >正文

Post-training of LLMs

news 2025/10/14 7:08:48

大模型后训练的三种主要方式：

监督微调（SFT）：作为最简单且最流行的后训练方法，它属于监督学习/模仿学习范畴。需要创建包含标注的提示-响应对数据集，其中提示通常是给模型的指令，响应则是模型应有的理想回答。此过程仅需1,000至10亿个标记，远少于预训练规模。其训练损失的关键区别在于：仅对响应标记进行训练，而不涉及提示标记。
直接偏好优化（DPO）：该方法需要创建包含提示及其对应优质/劣质响应的数据集。针对任一提示，可生成多个响应并筛选出优质与劣质样本。训练目标是使模型远离劣质响应并学习优质响应。该方法同样仅需1,000至10亿个标记，并采用更复杂的损失函数（后续课程将详细展开）。
在线强化学习（Online RL）：此方法只需准备提示集和奖励函数。从提示开始，让语言模型生成响应，再通过奖励函数对该响应进行评分，最后利用该信号更新模型。通常需要1,000至1,000万（或更多）个提示，目标是通过模型自身生成的响应来最大化奖励值。

SFT：

SFT（Supervised Fine-Tuning，监督微调）是一种常见的模型微调方法。它的基本思想是基于已经预训练好的模型，在特定任务上利用标注数据进行监督学习，从而进一步优化模型的表现。

在SFT中，预训练模型首先被加载并固定在初始状态。然后，在给定的标注数据集上进行微调。与一般的微调方法类似，SFT的目标是通过引入任务特定的监督信号（例如标签或目标输出），让模型在目标任务上进一步优化。

SFT的优势

提高模型性能：通过在特定任务的数据上进行微调，模型可以显著提高在该任务上的表现。
减少标注数据需求：由于预训练模型已经在大量数据上进行过训练，SFT通常只需要较少的标注数据即可达到良好的效果。
灵活性：SFT可以应用于各种任务，如文本分类、情感分析、机器翻译等。

DPO：

DPO（Direct Preference Optimization）是一种用于对齐大语言模型（LLMs）的新型方法，旨在高效地将人类偏好融入模型训练中。它提供了一种替代强化学习（如 RLHF, Reinforcement Learning with Human Feedback）的方式，能够直接优化偏好数据，而无需显式地引入奖励模型（Reward Model）或策略梯度方法。

工作原理

逐步流程

数据收集：收集模型的不同输出，以及人类对这些输出的偏好判断。例如，让模型生成两篇不同的文案，然后让人类评判更喜欢哪一篇。
损失函数定义：设计一个损失函数，用于衡量模型输出与人类偏好之间的差距。损失函数就像一个裁判，告诉模型它的输出离人类偏好有多远。
模型参数更新：根据损失函数的计算结果，使用优化算法更新模型的参数，使模型的输出更接近人类偏好。就像大厨根据顾客反馈调整蛋糕配方一样。
重复训练：不断重复上述步骤，直到模型的输出能很好地符合人类偏好。

关键要点

直接偏好优化（DPO）是一种通过利用人类偏好来训练模型的有效方法，能提升模型输出与人类期望的契合度。
它具有提升用户体验、降低成本等优点，在多个行业有广泛应用前景。

在线强化学习On-Policy

1.在线强化学习和离线强化学习

强化学习（Reinforcement Learning, RL）是一种通过与环境交互来学习最优策略的方法。其中，Online RL和Offline RL是两种主要的范式：

Online RL: 通过实时与环境交互生成数据进行学习。
Offline RL: 基于预收集的静态数据集训练，无需实时交互。

两者的区别在于数据来源和使用方式的不同。Online RL依赖实时生成的数据，而Offline RL则利用已有的历史数据。

2. 数据利用效率比较

从数据利用效率的角度来看，Offline RL通常被认为高于Online RL，主要原因如下：

数据重复利用: Offline RL可以反复使用历史数据进行训练，而Online RL中的每个样本通常只被使用一次或少数几次。
批量处理: Offline RL可以通过批量处理技术一次性对大量数据进行优化，提高计算效率。
数据增强技术: Offline RL可以结合数据增强方法生成更多样化的训练样本，进一步提升数据利用率。

然而，Offline RL也面临分布偏移问题，即训练数据的分布可能与实际应用中的分布不一致，这需要通过保守策略优化等方法缓解。

3. 场景适用性分析

不同场景下，Online RL和Offline RL各有优劣：

场景特点	适合的RL类型	原因
高风险环境	Offline RL	避免因实时交互导致的潜在风险。
低交互成本	Online RL	能够快速适应环境变化。
数据稀缺	Offline RL	充分利用有限的历史数据。

在交互成本高昂或数据采集困难的场景中，Offline RL的高效数据利用能力显得尤为重要。

查看全文

http://www.dtcms.com/a/477712.html