RLHF vs RLVR:对齐学习中的两种强化方式详解
在语言模型对齐(alignment)中,强化学习(RL)是一种重要的策略。而其中两种典型形式——RLHF(Reinforcement Learning with Human Feedback) 与 RLVR(Reinforcement Learning with Verifiable Rewards),虽然都采用强化学习优化模型行为,但在奖励来源、训练过程和适用场景等方面存在关键差异。
核心对比:RLHF vs RLVR
方面 | RLHF(Reinforcement Learning with Human Feedback) | RLVR(Reinforcement Learning with Verifiable Rewards) |
---|---|---|
奖励来源 | 训练一个 Reward Model(RM) 来拟合人类偏好 | 使用明确的规则、目标函数或可验证的标准直接计算奖励 |
奖励解释性 | 奖励是黑箱的、主观的(基于人类反馈) | 奖励是透明的、可验证的(基于硬规则或指标) |
构建复杂度 | 需要收集人类偏好数据、训练RM | 依赖于定义良好的可计算标准 |
使用场景 | 用于目标难以精确定义(如对话质量)的任务 | 用于目标可以用明确标准度量的任务(如编程、逻辑推理) |
可验证性 | 奖励不可验证、难以复现 | 奖励具有形式化定义、可验证、可复现 |
示例 | ChatGPT调优、语言生成偏好优化 | 代码生成正确性验证、逻辑推理题目的精确评分 |
模型对齐风险 | 可能学习到 Reward Hacking 或对抗性行为 | 更容易实现稳健和安全对齐 |
示例
RLHF(人类反馈强化学习)
假设你在训练一个对话模型,你让多个用户比较两段回复,让他们选择更喜欢的那一段。这些偏好数据被用于训练一个 Reward Model(RM),然后模型再通过强化学习最大化 RM 的预测分数。
RLVR(可验证奖励强化学习)
假设你训练一个代码生成模型,只要模型生成的代码能通过全部单元测试,就自动获得正向奖励。这个过程不需要人类参与,也不需要构建 reward model,奖励是由外部可验证系统自动给出的。
质区别总结
- RLHF 的 reward 是主观近似(approximation)人类意图的一个 proxy
- RLVR 的 reward 是客观可验证(verifiable)的执行性结果或逻辑真值
什么时候用 RLVR 更好?
当你可以构造出自动评估标准或形式化验证机制时,RLVR 是更稳健和高效的选择。典型场景包括:
- 代码生成(单元测试作为验证器)
- SQL 查询生成(是否能执行正确结果)
- 数学题解答或证明(逻辑可验证)
- 工具调用与规划(是否按规范完成任务)
RLVR 能显著减少人为偏差、奖励黑箱、对齐不稳等问题,适合那些目标正确性可形式化定义的任务。
什么时候用 RLHF 更好?
当你的任务目标难以形式化、难以验证,但人类能主观判断好坏时,RLHF 更合适。例如:
- 自然语言生成质量(是否更自然、更有帮助)
- 情感表达、礼貌程度、文化适配
- 多轮对话连贯性、风格控制
- 内容的创造性(如诗歌、故事生成)
在这些任务中,虽然“什么是好的输出”难以用规则精确定义,但人类能轻松比较两个结果的优劣,因此使用 RLHF 训练 reward model 是目前的主流做法。
总结
选择标准 | 推荐方法 |
---|---|
有自动验证机制、标准明确 | RLVR |
目标主观、无法形式化 | RLHF |