英伟达:人类反馈与可验证奖励相结合
📖标题:RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards
🌐来源:arXiv, 2509.21319
🌟摘要
具有人工反馈的强化学习(RLHF)和具有可验证奖励的强化学习(RLVR)是LLM训练后使用的主要RL范式,每种范式都有不同的优势。然而,RLHF 在可解释性和奖励黑客方面遇到了困难,因为它依赖于通常缺乏明确的标准的人类判断,而 RLVR 的范围受到其基于正确性的验证者的关注的限制。我们提出了具有二进制灵活反馈 (RLBFF) 的强化学习,它结合了人类驱动偏好的多功能性和基于规则的验证的精度,使奖励模型能够捕获响应质量的细微方面,而不仅仅是正确性。RLBFF 从自然语言反馈中提取可以以二进制方式回答的原则(例如信息的准确性:“是”或代码可读性:“否”)。然后可以使用这样的原则将奖励模型训练接地为蕴涵任务(响应满足或不满足任意原则)。我们表明,以这种方式训练的奖励模型在与数据匹配时可以优于 Bradley-Terry 模型,并在 RM-Bench(86.2%)和 JudgeBench(排行榜 81.4%,#1 于 9 月 24 日)。此外,与 Bradley-Terry 模型相比,用户可以在推理时指定感兴趣的原则来定制我们的奖励模型的焦点。最后,我们提出了一个完全开源的配方(包括数据)来使用 RLBFF 和我们的奖励模型对齐 Qwen3-32B,以匹配或超过 o3-mini 和 DeepSeek R1 在 MT-Bench、WildBench 和 Arena Hard v2 的一般对齐基准上的性能(推理成本的 < 5%)。
🛎️文章简介
🔸研究问题:如何有效地将人类反馈与可验证奖励相结合,以提升对大语言模型(LLM)的训练效果?
🔸主要贡献:论文提出了一种新的“二元灵活反馈”方法,成功融合了人类反馈和可验证奖励的优势,从而提升了奖励模型的性能。
📝重点思路
🔸提出了“二元灵活反馈” (RLBFF) 的框架,利用从人类反馈中提取的原则作为训练依据。
🔸使用开放源代码数据集HelpSteer3-Feedback,将自然语言反馈转换为二元灵活反馈格式,并在此基础上训练奖励模型。
🔸引入PrincipleBench作为新的评估基准,以测量奖励模型在遵循特定原则时的效果。
🔸采用了基于人类书写的反馈提取原则的方法,通过引入证据引用机制来减少生成模型的幻想。
🔸分析并比较了该方法与传统的基于人类反馈的和可验证奖励的方法在多项任务上的表现。
🔎分析总结
🔸RLBFF能够降低奖励模型中的奖励黑客现象,通过明确原则来处理相应的反馈,提升了模型的精确性。
🔸通过实验,RLBFF在JudgeBench、RM-Bench和PrincipleBench等指标上均表现优异,显示出其在奖励模型训练中的有效性。
🔸结果表明,使用灵活原则的标量模型相较于生成模型在大多数任务上具有更好的性能,同时也显著提高了推理的速度。
🔸引入的原则过滤机制有效减少了不必要的原则,确保了数据质量,并且通过调节相似性阈值优化了特征提取的效果。
💡个人观点
论文的核心在于将人类反馈中的原则提取出来,并进一步转化为量化形式,还构建了一个评估基准。