【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用
关于 Reward Model 和 Critic Model 的区别:
帖子里用了一个非常形象的比喻:“reward扮演的是环境的角色,而critic属于llm这个智能体的一部分,就好比在考试中,你自己检查卷子和老师给你打分的区别。” 这准确地概括了它们的核心差异:
-
Reward Model (RM):
- 目标: 学习人类的偏好,对生成的整个 response 给出一个 标量奖励值,用来衡量这个 response 的整体质量。
- 作用: 扮演“环境”的角色,告诉 LLM 哪些行为是好的,哪些是坏的。它提供了一个外部的反馈信号。
- 粒度: 针对 整个 response 进行评估,无法直接判断每个 token 的贡献。
-
Critic Model (Value Function):
- 目标: 学习一个 价值函数,预测在当前状态(例如,LLM 生成到某个 token 的状态)下,未来可能获得的 累积奖励。
- 作用: 属于 LLM 这个“智能体”的一部分,帮助 LLM 评估当前行为的“价值”,为策略更新提供一个 基线 (baseline),从而计算 优势 (advantage)。这个优势信号能够更稳定地指导策略向好的方向更新。
- 粒度: 可以对 每个状态(例如,每个 token 生成后) 进行评估,预测未来的潜在回报。
为什么有了 Reward Model 还需要 Critic Model?
虽然两者都涉及“打分”,但目的是不同的:
- Reward Model 提供的是一个最终的、整体的质量评估。 如果只用 Reward Model 来指导 PPO,策略更新可能会不稳定,因为模型很难将最终的奖励信号精确地分配到每个生成步骤。
- Critic Model 通过预测未来的累积奖励,为每一步的行动提供了一个价值基准。 PPO 使用这个价值基准来计算优势函数(Advantage = Reward - Value),优势函数能够告诉策略哪些行为比预期的更好或更差,从而更有效地进行策略优化,并减少方差,使训练更稳定。