当前位置：首页 > news >正文

【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用

news 2025/7/2 19:24:42

关于 Reward Model 和 Critic Model 的区别：

帖子里用了一个非常形象的比喻：“reward扮演的是环境的角色，而critic属于llm这个智能体的一部分，就好比在考试中，你自己检查卷子和老师给你打分的区别。” 这准确地概括了它们的核心差异：

Reward Model (RM):
- 目标： 学习人类的偏好，对生成的整个 response 给出一个 标量奖励值，用来衡量这个 response 的整体质量。
- 作用： 扮演“环境”的角色，告诉 LLM 哪些行为是好的，哪些是坏的。它提供了一个外部的反馈信号。
- 粒度： 针对 整个 response 进行评估，无法直接判断每个 token 的贡献。
Critic Model (Value Function):
- 目标： 学习一个 价值函数，预测在当前状态（例如，LLM 生成到某个 token 的状态）下，未来可能获得的 累积奖励。
- 作用： 属于 LLM 这个“智能体”的一部分，帮助 LLM 评估当前行为的“价值”，为策略更新提供一个 基线 (baseline)，从而计算 优势 (advantage)。这个优势信号能够更稳定地指导策略向好的方向更新。
- 粒度： 可以对 每个状态（例如，每个 token 生成后） 进行评估，预测未来的潜在回报。

为什么有了 Reward Model 还需要 Critic Model？

虽然两者都涉及“打分”，但目的是不同的：

Reward Model 提供的是一个最终的、整体的质量评估。 如果只用 Reward Model 来指导 PPO，策略更新可能会不稳定，因为模型很难将最终的奖励信号精确地分配到每个生成步骤。
Critic Model 通过预测未来的累积奖励，为每一步的行动提供了一个价值基准。 PPO 使用这个价值基准来计算优势函数（Advantage = Reward - Value），优势函数能够告诉策略哪些行为比预期的更好或更差，从而更有效地进行策略优化，并减少方差，使训练更稳定。