当前位置: 首页 > news >正文

【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用

关于 Reward Model 和 Critic Model 的区别:

帖子里用了一个非常形象的比喻:“reward扮演的是环境的角色,而critic属于llm这个智能体的一部分,就好比在考试中,你自己检查卷子和老师给你打分的区别。” 这准确地概括了它们的核心差异:

  • Reward Model (RM):

    • 目标: 学习人类的偏好,对生成的整个 response 给出一个 标量奖励值,用来衡量这个 response 的整体质量。
    • 作用: 扮演“环境”的角色,告诉 LLM 哪些行为是好的,哪些是坏的。它提供了一个外部的反馈信号。
    • 粒度: 针对 整个 response 进行评估,无法直接判断每个 token 的贡献。
  • Critic Model (Value Function):

    • 目标: 学习一个 价值函数,预测在当前状态(例如,LLM 生成到某个 token 的状态)下,未来可能获得的 累积奖励
    • 作用: 属于 LLM 这个“智能体”的一部分,帮助 LLM 评估当前行为的“价值”,为策略更新提供一个 基线 (baseline),从而计算 优势 (advantage)。这个优势信号能够更稳定地指导策略向好的方向更新。
    • 粒度: 可以对 每个状态(例如,每个 token 生成后) 进行评估,预测未来的潜在回报。

为什么有了 Reward Model 还需要 Critic Model?

虽然两者都涉及“打分”,但目的是不同的:

  • Reward Model 提供的是一个最终的、整体的质量评估。 如果只用 Reward Model 来指导 PPO,策略更新可能会不稳定,因为模型很难将最终的奖励信号精确地分配到每个生成步骤。
  • Critic Model 通过预测未来的累积奖励,为每一步的行动提供了一个价值基准。 PPO 使用这个价值基准来计算优势函数(Advantage = Reward - Value),优势函数能够告诉策略哪些行为比预期的更好或更差,从而更有效地进行策略优化,并减少方差,使训练更稳定。

相关文章:

  • 云原生架构下的微服务通信机制演进与实践
  • 31【干货】Arcgis属性表常用查询表达式实战大全
  • 1 bit AI 框架:Part 1.1,CPU 上的快速无损 BitNet b1.58 推理
  • CAN转ModbusTCP网关:破解电池生产线设备协议壁垒,实现全链路智能互联
  • excel单元格如果是日期格式,在C#读取的时候会变成45807,怎么处理
  • c++:库(Library)
  • 系统的从零开始学习电子的相关知识,该如何规划?你是工作了18年的电子工程师,请给出你的建议
  • 【Linux】环境变量(图文)
  • learning ray之ray强化学习/超参调优和数据处理
  • ‌FunASR‌阿里开源的语音识别工具
  • 使用 ECharts GL 实现交互式 3D 饼图:技术解析与实践
  • WHAT - 冷启动和热启动
  • 屎上雕花系列-2nd
  • STL?vector!!!
  • 数据可视化大屏——物流大数据服务平台(二)
  • 2025年API安全防御全解析:应对DDoS与CC攻击的智能策略
  • 每天五分钟深度学习框架pytorch:视觉工具包torchvison
  • 什么是直播美颜SDK?跨平台安卓、iOS美颜SDK开发实战详解
  • 【递归,搜索与回溯算法篇】专题(一) - 递归
  • Python爬虫(22)Python爬虫进阶:Scrapy框架动态页面爬取与高效数据管道设计
  • 玉渊谭天丨中方为何此时同意与美方接触?出于这三个考虑
  • 开局良好,我国第一季度广告业务收入保持较快增速
  • 巴基斯坦宣布关闭全国空域48小时
  • 山东滕州一车辆撞向公交站台致多人倒地,肇事者被控制,案件已移交刑警
  • 张家口一景区观光魔毯疑失控致游客被甩出,涉事景区改造升级重新开园才3天
  • 巴菲特第60次股东大会开场点赞库克:他为伯克希尔赚的钱比我还多