当前位置: 首页 > news >正文

浅聊RLVR

一、概述

RLVR,Reinforcement Learning from Verifiable Rewards,可验证奖励的强化学习,是向大语言模型注入学习策略的主要训练策略之一,也是时下最主流的RL方法,很多主流的大模型都在后训练中采用了这种方法。
那么,究竟什么是RLVR呢?他和之前的RL方式有什么区别?他的核心算法是什么?他有什么优势?他的局限性又在哪里?下文开始探讨。

二、什么是RLVR?ta与传统的RL区别在哪?

首先,RL的根本是提高采样效率,但是传统的RL需要依赖人类标注或者复杂的奖励模型,但是RLVR改变了这点,他不需要上述的条件,而是通过规则化验证器生成二元反馈(0/1)。根据任务的类型,可验证类型分为三类:
1、正确性验证:通过模型输出和标准答案做匹配来生成奖励。
2、执行验证:通过代码解释器执行生成的代码,根据单元测试结果提供奖励。
3、可验证约束:强制模型遵循输出格式或者拒绝不当的请求,违法规则奖励则为0.

相较于传统的RLHF来说,由于RLVR使用的是可验证奖励,他是基于客观规则的,所以很难被策略模型所欺骗,难以被过度优化;其次不需要人工标注的情况下,节省成本,适合自动化的部署。
不过由于非常依赖于真实答案或者标准答案,所以很难推广到一些开放性的问题上,比如创作写作等场景。

三、核心算法

GRPO是RLVR的核心算法,相对于传统的PPO算法,GRPO的优势估计和策略更新机制上具有独特之处。PPO是通过学习一个评估器来估计,而GRPO是利用蒙特卡洛滚动从旧策略中采样来估计优势,这种情况下,GRPO可以更高效的利用数据。特别是LLM训练中,GRPO的白化处理可以进一步的提高训练的稳定性。
对于GRPO算法,优化目标可以表示为:
在这里插入图片描述
而可验证的二元特征可以表示为:
在这里插入图片描述
代入优化目标后,可以将优化目标改写为:
在这里插入图片描述
为了防止权重函数出现剧烈波动,需要加入平滑因子。
在这里插入图片描述

四、RLVR优势与局限

优势在于在提高了采样效率,也就是在少量次数的尝试下就可以得到目标答案,不过RLVR很难突破基座模型的能力上限,也就是基模无法解决的问题,RL训练后依旧难以解决(在大模型上,传统RL可以不断发现新策略)。
参考论文:https://arxiv.org/pdf/2504.13837
参考文献:https://www.51cto.com/article/816993.html

http://www.dtcms.com/a/350230.html

相关文章:

  • 绿色循环经济下的旧物回收App:重构闲置资源的价值链条
  • 设计仿真 | 从物理扫描到虚拟检具:Simufact Welding革新汽车零部件检测
  • 汽车零部件工厂ESOP系统工业一体机如何选型
  • 基于51单片机红外避障车辆高速汽车测速仪表设计
  • AEB 强制来临,东软睿驰Next-Cube-Lite有望成为汽车安全普惠“破局器”
  • kubeadm join 命令无法加入node节点,ip_forward 内核参数没有被正确设置
  • IIS 安装了.netcore运行时 还是报错 HTTP 错误 500.19
  • k8s笔记03-常用操作命令
  • Qt开发:智能指针的介绍和使用
  • 君正T31学习(二)- USB烧录
  • 支持指令流水的计算机系统设计与实现
  • mysql绿色版本教程
  • 【python断言插件responses_validator使用】
  • 校园科研自动气象站:藏在校园里的 “科研小站”
  • Nginx零拷贝技术深度解析
  • 【 Python程序员的Ubuntu入门指南】
  • Python二进制、八进制与十六进制高级操作指南:从底层处理到工程实践
  • freqtrade进行回测
  • 关于熵减 - 电力磁力和万有引力
  • list容器的使用
  • 15、IWDG独立看门狗
  • MTK Android 14 通过属性控制系统设置显示双栏或者单栏
  • VUE 的弹出框实现图片预览和视频预览
  • (多线程)线程安全和线程不安全 产生的原因 synchronized关键字 synchronized可重入特性死锁 如何避免死锁 内存可见性
  • React Native核心技术深度解析_Trip Footprints
  • 电商商品管理效率低?MuseDAM 系统如何破解库存混乱难题
  • AR技术:航空维修工具校准的精准革命
  • 【python】if __name__ == ‘__main__‘的作用
  • 正则表达式 —— \s*
  • C语言运行时候出现栈溢出、段错误(Segmentation fault)、异常码解决?