当前位置: 首页 > news >正文

傻瓜式做网站被窝家装公司

傻瓜式做网站,被窝家装公司,云匠网接单能信吗,微信开发工具官网论文标题 Learning to Reason under Off-Policy Guidance 论文地址 https://arxiv.org/pdf/2504.14945 代码地址 https://github.com/ElliottYan/LUFFY 作者背景 上海人工智能实验室,西湖大学,南京大学,香港中文大学 动机 目前大模型…

论文标题

Learning to Reason under Off-Policy Guidance

论文地址

https://arxiv.org/pdf/2504.14945

代码地址

https://github.com/ElliottYan/LUFFY

作者背景

上海人工智能实验室,西湖大学,南京大学,香港中文大学

动机

目前大模型的后训练方法有 SFT 和 RL 两种形式,前者强调模仿,后者强调探索。两类后训练方法各有千秋,基于模仿的训练能够快速调整模型的行为模式,但这种调整很可能流于表面而非真正掌握解题策略;基于探索的训练能够使模型自行找出奖励最高的行为策略,但受限于基础模型本身的能力,探索时很可能只是反复尝试当前已掌握的行为模式,难以利用全新的思路去解决问题,实践中我们也经常遇到RL训练进入瓶颈的问题

在这里插入图片描述

于是作者希望结合“模仿”与“探索”两种学习方式,让模型自主探索解题策略的同时,也有机会模仿外部强模型的行为模式,从而使大模型获得超越其初始认知边界的推理能力

本文方法

本文提出 LUFFY(Learning to reason Under oFF-policY guidance),核心思想是引入外部强模型(deepseek-R1)作为off-policy,与当前策略模型(on-policy)一同参与采样,从而指导 RL 进行更高效的学习,避免纯 on-policy 模型在面临复杂问题时迟迟探索不出有效策略

一、LUFFY流程与优化目标

在这里插入图片描述

如上图所示,对于问题q,由当前策略模型与外部强模型共同采样一组输出,然后使用统一的奖励函数对所有采样评分(检查格式正确性与答案正确性)

和标准GRPO一样,对所有回答的奖励分数做标准化作为优势,即高于均值的优势为正,低于均值的优势为负或较小。由于外部强模型采样得更少,只有当策略模型难以独立生成正确解时它才占据产生梯度的主导地位,一旦策略模型能够产生成功的推理轨迹, GRPO便开始鼓励自主探索

grpo算法通常需要进行重要性采样,因为它在策略更新过程中,使用旧策略上采样的数据去预估新策略的期望回报

在这里插入图片描述

LUFFY中使用了off-policy模型,更需要进行这一校准,其优化目标如下所示:
在这里插入图片描述

为了更好地模拟外部强模型的行为,作者最终移除了梯度裁剪

二、梯度塑形

作者发现,直接按照上述流程将外部强模型引入RL训练后,尽管利用重要性采样加速了收敛,但模型表现出低熵、探索行为明细变少。这是因为策略模型在模仿外部模型时,对不同概率的token存在偏差,即策略模型倾向于强化那些【同时常见于 onPolicy 分布与 offPolicy 分布的token】,忽略了【不常见于 OnPolicy 分布的 token】,即便这些token在offPolicy中出现概率很高。如此一来,模型便忽略了这部分体现强模型关键推理能力的低概率token

教师正在认真纠正学生的错误想法,但学生只想着“求同存异”,迅速理解了老师的思想与自己的共同之处,而没关注到老师的独特之处

为了解决这一问题,作者提出了“梯度塑形”方法,本质上便是根据 token 不同的概率对梯度进行加权。具体地,作者使用了 f(x)=γ/(γ+x) 这一变换函数(γ为超参数,实验中取0.1),其函数图像为:

在这里插入图片描述

加入梯度塑形后,训练过程中策略模型的熵始终保持在一个较高的状态,即具有更好的探索能力,并且有效避免了 Entropy Collapse

在这里插入图片描述

实验结果

基于 Qwen2.5-Math-7B 模型,在OpenR1-Math-220k上进行训练,外部强模型使用DeepSeek-R1,在6个常用的数学推理基准上测试

在这里插入图片描述

可见 LUFFY 方法全面超越了各类on-policy与off-policy方法

实验各策略的资源开销对比

在这里插入图片描述

其他模型实验结果

在这里插入图片描述

LUFFY与on-policy RL训练动态对比

在这里插入图片描述

LUFFY 在困难问题上能够问答训练,而on-policy 方法崩溃

在这里插入图片描述

各组件消融实验

在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/425207.html

相关文章:

  • 营销网站制作公司wordpress标题顺序
  • 哪些网站可以做画赚钱东莞企业网站后缀
  • 腾讯 网站建设郴州哪里做网站
  • 如何整合网站中国站长
  • 诚聘网站开发有什么ae做动图的网站
  • C语言运算符与流程控制详解
  • 建筑行业一般在哪个网站招聘儿童网站模板免费下载
  • 品牌宝正式推出免费个人网站认证网站免费推广方案
  • 网站克隆 有后台登录it培训机构有哪些
  • 做网站服务器多大的好怎么做下载类网站
  • 《道德经》第七章
  • 网站上面怎么做链接容桂网站制作值得信赖
  • 阿里云服务器网站目录网站seo在线诊断分析
  • 网站版面做得好的做网站3年
  • 做食品生产的网站wordpress首页轮换图片在哪里设置
  • 专业制作网站用哪些软件广州网络营销系统
  • 枣阳网站建设公司安装wordpress xampp
  • 网站备案安全责任书是谁盖章网站策划的前景
  • 大连网站建设优化怎样套用wordpress模板
  • 免费做ppt的网站有哪些云南建设学院的网站
  • 网站列表怎么做wordpress前台登录框
  • 建站多少钱一个厦门模板建站平台
  • 天津南开做网站深圳网站建设公司有哪些
  • 怀柔成都网站建设盐城外贸网站建设
  • 怎么用腾讯云主机建设网站知名网站建设多少钱
  • Cmake使用CPack实现打包
  • 免费电视剧网站大全在线观看网站设置保存登录密码怎么取消
  • (性能测试)磁盘关注的性能指标 网络瓶颈 带宽和宽带 数据库的性能瓶颈分析 数据库连接池 数据库死锁 JVM内存瓶颈分析 总结
  • 购物网站建设案例delphi7网站开发
  • 做网站的前景如何福州网站建设发布