当前位置: 首页 > news >正文

跨域视角下强化学习重塑大模型推理:GURU框架与多领域推理新突破

跨域视角下强化学习重塑大模型推理:GURU框架与多领域推理新突破

大语言模型(LLM)推理能力的提升是AI领域的重要方向,强化学习(RL)为此提供了新思路。本文提出的GURU框架,通过构建跨领域RL推理语料库,系统性地重新审视了RL在LLM推理中的应用,在多个推理任务上实现性能突破,为通用推理研究带来新启示。

论文标题
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective

来源
arXiv:2506.14965v1 [cs.LG] + https://arxiv.org/abs/2506.14965

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

近年来,强化学习(RL)已成为提升大语言模型(LLM)推理能力的重要技术,OpenAI-O3、DeepSeek-R1 等前沿模型通过 RL 在数学、代码等领域展现出卓越性能。然而,当前开源社区的 RL 研究高度集中于数学与代码单域,导致两方面局限:其一,对 RL 在推理中的作用机制理解片面,现有结论(如 “RL 仅激发预训练知识”)可能无法推广至其他领域;其二,模型泛化能力受限,单域训练的模型在逻辑、模拟等未覆盖任务中性能显著衰减。核心瓶颈在于跨域 RL 所需的可靠奖励信号与高质量数据集的缺失,亟需系统性的多域研究来拓展通用推理边界。

研究问题

  1. 跨域Reward信号缺失:缺乏可靠且可扩展的跨领域RL奖励信号设计,导致模型难以在数学、代码之外的逻辑、模拟等领域有效学习。
  2. pretraining偏见制约:现有研究认为RL主要激发预训练模型的潜在知识,但未明确不同领域在pretraining中的覆盖差异如何影响RL效果。
  3. 模型泛化能力局限:单一领域训练的模型在跨域任务中性能衰减显著,无法应对多样化推理场景。

主要贡献

  1. 构建跨域RL语料库GURU:整合数学、代码、科学、逻辑、模拟、表格6大领域92K可验证样本,通过领域特定奖励设计与去重过滤,为RL训练提供可靠数据基础。
  2. 揭示领域依赖的RL机制:发现pretraining高频领域(如数学、代码)可通过跨域RL获益,而低频领域(如逻辑、模拟)需域内训练才能提升,证明RL兼具知识激发与新技能习得双重作用。
  3. 训练通用推理模型GURU-7B/32B:在17项跨域任务中超越现有开源模型,7B模型较基线提升7.9%,32B提升6.7%,尤其在复杂约束任务(如Zebra Puzzle)中显著扩展推理边界。

方法论精要

核心框架与数据流程

采用“数据采集-去重-奖励设计-启发式过滤-难度筛选”五步流水线构建GURU数据集,每个领域设计专属验证规则(如数学符号匹配、代码执行验证、科学模型语义对齐)。

基于Qwen2.5-7B/32B基线,使用GRPO算法进行RL训练,混合域数据均匀采样,避免领域干扰。

关键参数与设计原理

奖励函数分类:数学/逻辑采用规则匹配(如\boxed{}格式提取答案),代码依赖执行验证(通过测试用例),科学借助1.5B验证模型进行语义评估。

难度过滤机制:通过弱模型(Qwen2.5-7B-Instruct)和强模型(Qwen3-30B-A8B)的通过率差筛选样本,剔除过易 ( P w e a k ≥ 15 / 16 ) (P_{weak}≥15/16) (Pweak15/16)或过难 ( P s t r o n g = 0 ) (P_{strong}=0) (Pstrong=0)的噪声数据。

创新性技术组合

跨域迁移实验设计:对比单域与混合域训练效果,发现混合域训练在保持域内性能的同时,显著提升跨域泛化能力。

Pass@k分析框架:结合生成温度与top-p参数调整,揭示RL对模型推理空间探索的影响,如高温设置可缓解熵减导致的推理边界收缩。

实验验证逻辑

数据集:使用MATH500、HumanEval、ARC-AGI等17项基准,覆盖6大领域,离线评估生成4-32样本/问题,在线评估监控13项信号任务。

基线对比:General Reasoner、Open-Reasoner-Zero、SimpleRL等开源RL模型,均直接基于Qwen2.5基线训练以确保公平性。

实验洞察

性能优势

  • 数学推理:GURU-32B在AIME24上Pass@32达34.89%,较ORZ-32B提升12.39%;MATH500准确率78.8%,超SimpleRL-32B约2.05%。
  • 逻辑与模拟:Zebra Puzzle任务中,GURU-7B准确率39.4%,较基线ORZ-7B提升39.33%;CodeI/O模拟推理中,32B模型较SimpleRL-32B提升2.88%。
  • 跨域泛化:混合域训练的模型在Tabular任务HiTab上准确率82.0%,较单域训练提升27.6%,验证多域数据的互补性。

效率与稳定性

训练效率:20节点×8 Hopper GPU完成7B(3轮)/32B(2轮)训练各需3天,GRPO算法通过梯度裁剪 ( ϵ = 0.2 ) (\epsilon=0.2) (ϵ=0.2)确保训练稳定。

响应动态:RL训练中,代码/逻辑任务输出长度缩短,科学/数学变长,混合域训练可调节长度偏好,如逻辑任务先变长后收缩,体现表征共享效应。

实验分析

  • 难度过滤影响:数学域难度过滤后,AIME24准确率提升5.9%,但HumanEval等简单跨域任务下降9.2%,表明域内难度提升与跨域迁移存在权衡。

  • 模型规模效应:32B模型在AIME24的Pass@k曲线始终优于基线,而7B模型在k=64时与基线交叉,暗示大模型更易通过RL发掘新推理路径。

相关文章:

  • 《福格行为模型》
  • JMeter API 并发性能测试计划JMX文件解析
  • wx小程序登录设置角色
  • AI产品经理的定义边界与价值重构
  • 《单光子成像》第八章 预习2025.6.22
  • C++,Qt事件处理机制编程开发练习全解析,23000字解析!!
  • 【工具教程】PDF指定区域OCR识别重命名工具使用教程和注意事项
  • 【数据结构试题】
  • 媒体AI关键技术研究
  • 详解分布式事务框架DTM:子事务屏障
  • Flink源码阅读环境准备全攻略:搭建高效探索的基石
  • 微处理器原理与应用篇---常见基础知识(1)
  • AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月22日第116弹
  • 统计用户本月的连续登录天数
  • 多源异构数据接入与实时分析:衡石科技的技术突破
  • 【RAG+向量数据库】小白从0构建一个rag和向量数据库demo
  • Java中进程间通信(IPC)的7种主要方式及原理剖析
  • 《高等数学》(同济大学·第7版)第五章 定积分 第四节反常积分
  • 编程江湖-Git
  • 嵌入式C语言编程规范
  • 汽车建设网站的能力/seo资源网站排名
  • 盐城网站建设推广优化/seo推广方式是什么呢
  • 做网站佛山/手机端seo
  • 做网站需要icp吗/南京疫情最新消息
  • 制作一个网址需要多少钱/西安自动seo
  • 交易平台网站建设/电商培训课程