【AI论文】从跨领域视角重新审视强化学习在大型语言模型推理中的应用
摘要:强化学习(RL)已成为提升大型语言模型(LLM)推理能力的一种颇具前景的方法,然而目前大多数公开的研究工作都仅聚焦于数学和代码领域,这限制了我们对强化学习在更广泛的一般推理场景中适用性的理解。一个关键挑战在于,在多样化的推理领域中缺乏可靠且可扩展的强化学习奖励信号。为此,我们引入了Guru数据集,这是一个精心策划的强化学习推理语料库,包含9.2万个可验证的示例,横跨数学、代码、科学、逻辑、模拟和表格六大推理领域。每个领域的数据均通过特定领域的奖励设计、去重和过滤来构建,以确保强化学习训练的可靠性和有效性。基于Guru数据集,我们系统地重新审视了强化学习在大型语言模型推理中的既有发现,并观察到不同领域间存在显著差异。例如,先前的研究表明,强化学习主要从预训练模型中激发已有知识,但我们的结果显示出更为细致的模式:在预训练期间经常见到的领域(数学、代码、科学)容易从跨领域的强化学习训练中受益,而预训练中接触较少的领域(逻辑、模拟和表格)则需要领域内训练才能实现有意义的性能提升,这表明强化学习很可能有助于真正技能的习得。最后,我们推出了Guru-7B和Guru-32B两款模型,它们在利用公开数据通过强化学习训练的开放模型中达到了最先进的性能,在涵盖六大推理领域的17项任务评估套件上,分别超越了最佳基线模型7.9%和6.7%。我们还展示了我们的模型如何有效提升其基础模型的Pass@k性能,特别是在那些不太可能出现在预训练数据中的复杂任务上。我们公开了数据、模型、训练和评估代码,以促进通用推理的发展,相关资源可在以下网址获取:https://github.com/LLM360/Reasoning360。Huggingface链接:Paper page,论文链接:2506.14965
研究背景和目的
研究背景
近年来,大型语言模型(LLM)在多个领域展现了令人瞩目的性能和泛化能力,特别是在数学和代码推理任务上。这些模型通过大规模预训练获得了丰富的语言知识和一定的推理能力,但在面对复杂、多样化的推理任务时,其性能仍显不足。强化学习(RL)作为一种有效的后训练技术,被广泛应用于提升LLM的推理能力。然而,现有研究大多集中在数学和代码领域,对RL在其他推理领域(如科学、逻辑、模拟和表格推理)的应用研究相对较少,这限制了我们对RL在LLM推理中作用的全面理解。
研究目的
本研究旨在通过构建一个跨领域的RL推理语料库GURU,系统评估RL在多个推理领域的效果,并探索RL如何促进LLM在不同领域中的推理能力。具体而言,研究目的包括:
- 构建跨领域RL推理语料库:收集并整理涵盖数学、代码、科学、逻辑、模拟和表格推理六个领域的92K个可验证推理示例,为RL训练提供高质量的数据支持。
- 系统评估RL效果:在GURU语料库上,对Qwen2.5-7B和32B基座模型进行RL训练,评估RL在不同推理领域中的效果,并观察RL是否能在不同领域间实现知识的迁移。
- 探索RL机制:分析RL在不同领域中促进推理能力的具体机制,探讨RL是更多地激发了预训练模型中的已有知识,还是真正促进了新技能的习得。
- 发布资源:开源GURU语料库、训练代码和评估工具,促进社区对通用推理研究的进一步探索。
研究方法
数据收集与整理
- 数据源选择:从多个公开数据源和竞赛中收集数学、代码、科学、逻辑、模拟和表格推理领域的推理问题。例如,数学领域包括OR1、DAPO和DeepScaler等数据集;代码领域包括LeetCode、TACO-Verified等。
- 数据去重:对收集到的数据进行去重处理,特别是数学和代码领域中存在大量重复或相似问题的情况。采用严格的去重策略,确保数据集的多样性和质量。
- 奖励设计:针对不同领域设计合适的奖励函数。例如,数学和逻辑领域采用基于规则的匹配方法;代码领域采用基于执行的验证方法;科学领域采用基于模型的验证方法。
- 难度过滤:通过弱模型和强模型在不同样本上的通过率,评估样本的难度,并优先保留具有适当推理难度的样本,同时去除可能存在标注噪声或不稳定奖励信号的样本。
模型训练与评估
- 模型选择:选择Qwen2.5-7B和32B作为基座模型,这些模型在大规模预训练中展现了良好的性能。
- RL训练:使用verl框架和GRPO算法对模型进行RL训练。在训练过程中,采用不同的数据混合策略,包括单领域训练和混合领域训练,以评估RL在不同数据分布下的效果。
- 评估指标:构建包含17个基准任务的评估套件,涵盖六个推理领域和一个未见领域的泛化能力评估。采用准确率和Pass@k作为主要评估指标,其中Pass@k衡量模型在多次采样中至少有一次生成正确答案的概率。
研究结果
跨领域RL效果
- 领域依赖性:研究发现,RL在不同领域中的效果存在显著差异。在数学、代码和科学等预训练中常见领域,RL能够显著提升模型性能,且跨领域训练效果良好。而在逻辑、模拟和表格推理等预训练中较少涉及的领域,RL需要领域内数据才能实现有意义的性能提升。
- 知识迁移:通过混合领域训练,模型能够在不同领域间实现一定程度的知识迁移。例如,在数学和代码领域表现良好的模型,在逻辑和模拟领域也能展现出一定的推理能力。
RL机制探索
- 知识激发与技能习得:研究发现,RL在不同领域中的作用机制存在差异。在预训练中常见领域,RL更多地激发了模型中的已有知识;而在预训练中较少涉及的领域,RL则更有可能促进新技能的习得。
- 响应长度与性能:RL训练过程中,模型的响应长度在不同领域表现出不同的变化趋势。例如,在数学和科学领域,模型的响应长度增加;而在代码和逻辑领域,模型的响应长度则可能缩短。这表明RL在不同领域中对模型行为的影响具有领域特异性。
模型性能
- 基准测试:在17个基准任务上,GURU-7B和GURU-32B模型相比基座模型和其他基线模型展现出了显著的性能提升。特别是在复杂任务上,如Zebra Puzzle等,RL训练显著扩展了模型的推理边界。
- 泛化能力:在未见领域(如IFEval和LiveBench)的测试中,GURU模型也展现出了良好的泛化能力,表明混合领域RL训练有助于提升模型的通用推理能力。
研究局限
- 训练轮数限制:由于计算资源限制,当前模型的RL训练仅进行了三到两个epoch。延长训练轮数可能会带来更显著的性能提升,这是未来研究的一个方向。
- SFT与RL结合:本研究直接从基座模型开始RL训练,绕过了初始的监督微调(SFT)阶段。虽然这确保了跨领域泛化结论的独立性,但将SFT与RL结合可能会进一步提升模型性能,这也是未来研究的一个潜在方向。
- 数据多样性:尽管GURU语料库涵盖了多个推理领域,但在每个领域内的数据多样性仍有提升空间。未来可以进一步收集和整理更多领域的数据,以丰富语料库的多样性。
未来研究方向
- 延长训练轮数:探索延长RL训练轮数对模型性能的影响,特别是在复杂任务和未见领域上的泛化能力。
- SFT与RL结合:研究将SFT与RL结合对模型性能的影响,特别是在提升模型在特定领域内的推理能力方面。
- 数据多样性增强:进一步收集和整理更多领域的数据,特别是那些在预训练中较少涉及的领域,以丰富GURU语料库的多样性。
- 多模态推理:探索RL在多模态推理任务中的应用,如结合文本、图像和音频等多模态数据进行推理。
- 跨语言推理:研究RL在跨语言推理任务中的应用,特别是在非英语语言环境下的推理能力。
- 解释性研究:深入探索RL在LLM推理中的具体作用机制,特别是RL如何促进新技能的习得而非仅仅激发已有知识。
本研究通过构建GURU语料库,系统评估了RL在多个推理领域中的效果,并深入探索了RL促进LLM推理能力的具体机制。研究结果表明,RL在不同领域中的作用具有领域特异性,且能够促进新技能的习得。未来,通过延长训练轮数、结合SFT与RL、增强数据多样性以及探索多模态和跨语言推理等方向的研究,有望进一步提升LLM的通用推理能力。同时,本研究也指出了当前研究的局限性和未来研究方向,为LLM推理研究提供了新的视角和资源。