当前位置: 首页 > wzjs >正文

门户网站江苏建站

门户网站,江苏建站,网站内链怎么坐锚文本,微信小程序免费模板直接套用论文链接: [2504.13958] ToolRL: Reward is All Tool Learning Needs 1. Introduction 这篇论文试图解决如何通过强化学习直接从基础模型训练大型语言模型,使其能够自主地利用计算工具来增强推理能力的问题。传统的推理方法主要依赖纯自然语言处理方式&#xff08…

论文链接:
[2504.13958] ToolRL: Reward is All Tool Learning Needs

1. Introduction

这篇论文试图解决如何通过强化学习直接从基础模型训练大型语言模型,使其能够自主地利用计算工具来增强推理能力的问题。传统的推理方法主要依赖纯自然语言处理方式(如思维链,Chain-of-Thought, CoT),在面对复杂的计算任务时往往表现不佳。尽管已有研究探索了通过代码生成模型来弥补这一差距,但大多数现有方法依赖于监督式微调(Supervised Fine-Tuning, SFT),限制了模型对工具使用策略的探索,且难以实现最优策略的发现。

论文提出的框架TORL(Tool-Integrated Reinforcement Learning)旨在克服这些限制,通过直接从基础模型开始进行强化学习,使模型能够通过广泛的探索发现最优的工具使用策略,从而在复杂的数学问题解决等任务中实现显著的性能提升。

2. Method

2.1 构建数据集

BASE DATASET: NuminaMATH (Li et al., 2024), MATH (Hendrycks et al., 2021), and DeepScaleR (Luo et al., 2025)

从奥林匹克数学竞赛问题中构建了一个高质量的数据集,数据集处理流程如下: 

  1. 去除证明类问题和验证标准模糊的问题, 因为证明类问题通常需要更复杂的逻辑和推理;
  2. 通过LIMR(Less is More for RL scaling)技术提取了具有平衡难度分布的高质量样本。

最终数据集包含28,740个问题,为模型训练提供了坚实基础。

2.2 TORL框架设计

TORL框架不依赖于监督式微调(SFT),而是直接从基础模型开始进行强化学习(RL)。这使得模型能够在不受限的探索中发现最优的工具使用策略,而不是局限于人类设计的模式。

TORL结合了工具集成推理(TIR),允许模型在推理过程中生成代码,并通过代码解释器执行这些代码来获得计算结果。这一过程是迭代的,模型会根据代码执行的反馈调整推理路径,从而动态地选择合适的推理策略。

多次调用LLM进行循环交互流程

Step 1. 命令LLM先进行自然语言的推理, 然后输出代码块包裹的代码块, 参考如下:
```python
(.*?)          # 代码内容
```output
Step 2. 一旦检测到闭合标记(如“```output”或三反引号结束),立即调用 API 的终止生成命令,自动中断接下来的 token 流或停止生成。
Step 3. 把运行结果插回上下文 → 触发下一轮生成

2.3 奖励规则设计

基于答案的奖励规则

  • 正确答案: +1
  • 错误答案: -1

基于代码可执行性的奖励规则

  • 可执行代码: 0
  • 不可执行代码: -0.5

3. Experiment

训练

所有强化学习实验均在 veRL 框架(Sheng 等,2024)下进行,使用 Sandbox Fusion 作为代码解释器。我们采用 GRPO 算法(Shao 等,2024),将 rollout batch size 设置为 128,并为每个问题生成 16 个样本。为了增强模型的探索能力,所有实验中都省略了 KL loss,同时将温度设置为 1

我们选择 Qwen-2.5-Math(Yang 等,2024)系列模型作为强化学习的基础模型。为了最大化效率,默认的调用次数 C 设置为 1。此外,在默认实验中,仅保留答案正确性奖励(Answer Correctness Reward),并未引入代码可执行性奖励(Code Executability Reward)。

评估结果

4. Conclusion  

我们提出的 TORL 能够让 LLM 通过强化学习将工具整合到推理中,超越预定义的工具使用限制。我们的研究结果表明,TORL 的性能大幅提升,推理能力不断增强,这凸显了 TORL 在推进 LLMs 复杂推理方面的潜力。

http://www.dtcms.com/wzjs/150927.html

相关文章:

  • wordpress第2页未找到seo推广公司教程
  • 怎样利用云盘做电影网站sem是什么意思啊
  • 南京网站建设报价网站seo重庆
  • 过年做那些网站能致富爱站网seo工具
  • 工业设计公司起名河南自助建站seo公司
  • 奶茶网站源码免费下载免费网页制作网站
  • 亦庄开发区建设局网站拼多多运营
  • 网站会动的页面怎么做的微信软文广告经典案例
  • wordpress check baidu result 怎么用合肥seo外包平台
  • 做网站需要多少固定带宽连云港seo公司
  • 外贸营销型网站建站足球联赛排名
  • 郑州网站建设咨询自己怎么优化关键词
  • 网投网站怎么做百度站长提交
  • 关于政府网站建设的研究报告企业网站推广外包
  • 做网站从哪方面入门沈阳关键词seo排名
  • 深圳前十网站建设公司中国国家培训网是真的吗
  • 网站建设需要有什么特点怎么请专业拓客团队
  • 如何在网站后台添加商品什么是关键词广告
  • wordpress fruitful在线seo短视频
  • 用wordpress搭建完整网站教程腾讯企点qq
  • 网站开发的阶段建立个人网站
  • 网站开发进度缓慢太原seo招聘
  • 使用iframe做网站学生没钱怎么开网店
  • 照片怎么制作视频短片3天网站seo优化成为超级品牌
  • 集团网站制作方案ppt今日最火的新闻
  • 中国建信网官方网站网站排名优化培训电话
  • 全国党风廉政建设网站sem是什么意思职业
  • 网站建设功互联网运营推广公司
  • 做网站和app报价哪个平台可以免费发广告
  • 国外的app设计网站seo 服务