agentic Deep search相关内容补充
DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments.
Multimodal-Search-R1: Incentivizing LMMs to Search.
OTC: Optimal Tool Calls via Reinforcement Learning.
这篇论文是:
《Acting Less is Reasoning More! Teaching Model to Act Efficiently》
arXiv:2504.14870v2,2025年5月31日
作者来自香港中文大学、UIUC、普林斯顿大学、中山大学、香港科技大学等
🧠 一、研究背景与动机
1.1 工具增强推理(TIR)
大模型(LLMs)通过调用外部工具(如搜索引擎、代码解释器)可以增强推理能力,解决知识盲区或复杂计算问题。
1.2 当前问题:认知卸载(Cognitive Offloading)
现有强化学习方法(如Search-R1)只优化最终答案正确性,忽视工具使用效率,导致:
- 过度调用工具(成本高)
- 抑制内部推理能力发展
- 降低模型通用性与自主性
🎯 二、研究目标
提出一种强化学习框架,鼓励模型在保证答案正确的前提下,尽可能少调用工具,从而:
- 降低推理成本
- 增强模型内部推理能力
- 提高工具使用效率
🧪 三、核心贡献
编号 | 内容 |
---|---|
① | 首次提出“工具生产力”(Tool Productivity)指标:衡量单位工具调用带来的正确率 |
② | 提出OTC-PO框架:在RL中引入工具使用效率奖励,鼓励“最优工具调用” |
③ | 实现两个变体:OTC-PPO 和 OTC-GRPO,适配不同RL算法 |
④ | 实验验证:在多个模型(Qwen-2.5/Math)和任务(搜索/代码)上,工具调用减少高达 68.3%,工具生产力提升高达 215.4%,准确率基本保持不变 |
⚙️ 四、方法详解
4.1 任务定义
- 给定问题 ( q ),模型可选择是否调用工具
- 目标是:正确回答 + 最小工具调用次数
- 定义轨迹 ( \tau ) 包含:推理内容、工具调用、返回结果
4.2 奖励设计(核心创新)
传统奖励只考虑:
r = 1 if answer correct else 0
OTC-PO 提出:
r_new = α * r_tool * r_correct
r_tool
:根据工具调用次数与“最优次数”的偏差设计(cos/sin函数)r_correct
:答案是否正确α
:控制工具效率权重
✅ 只有答案正确时,
r_tool
才生效,避免“少调用但答错”的作弊行为
📊 五、实验结果
5.1 搜索任务(NQ、HotpotQA)
模型 | 方法 | 工具调用 ↓ | 工具生产力 ↑ | 准确率变化 |
---|---|---|---|---|
Qwen-3B | OTC-PPO | ↓41.9% | ↑51.3% | 基本不变 |
Qwen-7B | OTC-PPO | ↓68.3% | ↑215.4% | 基本不变 |
5.2 代码任务(AIME、MATH)
模型 | 方法 | 工具调用 ↓ | 工具生产力 ↑ | 准确率变化 |
---|---|---|---|---|
Qwen-Math-7B | OTC-GRPO | ↓66.7% | ↑199.4% | 持平或略升 |
🔍 六、行为分析
6.1 工具使用行为
- OTC模型更倾向于:
- 用内部推理解决问题(0次调用)
- 或仅用1次高质量工具调用
- 基线模型(如Search-R1)频繁调用工具,甚至重复搜索
6.2 案例对比(Fig.1)
问题 | Search-R1 | OTC-GRPO |
---|---|---|
两人是否都是歌剧作曲家? | 搜索3次 | 0次搜索,直接推理回答 |
🧩 七、结论与展望
✅ 总结
- 问题:模型过度依赖工具,抑制推理能力
- 方法:OTC-PO 强化学习框架,奖励“正确+少工具”
- 效果:显著减少工具调用,提升效率,准确率不降
🔮 未来方向
- 拓展至更多工具类型(API、机器人等)
- 引入动态工具预算或自适应策略
- 探索更长程任务中的工具使用规划
ZeroSearch: Incentivize the Search Capability of LLMs without Searching.
🧠 ZEROSEARCH 脑图总览
1️⃣ 研究背景与动机
- LLM 的知识是静态的 → 容易幻觉或信息过时
- RAG(检索增强生成)是主流解决方案
- 提示工程复杂
- 监督微调(SFT)成本高
- 实时搜索(如Google)效果好但:
- API 成本高
- 文档质量不可控 → 训练不稳定
2️⃣ 研究目标
- ✅ 提出 ZEROSEARCH:在不调用真实搜索引擎的前提下,通过强化学习训练 LLM 的搜索能力
- ✅ 降低成本,提升训练稳定性与可控性
- ✅ 保持或超越真实搜索训练的效果
3️⃣ 方法结构
🔹 3.1 搜索模拟器(Search Simulator)
- 用一个冻结的 LLM(如 Qwen-14B)模拟搜索引擎
- 通过轻量监督微调(SFT)生成:
- ✅ 有用文档(useful)
- ❌ 噪声文档(noisy)
- 控制文档质量只需修改 prompt 中的关键词(如“useful” vs “noisy”)
🔹 3.2 课程式 rollout(Curriculum Rollout)
- 训练初期:生成高质量文档 → 学习基本格式与任务
- 训练中后期:逐步增加噪声比例 → 提升推理与鲁棒性
- 噪声概率公式控制:
( p_i = p_s + \frac{b^{i/m} - 1}{b - 1}(p_e - p_s) )
🔹 3.3 奖励设计
- 使用 F1-score 作为奖励函数,避免 EM(Exact Match)导致的“答案堆砌”现象
- 奖励公式:
( r = 2 \times \frac{IN}{PN + RN} )
🔹 3.4 强化学习训练
- 支持多种 RL 算法:REINFORCE、PPO、GRPO
- 对文档 token 应用 loss masking,避免对非策略输出部分进行梯度更新,提升稳定性
4️⃣ 实验结果
✅ 性能对比(vs 真实搜索引擎)
模型 | 方法 | 平均 EM 得分 |
---|---|---|
Qwen-3B | ZEROSEARCH | 34.47 |
Qwen-3B | Search-R1(真实搜索) | 32.81 |
LLaMA-3B | ZEROSEARCH | 36.07 |
LLaMA-3B | Search-R1 | 34.21 |
- ✅ ZEROSEARCH 在 7 个问答数据集上均优于真实搜索训练
- ✅ 通用性强:适用于 Base 和 Instruct 模型
- ✅ 可扩展性:模拟器越大(14B),效果越好,甚至超过 Google 搜索
5️⃣ 成本分析
方法 | API 成本 | GPU 成本 | 总成本 |
---|---|---|---|
Google 搜索 | $586.7 | $0 | $586.7 |
ZEROSEARCH(14B) | $0 | ~$70 | ✅ 节省约 88% |
6️⃣ 案例与行为分析
- ✅ 模型学会多轮搜索、格式化输出
- ✅ 能区分有用/噪声文档,提升推理能力
- ✅ 在训练中逐步减少交互轮数,提升效率
7️⃣ 结论与局限
- ✅ ZEROSEARCH 是一种高效、低成本、可扩展的替代方案
- ⚠️ 仍需部署模拟器 LLM,带来一定 GPU 成本
- 🔮 未来可拓展至更多工具类型、多模态搜索等任务
🧩 脑图可视化建议(可导入XMind/MindMaster)
ZEROSEARCH
├─ 背景
│ ├─ LLM 幻觉
│ ├─ RAG 局限
│ └─ 实时搜索问题(成本高、质量差)
├─ 目标
│ ├─ 不依赖真实搜索
│ ├─ 降低成本
│ └─ 提升搜索能力
├─ 方法
│ ├─ 搜索模拟器(SFT)
│ ├─ 课程式 rollout
│ ├─ F1 奖励设计
│ └─ RL 训练(REINFORCE/PPO/GRPO)
├─ 实验
│ ├─ 性能优于真实搜索
│ ├─ 跨模型通用
│ └─ 成本节省 88%
├─ 案例
│ ├─ 多轮搜索行为
│ └─ 文档质量区分
└─ 总结├─ 高效、低成本├─ 可扩展└─ 有基础设施需求
✅ 训练阶段:完全代替真实搜索 API
- 不调用任何真实搜索引擎(如 Google、Bing)
- 使用一个冻结的 LLM(如 Qwen-14B)作为“搜索引擎模拟器”
- 它根据查询生成“文档”,可以是:
- ✅ 有用文档(包含正确答案)
- ❌ 噪声文档(干扰信息)
- 通过课程学习逐步增加噪声,提升策略模型的鲁棒性
这样做的目的是:
- 节省 API 成本(降低约 88%)
- 避免文档质量不稳定带来的训练波动
- 可控文档质量,提升训练效率和稳定性
⚠️ 推理阶段:仍可使用真实搜索 API
- 在最终评估或实际部署时,模型可以与真实搜索引擎交互
- 实验中也表明:在模拟环境中训练出的模型,在真实搜索环境下表现更好或相当
- 所以模拟器是为训练服务,而不是为最终用户体验服务
✅ 总结一句话:
搜索模拟器在训练阶段完全替代真实搜索 API,是“训练时的替代品”;在推理阶段可以选择是否使用真实搜索,是“部署时的可选项”。
如果你是在考虑是否可以用搜索模拟器彻底替代真实搜索API,答案是:
- ✅ 在训练阶段:可以,且更便宜、更稳定
- ⚠️ 在推理阶段:可以用,但是否替代取决于你对真实性和成本的需求
IKEA: Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent.
IKEA 算法的核心流程可以拆成 “训练前准备” → “强化学习训练” → “推理阶段” 三条主线。
下面用“一步一图”的方式给出 可直接落地的算法流程图,并附伪代码,方便你复现或改写。
🧩 一句话总览
IKEA 只做一件事:用 RL 让模型学会“先内后外”——能自己答的绝不去搜索,真不会才检索。
🔧 阶段 0 训练前准备(离线)
步骤 | 输入 | 输出 | 关键代码/工具 |
---|---|---|---|
0.1 探测知识边界 | 原始 QA 对 | Qeasy / Qhard 标签 | 3-shot CoT + 采样 5 次 ≥1 次对→easy |
0.2 构造训练集 | Qeasy ∪ Qhard | 1:1 混合集 | 过滤重复、平衡领域 |
0.3 准备环境 | 维基 2018 + e5-base 检索器 | 可调用 search() 的环境 | FlashRAG / LangChain 均可 |
🎯 阶段 1 强化学习训练(在线)
下图即 单条轨迹(rollout) 的完整流程,训练时并行跑 G=16 条轨迹再用 GRPO 更新。
┌-----------------------------┐│ 输入:问题 q │└------------┬----------------┘▼┌-----------------------------┐│ 1 <THINK> 自评知识边界 │← prompt 模板强制输出└------------┬----------------┘▼置信?┌-----------------------------┐ 不确定?-----│ 2 <ANSWER> 直接答 │------------┐Yes└------------┬----------------┘ No │▼ ▼返回答案 a ┌-----------------------------┐│ 3 <SEARCH> 生成查询词 │└------------┬----------------┘▼┌-----------------------------┐│ 4 检索 → <CONTEXT>docs │└------------┬----------------┘▼┌-----------------------------┐│ 5 再<THINK>→<ANSWER>给出 a │└------------┬----------------┘▼┌-----------------------------┐│ 6 奖励计算:R = rans + rkb │└------------┬----------------┘▼┌-----------------------------┐│ 7 收集轨迹 τ1…τG │└------------┬----------------┘▼┌-----------------------------┐│ 8 GRPO 更新策略 πθ │└-----------------------------┘
关键公式
- rans = 1(a == a_gold)
- rkb =
– 若答对:rkb+ · (1 − RT/RTmax) # 越少检索越高
– 若答错且 RT>0:rkb− # 鼓励尝试
– 若答错且 RT=0:0 # 无作为
🚀 阶段 2 推理阶段(部署)
与训练流程完全相同,只是 去掉随机探索 & 不再更新参数;检索次数上限可设得更宽松。
📜 极简伪代码(PyTorch 风格)
for epoch in range(120):batch = sample_balanced(Qeasy, Qhard, bsz=256)trajectories = []for q in batch:traj = []while not ended:think = model.generate(q, tag="<THINK>")if "I can answer" in think:ans = model.generate(q, tag="<ANSWER>")ended = Trueelse:query = model.generate(q, tag="<SEARCH>")docs = retrieve(query, topk=5)q = q + f"<CONTEXT>{docs}</CONTEXT>"traj.append(tokens)reward = compute_reward(traj, gold)trajectories.append(traj)# GRPO 更新advantages = group_normalize(trajectories) # (ri - μ)/σloss = grpo_loss(trajectories, advantages)optimizer.step()
📌 复现要点清单
- Prompt 模板必须强制
<THINK>
→(可选)<SEARCH>
→<ANSWER>
顺序,否则解析失败。 - 检索器任意(e5/colBERT/BM25),但训练后不要换,否则知识边界漂移。
- rkb+ 与 rkb− 需网格搜索一小范围(论文用 0.6 / 0.05)。
- 训练步数不必多,120 步即可收敛(≈ 8×A100 × 12h)。
Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging.
当然可以!以下是对论文《Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging》的系统解析,帮助你快速抓住其核心思想、方法、创新点和实验结果。
🧠 一、研究背景与动机
✅ 问题背景:
- LLM 的知识是静态的,面对复杂、模糊、多跳的问题时,容易出错或答不出来。
- 传统 RAG(Retrieval-Augmented Generation)方法:
- 检索是静态的(只在最开始搜一次)
- 无法适应推理过程中的信息需求变化
- 无法判断检索是否有用
✅ 研究动机:
如何让 LLM 像人类一样**“闻着信息的气味”**去主动、动态、高效地搜索?
🎯 二、研究目标与核心思想
✅ 提出 InForage 框架:
- 将 LLM 的搜索行为建模为 “信息觅食(Information Foraging)”过程
- 用 强化学习(RL) 训练模型,使其:
- 自主决定何时搜索
- 生成高质量子查询
- 评估信息是否有用
- 逐步逼近正确答案
🔬 三、方法结构详解
1️⃣ 信息觅食理论(IFT)建模
概念 | 含义 |
---|---|
信息气味(Information Scent) | 当前推理内容是否与目标相关 |
信息块(Information Patch) | 每次检索到的文档集合 |
觅食路径(Foraging Path) | 一系列搜索-推理-整合的步骤 |
目标:以最少搜索步骤,覆盖最多的必要信息,最终答对问题
2️⃣ InForage 框架流程
<think> → <search> → <info> → <think> → ... → <answer>
- :推理并决定是否搜索
- :生成子查询
- :获取检索结果
- :最终答案
3️⃣ 奖励函数设计(核心创新)
总奖励:
R = R_{outcome} + α \cdot R_{gain} - β \cdot R_{efficiency}
奖励项 | 作用 |
---|---|
R_outcome | 答对给 1,答错给 0 |
R_gain | 每次检索后,模型对正确答案的置信度提升量(信息增益) |
R_efficiency | 搜索次数越多,惩罚越大(鼓励简洁) |
✅ 这是首次在搜索增强推理中显式奖励中间检索质量!
📊 四、实验结果(重点)
✅ 主实验(表1)
方法 | EM(↑) | 特点 |
---|---|---|
Search-R1-GRPO | 35.6 | 当前最强 RL 搜索方法 |
InForage(3B) | 41.0 ✅ | 提升 5.4 分 |
检索次数 | 更少 ✅ | 平均减少 30~50% |
- 在 8 个数据集上全面领先(NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA、自构 WebQA)
- 尤其在 多跳推理任务上表现突出(如 2Wiki、Musique)
🧪 五、数据集构建(亮点)
✅ 自构“人类搜索轨迹”数据集:
- 人工标注:500 条真实网页搜索轨迹(含点击、查询、推理)
- GPT-4o 自动生成:扩展为 20,000 条复杂 QA 对
- 多跳推理:每条问题需 ≥4 个信息点联合推理
- 实时网页:全部来自 2025 年 1~3 月新网页,防止模型“背答案”
✅ 这是首个带有中间搜索-推理标签的大规模复杂 QA 数据集!
🔍 六、消融实验(验证有效性)
消融项 | 结果 |
---|---|
去掉信息增益奖励 | 性能下降 2~3 分,检索次数↑ |
去掉效率惩罚 | 检索冗余↑,答案变长 |
去掉 SFT 预训练 | RL 训练不稳定,收敛慢 |
换成 GRPO | 性能略低于 PPO |
换成 7B 模型 | 性能进一步提升,验证可扩展性 |
✅ 七、总结一句话
InForage 首次将“信息觅食”理论引入 LLM 搜索推理,用 RL 显式奖励中间检索质量,使模型能像人类一样“闻着信息气味”主动搜索,在复杂问答任务中实现更高准确率、更少检索次数、更强泛化能力。
🧩 八、可视化脑图(文字版)
InForage
├─ 背景
│ ├─ RAG 检索静态、单一
│ ├─ 复杂任务需多跳、动态搜索
│ └─ 人类擅长“信息觅食”
├─ 方法
│ ├─ 信息气味 → 子查询
│ ├─ 三奖励:结果+增益+效率
│ ├─ 两阶段:SFT → PPO
│ └─ 数据:人工+自动 20k 轨迹
├─ 实验
│ ├─ 8 数据集全面领先
│ ├─ 检索次数↓30~50%
│ └─ 多跳任务尤其强
└─ 意义├─ 理论:首套 IFT-RL 框架├─ 数据:首个中间标签 QA└─ 实用:更小模型更强搜索
R_gain
(Information Gain Reward)是 InForage 的核心创新之一,它量化每一次检索对“最终答对”到底帮了多少忙,而不是只看最后对不对。
🔍 一、直观理解
每一次检索后,模型对正确答案的置信度提升越多,这次检索就越“香”,
R_gain
就越高。
🧮 二、形式化定义(论文公式)
令:
D*
:回答该问题所需的所有文档集合(Golden Evidence,人工标注)Kt
:第t
次检索得到的文档集合C(K<t>, D*)
:前t
次检索累计覆盖了多少D*
中的文档(比例)
则:
R_{gain} = \max_{t=1,...,T} C\left(\bigcup_{\tau=1}^{t} K_{\tau}, D^*\right)
🧪 三、实际计算步骤(可复现)
步骤 | 操作 | 工具/示例 |
---|---|---|
1️⃣ 构建 D* | 人工标注必须引用的网页/段落 | 如示例中 4 条 URL |
2️⃣ 每次检索 Kt | 模型生成子查询 → 召回 Top-5 文档 | 用 BGE-M3 或 E5 |
3️⃣ 计算覆盖 C | 统计 Kt 与 D* 的交集占比 | 简单 Jaccard 或命中数/ |
4️⃣ 取轨迹最大值 | 整条推理路径里最好的覆盖值作为 R_gain | 0 ~ 1 之间 |
📌 四、举个具体例子
问题:
“Which university is the highest-rated 2026 recruit in the West committed to?”
Golden D*:3 条网页 → {superwest-tracker.com
, 247sports.com/recruit
, university-of-oregon.edu
}
检索轮 | 召回文档 | 新增命中 | 累计覆盖 C |
---|---|---|---|
1 | superwest-tracker.com | 1 | 1/3 = 0.33 |
2 | 247sports.com/recruit | 1 | 2/3 = 0.67 |
3 | espn.com(未命中) | 0 | 0.67 |
4 | university-of-oregon.edu | 1 | 3/3 = 1.0 |
→ 该轨迹 R_gain = max{0.33, 0.67, 0.67, 1.0} = 1.0
✅ 五、一句话总结
R_gain
就是:整条推理过程中,检索结果对“标准证据”的最大覆盖比例——它让模型“每一次搜索都有意义”,而不再只看最后对错。
AutoRefine: Search and Refine During Think.
以下对论文《Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning》进行结构化梳理,帮助你在 10 分钟内抓住核心思想、方法、结果与可复现要点。
🧠 一句话总结
AutoRefine 在“搜索过程中”显式插入 步骤,用 RL 同时奖励「答对」和「提炼对」,让 3B 小模型在多跳 QA 上 >6% 超越 Search-R1,检索更少、答案更准。
🎯 研究动机(Why)
现有 “search-during-think” 痛点 | AutoRefine 解决思路 |
---|---|
① 直接把原始文档塞进上下文 → 噪声多、易分心 | 插入 步骤,显式蒸馏关键句 |
② 只用最终答案奖励 → 检索质量无监督 | 新增 retrieval-specific reward,提炼内容覆盖 GT 就给分 |
🔬 方法核心(What & How)
1. 搜索-提炼-思考 模板(新范式)
每条轨迹由模型自动生成,循环下列 5 类 token:
<think> → <search>query</search> → <documents>…</documents>
→ <refine> distilled sentence </refine> → … → <answer>final</answer>
- 必须出现:用自然语言总结/抽取与问题相关的原子事实
- 提炼内容仅 100-200 token,≈4× 短于原始文档,降低后续噪声
2. 双信号奖励(核心创新)
奖励 | 计算方式 | 目的 |
---|---|---|
Answer Reward | F1(answer, GT) | 保证最终正确 |
Retrieval Reward | 1{GT ⊆ refined_text} | 强制提炼“全对”信息 |
Overall | 答对→1;仅提炼对→0.1;全错→0 | 非线性组合,避免中间行为喧宾夺主 |
3. 训练策略
- SFT 冷启动:先用 169k NQ+HotpotQA 生成轨迹,2 epoch
- GRPO 强化:5 条 rollout/样本,200 steps,lr=1e-6,β_KL=0.001
- Mask 技巧: token 不计 loss,防止“学抄”检索文本
📊 主要结果(RQ 一览)
数据集 | Search-R1-Base | AutoRefine-Base | Δ |
---|---|---|---|
HotpotQA | 29.7 | 40.5 | +10.8 |
2Wiki | 27.4 | 39.3 | +11.9 |
Musique | 6.6 | 15.7 | +9.1 |
7 集平均 | 31.2 | 40.5 | +9.3(↑29%) |
- 检索次数:多跳场景下≈2.2 次/题,与 Search-R1 持平但成功率>50%(+10%)
- 提炼长度:≈150 token,4× 压缩原始文档,保留 95% 关键信息
🔍 关键消融(Ablation)
变体 | 平均 EM | 说明 |
---|---|---|
完整 AutoRefine | 40.5 | - |
去掉 Retrieval Reward | 37.6 | -2.9 → 提炼质量下降 |
再去掉 模块 | 31.2 | -9.3 → 回到 Search-R1 水平 |
→ 步骤与检索奖励缺一不可
🛠 可复现要点
项目 | 配置 |
---|---|
基座模型 | Qwen2.5-3B / 7B(Base & Instruct) |
检索器 | E5-base-v2,Top-3,512 token/次 |
知识源 | 2018-12 Wikipedia(FlashRAG) |
最大搜索次数 | 5 |
RL 框架 | VeRL + GRPO,200 steps,8×A100-80G |
关键超参 | lr=1e-6, β=0.001, clip= |
GT ⊆ refined_text}这个是什么意思
GT ⊆ refined_text
是一个集合包含符号,读作:
“ground-truth 信息是提炼句 refined_text 的子集”。
在 AutoRefine 的强化学习奖励里,它是一条0/1 判定规则:
- 把标准答案拆成若干原子事实(可看成集合 GT)。
- 用同样方式把模型在
<refine>
里写下的 distilled sentence 拆成原子事实(集合 refined_text)。 - 只有当GT 的每一条原子事实都出现在 refined_text 中时,才认为
GT ⊆ refined_text
成立,给 retrieval reward = 1;否则为 0。
换句话说,它要求模型在精炼步骤必须“一句不漏”地把能推出答案的关键证据全部保留,而不是只保留部分或写一些无关内容。这样就能强制模型学会“去噪+全覆盖”的双重能力。
O^2-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering.
O²-Searcher 的奖励函数设计是其核心创新之一,目标是引导模型同时处理开放性和封闭性问题,并根据问题类型自适应调整输出策略。
🎯 一、总体思路
- 封闭性问题:答案唯一,奖励聚焦在准确性和格式正确性。
- 开放性问题:答案多样,奖励需考虑:
- 格式规范(Markdown 列表)
- 内容多样性(避免重复)
- 事实正确性(与参考答案匹配)
🧮 二、奖励函数结构
✅ 1. 封闭性问题奖励(Closed-ended)
[
r_c =
\begin{cases}
1, & \text{若格式正确且 } a_{pred} = a_{gt} \
0, & \text{否则}
\end{cases}
]
- a_pred:模型生成的答案
- a_gt:标准答案
- 格式要求:答案必须包含在
<answer>
标签中 - 匹配方式:不区分大小写精确匹配
✅ 2. 开放性问题奖励(Open-ended)
由三部分加权组成:
[
r_o = \gamma_0 \cdot r_{o,fm} + \gamma_1 \cdot r_{o,div} + \gamma_2 \cdot r_{o,f1}
]
(1)格式奖励(Format Reward)( r_{o,fm} )
鼓励:
- 使用 Markdown 列表格式
- 列表项不重复
- 格式正确
[
r_{o,fm} = \alpha_0 \cdot \frac{n_{val}}{n_{tot}} + \alpha_1 \cdot [1 - s(a_{pred})]^\delta - \alpha_2 \cdot \frac{n_{dup}}{n_{tot}}
]
- ( n_{tot} ):总条目数
- ( n_{val} ):格式正确的条目数
- ( n_{dup} ):重复条目数
- ( s(a_{pred}) ):条目间语义相似度(越低越好)
- ( \alpha_0, \alpha_1, \alpha_2, \delta ):超参(如 ( \alpha_0 = 0.5, \alpha_1 = 0.5, \alpha_2 = 3, \delta = 1.5 ))
(2)多样性奖励(Diversity Reward)( r_{o,div} )
鼓励生成语义多样化的搜索查询:
[
r_{o,div} = \left( \frac{1}{n_q} \sum_{i=1}^{n_q} \frac{1}{n_q - 1} \sum_{j \neq i} (1 - \cos(\psi(q_i), \psi(q_j))) \right) \cdot \omega(n_q)
]
- ( \psi(q_i) ):查询 ( q_i ) 的嵌入向量
- ( \cos(\cdot) ):余弦相似度
- ( \omega(n_q) ):查询数量惩罚项,避免太多或太少
(3)事实性奖励(Factual Reward)( r_{o,f1} )
衡量生成答案与参考答案的语义匹配度:
- 使用嵌入模型将答案条目编码为向量
- 计算生成与参考条目间的余弦相似度
- 使用 匈牙利算法 做最优匹配
- 过滤低相似度匹配(阈值 ( s_\theta = 0.75 ))
- 最终计算 Precision、Recall、F1 分数
[
r_{o,f1} = 2 \cdot \frac{p \cdot r}{p + r}
]
🧩 三、奖励函数设计总结表
问题类型 | 奖励组成 | 目标 |
---|---|---|
封闭性 | 准确性 + 格式 | 答对且格式正确 |
开放性 | 格式 + 多样性 + 事实性 | 结构清晰、内容多样、真实可靠 |
🧠 四、设计亮点
- 多目标优化:格式、内容、语义全覆盖。
- 可解释性强:每个奖励项都可追踪。
- 训练稳定:避免单一奖励(如 F1)导致训练震荡。
- 自适应:模型能自动识别问题类型并调整策略。
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability.
这篇文章提出了一个名为 MASKSEARCH 的新型预训练框架,旨在增强大模型(LLMs)在 智能体搜索(agentic search) 场景下的通用检索与推理能力,特别是在 开放域多跳问答(open-domain multi-hop QA) 任务中表现突出。
🧠 一、研究背景与动机
- RALMs(Retrieval-Augmented Language Models) 通过检索外部知识增强生成能力,但检索与生成模块通常是分离的,限制了模型的主动性和适应性。
- 智能体搜索(Agentic Search) 允许模型主动调用搜索工具进行多步推理,但现有方法多依赖任务特定数据,泛化能力弱。
- 目标:提出一种通用的预训练任务,使模型在预训练阶段就具备搜索、推理、工具使用等能力,从而更好地适应下游任务。
🧩 二、核心贡献
-
提出 RAMP 预训练任务(Retrieval-Augmented Mask Prediction):
- 模型需通过搜索工具填补文本中被遮蔽的关键信息(如实体、时间、术语等)。
- 培养模型的问题分解、搜索调用、结果观察与推理能力。
-
两阶段训练框架:
- 阶段一(预训练):基于 RAMP 任务进行 SFT 或 RL 训练。
- 阶段二(下游任务):在问答数据集(如 HotpotQA)上微调,提升任务表现。
-
高质量数据生成机制:
- Agent-based Startup:使用多智能体系统(Planner、Rewriter、Observer)生成初始 CoT 数据。
- Self-Evolve Distillation:用已训练模型作为教师,迭代生成更高质量的数据集(最终构建 10M 条数据)。
-
强化学习优化:
- 采用 DAPO(Dynamic Sampling Policy Optimization)算法。
- 奖励设计包括:
- 格式奖励:是否遵循推理和回答格式。
- 答案奖励:基于 Token-level Recall、Penalty、或 Model-based 判断答案正确性。
-
课程学习策略(Curriculum Learning):
- 从少 mask 到多 mask 逐步增加任务难度,提升模型学习效率与鲁棒性。
🧪 三、实验结果
✅ 1. 多数据集评估(如 HotpotQA、FanoutQA、Musique 等)
模型规模 | 方法 | 平均 Recall |
---|---|---|
1.5B | MASKSEARCH(RL+RL) | 65.34 |
3B | MASKSEARCH(RL+RL) | 69.37 |
7B | MASKSEARCH(RL+RL) | 71.01 |
- 在所有模型规模上,MASKSEARCH 均显著优于:
- RAG-PE(传统检索增强)
- Agent-PE(提示工程)
- Search-R1(单阶段 RL)
✅ 2. 消融实验与策略对比
- PPL-based Masking:提升部分数据集表现,但过难样本可能降低效果。
- 课程学习:在多 mask 场景下优于混合训练,提升泛化能力。
- RL vs SFT:RL 在预训练中带来更高上限,尤其适用于复杂推理任务。
🧭 四、方法结构图(简化)
原始文本(含 mask) → 模型推理 → 搜索工具调用 → 搜索结果 → 填补 mask → 输出答案
- 模型需自主决定:
- 是否搜索
- 搜索什么
- 如何利用搜索结果推理
- 何时给出答案
⚠️ 五、局限性与未来方向
局限性 | 说明 |
---|---|
工具单一 | 当前仅使用搜索工具,未来可扩展至 API、数据库等 |
理论分析不足 | 方法有效但缺乏深入理论解释 |
数据多样性 | 自演化数据可能缺乏多样性,影响大模型效果上限 |
📌 六、总结
MASKSEARCH 通过引入 RAMP 预训练任务,让模型在预训练阶段就具备 搜索、推理、工具使用 等能力,显著提升了在开放域问答任务中的表现。其两阶段训练、数据自演化、RL 优化与课程学习等机制,为构建 通用智能体搜索系统 提供了新范式。
VRAG-RL: Vision-Perception-Based RAG for Visually Rich Information Understanding
这篇文章提出了 VRAG-RL,一个专为 视觉丰富信息理解与推理 设计的强化学习(RL)框架,用于提升视觉-语言模型(VLMs)在 检索增强生成(RAG) 任务中的表现,特别适用于多跳问答、图表理解、文档视觉问答等复杂场景。
🧠 一、研究背景与问题
- 传统 RAG 的局限:
- 文本 RAG 无法处理图像、图表等视觉信息。
- 视觉 RAG 多为固定流程,缺乏动态推理能力。
- 现有方法的问题:
- 图像仅作为上下文输入,未激活视觉感知能力。
- 搜索查询表达能力弱,检索质量低。
- 多轮推理不稳定,训练过程容易失效。
🧩 二、核心贡献
✅ 1. 提出 VRAG-RL 框架
- 首个专为 视觉丰富信息 RAG 设计的 强化学习框架。
- 支持 多轮迭代推理,模型可主动调用搜索工具并处理图像。
✅ 2. 视觉感知动作空间(Visual Perception Action Space)
- 模型可输出
<region>
标签,选择图像中的感兴趣区域进行裁剪、缩放、重编码。 - 实现从 粗粒度到细粒度 的视觉信息提取,提升感知效率与精度。
✅ 3. 多维度奖励机制(Fine-Grained Reward)
奖励函数由三部分组成:
奖励类型 | 作用 |
---|---|
检索效率奖励(rRet) | 基于 NDCG 评估检索图像的相关性与顺序 |
模型答案奖励(rAns) | 使用大模型(如 Qwen2.5-7B)评估生成答案是否正确 |
模式一致性奖励(rPat) | 保证模型遵循 <think> 、<search> 、<answer> 等动作格式 |
最终奖励:
[
r_\phi = \alpha \cdot r_{Ret} + \beta \cdot r_{Ans} + \gamma \cdot r_{Pat}
]
✅ 4. 强化学习训练策略
- 使用 GRPO(Group Relative Policy Optimization) 算法。
- 支持 多轮交互采样,每条轨迹包含思考、搜索、感知、回答等步骤。
- 引入 KL 散度约束,防止模型偏离原始能力。
🧪 三、实验结果
📊 1. 数据集与任务
数据集 | 类型 | 特点 |
---|---|---|
SlideVQA | 幻灯片问答 | 多图、多跳推理 |
ViDoSeek | 文档视觉问答 | 大图集合、跨图推理 |
MMLongBench | 长文档理解 | 含图表、表格、布局等视觉元素 |
📈 2. 性能对比(Recall 或 Accuracy)
模型 | 方法 | SlideVQA | ViDoSeek | MMLongBench | 平均 |
---|---|---|---|---|---|
Qwen2.5-VL-3B | Search-R1-VL | 21.3 | 14.1 | 11.2 | 15.5 |
➕ | VRAG-RL | 53.5 | 38.6 | 19.5 | 37.2 |
Qwen2.5-VL-7B | Search-R1-VL | 37.4 | 22.2 | 20.9 | 26.8 |
➕ | VRAG-RL | 57.1 | 43.1 | 21.2 | 40.5 |
- VRAG-RL 提升 20%~30%,尤其在推理型任务中表现突出。
- 视觉感知动作空间 在图表、布局类任务中提升显著。
🔍 四、关键模块消融实验
模块 | 移除后性能下降 | 说明 |
---|---|---|
视觉感知动作空间 | ↓ 2.2~5.8 分 | 裁剪/缩放能聚焦高密度信息区 |
检索效率奖励 | ↓ 3~5 分 | 鼓励早检索、少噪声,提升上下文质量 |
模型答案奖励 | ↓ 明显 | 避免召回式奖励的“刷分”行为 |
🧭 五、案例分析与可解释性
- 案例 1:模型通过裁剪表格区域,提取 Dugwells 与 Shallow Tubewells 的数量,完成数值比较。
- 案例 2:识别图像中药代动力学图表,判断 Famotidine 生物利用度低于 Cimetidine。
- 展现出 人类般的反思与感知策略,而非机械复述训练模式。
⚠️ 六、局限与未来方向
局限性 | 未来方向 |
---|---|
当前仅支持搜索 + 视觉感知 | 引入更多工具(API、数据库、计算器等) |
模型裁剪动作可能出错 | 引入更精细的 grounding 模型或人工校验 |
多轮交互增加延迟 | 优化策略减少无效搜索,提升效率 |
📌 七、总结一句话
VRAG-RL 是第一个将 视觉感知动作空间 与 强化学习 结合用于 视觉 RAG 的框架,显著提升了模型在复杂视觉文档中的 检索、感知与推理能力,为构建 真正的多模态智能体 提供了新范式。
R1-Code-Interpreter: Training LLMs to Reason with Code via SFT and RL.
这篇文章提出了 R1-Code-Interpreter,一个通过 监督微调(SFT) 和 强化学习(RL) 训练的大语言模型框架,使模型能够 自主决定在推理过程中何时使用代码解释器(Code Interpreter),从而提升在复杂推理和规划任务中的准确性和效率。
🧠 一、研究背景与动机
- 文本推理的局限:大模型在文本推理方面表现优秀,但在需要精确计算、符号操作、算法推理等任务上表现不佳。
- 代码解释器的优势:通过生成并执行代码,可以显著提升模型在数学、逻辑、规划等任务上的表现。
- 关键挑战:
- 如何让模型 自主判断何时使用代码?
- 如何 训练模型有效集成代码解释器?
- 如何 泛化到多种任务类型?
🧩 二、核心贡献
✅ 1. 提出 R1-Code-Interpreter 框架
- 首个开源的、通用目的的 Code Interpreter 训练框架。
- 支持 多轮文本+代码交互,模型可自主决定何时调用代码解释器。
- 训练后的模型(R1-CI-14B)在 37 个测试任务上平均准确率从 44.0% 提升至 64.1%,超过 GPT-4o(文本版 58.6%),接近 GPT-4o + Code Interpreter(70.9%)。
✅ 2. 构建大规模任务基准
- 汇总 144 个推理与规划任务(107 训练,37 测试),每个任务包含 200+ 样本。
- 覆盖数学、逻辑、空间、优化、搜索等多种能力类型。
- 所有任务统一格式,支持自动化评估。
✅ 3. 训练流程:SFT + RL(GRPO)
阶段 | 方法 | 内容 |
---|---|---|
SFT | 多轮轨迹合成 | 使用 GPT-4o 生成 6.5k 条文本+代码交替的正确轨迹 |
RL | GRPO 优化 | 使用 Group Relative Policy Optimization 强化学习,基于结果奖励优化策略 |
✅ 4. 关键发现与训练策略对比
策略 | 结论 |
---|---|
模型选择 | 使用通用模型(如 Qwen2.5)优于专门推理模型(如 DeepSeek-R1),后者会削弱代码能力 |
冷启动 vs 热启动 | 热启动(先 SFT 再 RL)显著优于冷启动(直接 RL) |
GRPO vs PPO | GRPO 在多任务训练中更稳定、更高效 |
代码输出掩码 | 在 RL 中掩码代码执行结果,避免模型学习预测输出,提升稳定性 |
代码使用比例 | 训练后模型更智能地选择是否使用代码,而非滥用 |
🧪 三、实验结果
📊 1. 总体性能(测试任务平均成功率)
方法 | 平均成功率 |
---|---|
GPT-4o(文本) | 58.6% |
R1-CI-14B | 64.1% ✅ |
GPT-4o + Code Interpreter | 70.9% |
- 在所有模型规模(3B/7B/14B)上均显著提升。
- 在多个任务类型(数学、逻辑、空间、优化等)中表现均衡。
📈 2. 训练曲线与行为分析
- 训练奖励曲线:初期波动大,后期趋于稳定。
- 响应长度:未显著增长,说明模型更高效。
- 代码使用比例:训练后更均衡,避免过度依赖代码。
- 自检查行为涌现:模型会主动生成验证代码,提升答案可靠性。
⚠️ 四、局限性与未来方向
局限性 | 说明 |
---|---|
训练成本高 | 14B 模型训练需约 1600 GPU 小时,代码执行开销大 |
任务多样性挑战 | 任务越多样,RL 提升越有限,需更强基础模型 |
适用范围有限 | 当前聚焦于推理与规划,未覆盖绘图、软件开发等任务 |
📌 五、总结一句话
R1-Code-Interpreter 是第一个通过 SFT + RL 训练的大模型框架,使模型能 自主决定何时使用代码解释器 进行推理,在 广泛任务类型 上显著超越传统文本推理模型,为构建 可执行、可验证、可泛化 的智能推理系统提供了新路径。
在 R1-Code-Interpreter 中,奖励函数的设计是整个强化学习训练过程的核心。它决定了模型在训练过程中如何评估其行为(即是否正确地使用了推理和代码),并指导其策略优化。
🎯 一、奖励构建目标
- 鼓励模型正确完成任务(即最终答案正确)
- 不强制格式或中间步骤,保持模型自然推理能力
- 避免奖励作弊(reward hacking),如刷格式、刷中间输出
- 仅基于结果正确性,不依赖神经奖励模型或过程监督
🧮 二、奖励函数设计
✅ 1. 奖励类型:基于结果的规则奖励(Rule-based Outcome Reward)
R1-Code-Interpreter 使用 纯结果导向的奖励机制,即:
只有当模型生成的最终答案 完全正确 时,给予奖励 1;否则奖励为 0。
[
r = \begin{cases}
1, & \text{最终答案正确} \
0, & \text{否则}
\end{cases}
]
✅ 2. 正确性判断方式(因任务类型而异)
任务类型 | 正确性判断方式 |
---|---|
数学计算题 | 数值是否等于标准答案 |
逻辑推理题 | 是否匹配标准答案(如 True/False、字符串) |
规划类任务(如 Blocksworld) | 是否满足所有约束和目标状态 |
编程类任务 | 是否输出正确结果(通过执行验证) |
所有任务的答案都通过 自动化规则 或 代码执行结果 进行验证,无需人工标注。
✅ 3. 奖励计算时机
- 在每一轮完整的“推理+代码执行”轨迹结束后,计算一次奖励。
- 奖励仅与 最终答案 相关,不评估中间推理或代码片段。
- 中间代码执行结果仅作为上下文输入,不参与奖励计算。
🧠 三、为什么选择这种奖励设计?
优点 | 说明 |
---|---|
✅ 简单鲁棒 | 避免复杂奖励模型带来的误差和不稳定性 |
✅ 防作弊 | 不奖励格式、长度、中间输出,防止模型“刷分” |
✅ 通用性强 | 适用于多种任务类型(数学、逻辑、规划等) |
✅ 与真实目标一致 | 直接优化任务成功率,符合最终应用需求 |
⚠️ 四、未采用的奖励设计(有意避免)
方法 | 原因 |
---|---|
格式奖励 | 模型已能自然遵循格式,强制格式会限制灵活性 |
过程奖励 | 中间步骤难以自动评估,容易引入噪声 |
神经奖励模型 | 训练成本高,容易过拟合或奖励作弊 |
BLEU/ROUGE 等文本相似度 | 不适用于结构化答案或代码输出 |
📌 五、总结一句话
R1-Code-Interpreter 的奖励函数采用“结果导向”的规则奖励:只有最终答案正确才得 1 分,其余为 0。这种设计简单、鲁棒、防作弊,直接优化模型在多样化任务上的实际表现。
R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning.
这篇文章是:
《R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning》
作者:Qingfei Zhao 等
机构:中国科学院信息工程研究所、北京师范大学
发布时间:2025年6月4日(arXiv)
🧭 一、研究背景与问题
-
大模型(LLMs) 在多步推理中表现良好,但在复杂逻辑和知识密集型任务中仍面临挑战:
- 容易生成幻觉(hallucination);
- 难以动态判断何时该搜索、何时该推理;
- 现有 RAG 方法多为模块化设计,推理与搜索耦合浅,导致交互轨迹次优。
-
多轮 RAG 方法虽支持迭代检索,但:
- 检索时机依赖模型内部判断,不一定准确;
- 搜索与推理交互浅,无法深度融合外部知识。
🧩 二、核心贡献
贡献点 | 内容 |
---|---|
1. 提出 R-Search 框架 | 首个基于 强化学习(RL) 的 RAG 框架,联合优化推理-搜索交互轨迹,支持token级触发搜索与全局证据整合。 |
2. 多奖励机制 | 设计 三维度奖励: - 答案奖励(F1) - 证据奖励(跨模型验证) - 格式奖励(结构合规) |
3. 模块化工具 RSTool | 将推理过程中生成的 高质量证据 封装为可复用模块,支持本地部署与跨模型迁移。 |
4. 实验验证 | 在 7 个数据集(4 多跳 + 3 单跳) 上,最高提升 32.2%(内域)/ 25.1%(外域),优于所有 RAG 和 RL 基线。 |
⚙️ 三、方法结构
1. 框架流程(Rollout)
阶段 | 内容 |
---|---|
推理 | 模型生成 CoT,可在任意 token 处触发搜索(query) |
搜索 | 检索 top-k 文档,包装为 插入推理链 |
证据整合 | 模型从所有观测中提炼出 <original_evidence>,用于全局判断 |
答案生成 | 基于证据生成最终答案 |
2. 多奖励设计(Multi-Reward)
奖励类型 | 公式 | 说明 |
---|---|---|
答案奖励 | ( r^\alpha_\phi = \text{F1}(\alpha_{\text{pred}}, \alpha_{\text{gold}}) ) | 衡量最终答案准确性 |
证据奖励 | ( r^e_\phi = \text{F1}(\alpha_{\text{cf}}, \alpha_{\text{gold}}) ) | 用**跨模型(Llama-3.2)**验证证据质量,减少偏见 |
格式奖励 | ( r^f_\phi \in {0, \gamma_e, \gamma_a, \gamma_e + \gamma_a} ) | 保证证据与答案格式正确 |
总奖励:
[
r_\phi = r^\alpha_\phi + r^e_\phi + r^f_\phi
]
3. 训练策略
- 掩码策略:搜索返回的文档不参与梯度更新,避免噪声;
- 非掩码证据:证据部分参与训练,强化模型对知识的理解与整合;
- RL 算法:使用 GRPO(Group Relative Policy Optimization),无需价值网络,稳定性优于 PPO。
📊 四、实验结果
✅ 主实验(7 数据集平均 F1)
方法 | 多跳平均 | 单跳平均 | 总平均 |
---|---|---|---|
Vanilla RAG | 24.4 | 49.1 | 35.0 |
Search-R1(RL基线) | 48.0 | 46.5 | 47.3 |
R-Search(GRPO) | 47.9 | 47.2 | 47.6(3B) |
R-Search(GRPO) | 54.6 | 52.1 | 53.6(7B) |
- 最高提升:MuSiQue 数据集上 +5.6% 超越 Search-R1;
- 跨模型迁移:RSTool + GLM-4-Plus 在 2WikiMQA 上 +20% 提升。
🔍 五、关键发现
发现 | 说明 |
---|---|
证据机制至关重要 | 去除证据后,MuSiQue 下降 2.8%,2WikiMQA 下降 6.1% |
GRPO > PPO | GRPO 收敛更快、奖励更高,尤其在大模型上优势明显 |
搜索次数增加 | 训练后模型触发更多搜索,形成更深层次的交互 |
证据可迁移 | RSTool 可复用于其他模型,降低 API 成本,提升本地部署效率 |
⚠️ 六、局限与未来方向
局限 | 未来方向 |
---|---|
仅使用 2WikiMQA 训练,数据单一 | 引入多领域高质量训练数据 |
训练成本高(8×A100) | 探索高效 RL 方法(如 LoRA、蒸馏) |
未覆盖图像、表格等多模态 | 拓展至多模态推理-检索任务 |
✅ 总结一句话
R-Search 通过 token级搜索触发 + 多奖励RL训练 + 可迁移证据模块,首次实现了推理与搜索的深度耦合,在复杂问答任务中显著超越现有 RAG 和 RL 方法,为可解释、可迁移的推理-检索系统提供了新范式。
StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization.
这篇文章是:
《StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization》
作者:Ziliang Wang 等
机构:SenseTime、南京大学、深圳大学
发布时间:2025年5月26日(arXiv)
🧭 一、研究背景与问题
- 大模型(LLMs) 在多跳推理(multi-hop reasoning)中表现不足,尤其在需要主动搜索外部知识时。
- 现有方法如 RAG(Retrieval-Augmented Generation) 和 Chain-of-Thought(CoT) 存在以下问题:
- 对外部知识依赖强,但搜索过程静态、粗糙;
- 强化学习(RL)方法如 PPO、GRPO 仅使用全局奖励(如最终答案是否正确),缺乏中间搜索步骤的监督;
- 搜索行为缺乏细粒度反馈,导致模型在多跳问答中表现不佳。
🧩 二、核心贡献
贡献点 | 内容 |
---|---|
1. StepSearch 框架 | 提出基于 逐步强化学习(Step-wise PPO) 的训练框架,引入中间搜索步骤的奖励机制。 |
2. 双奖励机制 | 设计两种奖励: Type 1:全局奖励(答案正确性 + 搜索关键词匹配) Type 2:步骤奖励(信息增益 - 冗余惩罚) |
3. 数据管道 | 基于 MuSiQue 数据集,构建了一个包含 子问题-搜索关键词-答案轨迹 的精细训练数据集(19k 条)。 |
4. 实验验证 | 在 4 个多跳问答数据集(HotpotQA、MuSiQue、2Wiki、Bamboogle)上,3B/7B 模型均显著优于现有 RL+RAG 方法,最高提升 15.2%。 |
⚙️ 三、方法详解
1. 数据构建流程(Data Pipeline)
- 输入:MuSiQue 多跳问题
- 步骤:
- 用 GPT-4o 将问题分解为多个子问题;
- 为每个子问题生成多个搜索查询;
- 用多个搜索引擎(Google/Bing/Wiki)验证查询有效性;
- 保留至少在一半引擎中返回有效结果的查询;
- 构建“子问题 → 搜索关键词 → 检索文档 → 子答案”的完整轨迹。
2. 训练框架:StepSearch(StePPO)
- 基于 PPO,引入步骤级奖励;
- 每个搜索轮次包括:
<think>
:推理<search>
:发出查询<information>
:返回文档(训练时mask,不参与梯度更新)
- 奖励设计:
- 信息增益(Information Gain):衡量本轮检索文档与标准答案的相似度提升;
- 冗余惩罚(Redundancy Penalty):惩罚重复检索已看过的文档;
- 搜索关键词奖励(Search Key Reward):衡量生成查询与标准关键词的匹配度;
- 答案奖励(Answer Reward):基于 F1 分数评估最终答案正确性。
📊 四、实验结果
1. 主实验(4 个数据集)
模型 | HotpotQA F1 | MuSiQue F1 | Bamboogle F1 |
---|---|---|---|
Search-R1(baseline) | 0.401 | 0.188 | 0.344 |
StepSearch(3B) | 0.452 | 0.273 | 0.419 |
StepSearch(7B) | 0.502 | 0.324 | 0.573 |
- 仅用 19k 训练数据,超越使用 170k 数据的 Search-R1;
- 在小模型(3B)上提升更明显,说明细粒度监督对小模型更有效。
2. 消融实验(Ablation Study)
模块移除 | HotpotQA F1 | 说明 |
---|---|---|
无步骤奖励 | 0.475 | 明显下降 |
无信息增益 | 0.468 | 搜索质量下降 |
无冗余惩罚 | 0.494 | 出现重复搜索 |
无关键词奖励 | 0.528 | 收敛变慢 |
🧪 五、案例展示(Case Study)
- 早期训练阶段:模型反复搜索相似关键词,浪费预算;
- 后期训练阶段:模型能精准定位关键文档,避免冗余;
- 仅使用关键词奖励:模型会“骗奖励”,伪造搜索格式或生成假答案,导致崩溃。
⚠️ 六、局限与未来工作
局限 | 未来方向 |
---|---|
仅支持文本问答 | 拓展到多模态(图像、音频) |
仅测试 3B/7B 模型 | 探索14B/32B大模型下的稳定性 |
训练数据仅 19k | 探索更大规模数据下的表现 |
搜索行为有限 | 引入更复杂的搜索策略(如跳转、多轮交互) |
✅ 总结一句话
StepSearch 通过引入步骤级奖励机制(信息增益 + 冗余惩罚),让大模型在搜索过程中“步步有反馈”,显著提升多跳推理能力,尤其在小模型 + 少数据场景下表现突出。
步骤级别奖励(Step-wise Reward)在 StepSearch 中由两部分组成:
信息增益(Information Gain) 减去 冗余惩罚(Redundancy Penalty)
✅ 公式总览
rtstep=Gt−Ptr_t^{\text{step}} = G_t - P_trtstep=Gt−Pt
其中:
- ( G_t ):第 ( t ) 轮搜索的信息增益
- ( P_t ):第 ( t ) 轮搜索的冗余惩罚
🔍 1. 信息增益 ( G_t )
目的:
衡量本轮检索文档对标准答案文档的新增匹配程度。
定义:
设有 ( n ) 个标准文档 ( {d_1^g, …, d_n^g} ),每个文档 ( d_i^g ) 对应一个子问题。
- 令 ( m_t^i ):前 ( t-1 ) 轮中,检索文档与 ( d_i^g ) 的最大相似度;
- 令 ( c_t^i ):第 ( t ) 轮中,检索文档与 ( d_i^g ) 的最大相似度;
- 则第 ( t ) 轮对 ( d_i^g ) 的信息增益为:
Δti=max(cti−mti,0) \Delta_t^i = \max(c_t^i - m_t^i, 0) Δti=max(cti−mti,0)
- 整体信息增益为:
Gt=1n∑i=1nΔti G_t = \frac{1}{n} \sum_{i=1}^n \Delta_t^i Gt=n1i=1∑nΔti
✅ 说明:只有当本轮检索文档比历史更好时,才计入增益,避免重复奖励。
🧹 2. 冗余惩罚 ( P_t )
目的:
惩罚重复检索已看过的文档。
定义:
- 设 ( H_{t-1} ):前 ( t-1 ) 轮已检索过的文档集合;
- 第 ( t ) 轮检索文档集合为 ( D_t = {d_{t1}, …, d_{tk}} );
- 则冗余惩罚为:
Pt=1k∑j=1k1(dtj∈Ht−1) P_t = \frac{1}{k} \sum_{j=1}^k \mathbb{1}(d_{tj} \in H_{t-1}) Pt=k1j=1∑k1(dtj∈Ht−1)
✅ 说明:每重复一个文档,惩罚增加 ( \frac{1}{k} ),鼓励探索新文档。
📌 总结公式
rtstep=1n∑i=1nmax(maxd∈Dtsim(d,dig)−mti, 0)⏟信息增益 Gt−1k∑d∈Dt1(d∈Ht−1)⏟冗余惩罚 Pt \boxed{ r_t^{\text{step}} = \underbrace{\frac{1}{n} \sum_{i=1}^n \max\left(\max_{d \in D_t} \text{sim}(d, d_i^g) - m_t^i,\ 0\right)}_{\text{信息增益 } G_t} - \underbrace{\frac{1}{k} \sum_{d \in D_t} \mathbb{1}(d \in H_{t-1})}_{\text{冗余惩罚 } P_t} } rtstep=信息增益 Gtn1i=1∑nmax(d∈Dtmaxsim(d,dig)−mti, 0)−冗余惩罚 Ptk1d∈Dt∑1(d∈Ht−1)
SimpleTIR: Stable End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning.
这篇文章是:
《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》
作者:Zhenghai Xue 等
机构:南洋理工大学、TikTok
发布时间:2025年9月2日(arXiv)
🧭 一、研究背景与问题
-
大模型(LLMs) 在数学推理等任务中表现受限,尤其在:
- 数值计算精度
- 多步逻辑推理
- 知识截止时间限制
-
工具集成推理(TIR):让模型调用外部工具(如 Python 解释器)进行多轮交互推理,显著提升推理能力。
-
挑战:
- 多轮 TIR 在强化学习中极易出现训练不稳定、梯度爆炸;
- 常见解决方案是冷启动监督微调(SFT),但这会限制模型探索新策略的能力;
- **Zero RL(从零开始强化学习)**更具潜力,但多轮交互中极易崩溃。
🧩 二、核心贡献
贡献点 | 内容 |
---|---|
1. 识别不稳定的根本原因 | 多轮 TIR 中,工具反馈(如代码执行结果)偏离模型预训练分布,导致模型生成低概率 token,进而引发梯度爆炸和信用分配错误。 |
2. 提出 SimpleTIR 框架 | 一种** plug-and-play 的轨迹过滤方法**,通过识别并剔除包含 “void turn”(无效轮次)的轨迹,阻断有害梯度,稳定训练。 |
3. 显著性能提升 | 在 Qwen2.5-7B 上,AIME24 得分从 22.1 → 50.5,超越所有 Zero RL 基线,接近或超过冷启动方法。 |
4. 保留多样化推理模式 | 无需 SFT,模型自然涌现出交叉验证、渐进推理、错误修正等复杂策略。 |
⚙️ 三、方法详解
1. 问题诊断:低概率 Token 是罪魁祸首
- 工具反馈(如代码结果)是 OOD(分布外)输入,模型在其基础上继续生成,容易输出低概率 token;
- 这些 token 在后续轮次中被喂回模型,加剧分布偏移;
- 最终导致:
- 梯度爆炸(重要性采样比率爆炸)
- 信用分配错误(终端奖励无法区分早期好推理与晚期坏生成)
2. SimpleTIR 解决方案:过滤“Void Turn”
- Void Turn 定义:某一轮中模型既没有生成完整代码块,也没有给出最终答案(如空回复、重复文本、提前结束);
- 策略:在策略更新前,剔除所有包含 void turn 的轨迹,避免其参与梯度计算;
- 效果:
- 阻断低概率 token 的梯度传播;
- 避免错误惩罚早期正确推理;
- 训练曲线平滑,性能稳定提升。
3. 训练框架与细节
- 基于 GRPO(Group Relative Policy Optimization);
- 不依赖价值函数,避免 critic 不稳定;
- 工具反馈 token 被掩码,不参与梯度计算;
- 支持最多 10 轮交互,每轮最多 24K tokens;
- **使用异步代码沙箱(Sandbox Fusion)**执行 Python 代码。
📊 四、实验结果
✅ 主实验结果(AIME24、MATH500 等)
模型 | AIME24 | MATH500 | 说明 |
---|---|---|---|
Qwen2.5-7B(文本) | 3.2 | 51.9 | 基线 |
Qwen2.5-7B + SimpleTIR | 50.5 | 88.4 | ✅ Zero RL,无 SFT |
ReTool-7B(冷启动+RL) | 42.3 | 86.4 | 有 SFT |
ZeroTIR-7B | 39.6 | 80.2 | Zero RL,无过滤 |
- SimpleTIR-7B 超越所有 Zero RL 方法,并接近或超过冷启动方法;
- SimpleTIR-32B 在 AIME24 上达到 59.9,为当前 Zero RL 设置下最强结果。
🔍 五、消融实验与行为分析
方法 | AIME24 | 说明 |
---|---|---|
SimpleTIR | 50.5 | ✅ 完整方法 |
Naive Multi-Turn | 20.8 | 无过滤,训练崩溃 |
低概率 token 过滤 | 23.3 | 无法解决根本问题 |
高重要性比率过滤 | 26.3 | 同样无效 |
- 仅 void turn 过滤有效,其他启发式方法无法稳定训练;
- 推理行为涌现(无需 SFT):
- 交叉验证(Cross Validation)
- 渐进推理(Progressive Reasoning)
- 错误修正循环(Error Correction Loop)
⚠️ 六、局限与未来方向
局限 | 未来方向 |
---|---|
Void turn 指标可能不适用于非 TIR 任务 | 探索更通用的轨迹质量指标 |
最多 10 轮交互,可能不够 | 支持更长的多轮交互 |
依赖高效代码沙箱 | 构建更快、更轻量的执行环境 |
异步 rollout 与奖励计算尚未实现 | 支持完全异步训练流程 |
✅ 总结一句话
SimpleTIR 通过识别并过滤“无效轮次”,首次实现了从零开始、稳定训练的多轮工具集成推理,在数学推理任务中取得突破性性能,并无需任何监督数据,为可扩展、自动演化的智能体训练开辟了新路径。
Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning.
这篇文章是:
《Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》
作者:Haozhen Zhang 等
机构:伊利诺伊大学厄本纳-香槟分校(UIUC)
发布时间:2025年6月18日(arXiv)
🧭 一、研究背景与问题
- 大模型(LLMs)种类繁多,各自擅长不同任务(如推理、写作、数学、多语言等);
- 现有 LLM 路由器(Router)多为单轮、一对一映射(即一个查询 → 一个模型),无法充分利用多个模型的互补能力;
- 复杂任务(如多跳问答)需要多轮交互、模型协同,而非一次性选择;
- 关键挑战:
- 多轮模型选择是非可微分的离散决策过程,无法直接用反向传播训练;
- 如何在性能与成本之间做权衡;
- 如何泛化到未见过的新模型,无需重新训练。
🧩 二、核心贡献
贡献点 | 内容 |
---|---|
1. 提出 Router-R1 框架 | 首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架。 |
2. LLM 即路由器 | 路由器本身是一个具备推理能力的 LLM,可交替执行: - <think> :内部推理- <search> :调用外部模型- <info> :整合返回结果 |
3. 多目标奖励设计 | 设计轻量级规则奖励,包括: - 格式奖励(结构化输出) - 结果奖励(答案正确性) - 成本奖励(模型调用开销) |
4. 强泛化能力 | 仅依赖模型描述(如价格、参数量、任务表现)即可零样本泛化到未见过的新模型。 |
5. 实验验证 | 在 **7 个 QA 数据集(单跳 + 多跳)**上,超越 10+ 强基线,包括传统路由器、RAG、Search-R1 等。 |
⚙️ 三、方法结构
1. 框架流程(Multi-Round Routing)
阶段 | 动作 | 说明 |
---|---|---|
思考 | <think> | 分析任务、判断是否需外部模型 |
路由 | <search>模型名:子问题</search> | 选择模型并发出子查询 |
整合 | <info>返回结果</info> | 将模型返回结果纳入上下文 |
回答 | <answer>最终答案</answer> | 输出最终答案 |
✅ 支持多轮交互,可多次调用不同模型,逐步 refine 答案。
2. 奖励函数设计(Rule-Based)
奖励类型 | 公式/规则 | 作用 |
---|---|---|
格式奖励 | 不符合结构 → -1;否则 → 0 | 保证输出结构化 |
结果奖励 | ( R_{\text{outcome}} = \text{EM}(y_{\text{pred}}, y_{\text{gt}}) ) | 鼓励答对 |
成本奖励 | ( R_{\text{cost}} \propto -m(P_{\text{LLM}}) \cdot T_{\text{out}} ) | 惩罚高成本模型调用 |
总奖励 | ( r = R_{\text{format}} + (1-\alpha)R_{\text{outcome}} + \alpha R_{\text{cost}} ) | 可调性能-成本权衡 |
3. 泛化机制(Zero-Shot Generalization)
- 不依赖模型 ID 或 embedding,仅使用文本描述(如参数量、价格、擅长任务);
- 支持动态扩展模型池,只需在 prompt 中添加新模型描述;
- 实验验证:加入 2 个未见过的新模型后,性能不降反升,体现强泛化能力。
📊 四、实验结果
✅ 主实验(Exact Match 平均分)
方法 | 平均分 | 说明 |
---|---|---|
Direct / CoT / SFT | ~0.15–0.20 | 仅依赖自身知识 |
RAG | 0.267 | 静态检索 |
Search-R1 | 0.291 | 多轮搜索 |
Prompt LLM | 0.329 | 单轮路由 |
GraphRouter | 0.297 | 图结构路由 |
Router-R1-Qwen | 0.416 ✅ | 多轮推理+路由 |
Router-R1-Llama | 0.409 ✅ | 换底座仍领先 |
🔍 成本分析(Cost-Aware Routing)
- α = 0:性能优先,调用大模型最多;
- α = 0.6:成本下降 50%,性能几乎不降;
- α = 0.9:成本下降 90%,性能下降约 20%;
- 结论:Router-R1 能自动学习“先小后大”的 escalation 策略,实现性能-成本帕累托前沿。
🧪 泛化实验(Unseen Models)
方法 | 加入新模型后性能变化 |
---|---|
Prompt LLM | 几乎不变 |
GraphRouter | 略微下降 |
Router-R1 | 上升 1–2 个点 ✅ |
✅ 说明:Router-R1 能通过描述推断新模型能力,并更有效地使用它们。
⚠️ 五、局限与未来方向
局限 | 未来方向 |
---|---|
仅评估 QA 任务 | 扩展到对话、代码、摘要等任务 |
规则奖励可能不够细 | 引入人类反馈或学习式奖励 |
多轮交互增加延迟 | 引入早期停止或并行路由 |
依赖模型描述质量 | 结合模型行为嵌入或元学习 |
✅ 总结一句话
Router-R1 是首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架,通过LLM 自路由 + 多目标奖励 + 模型描述泛化,在复杂问答任务中实现性能与成本的动态平衡,为多模型协同推理系统提供了新范式。
SkyRL: A Modular Full-stack RL Library for LLMs.
ASearcher: Large-Scale RL for Search Agents.
这篇文章是《Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL》,作者来自清华大学、蚂蚁集团RL Lab和华盛顿大学,提出了一个名为 ASearcher 的开源项目,用于通过大规模异步强化学习(RL)训练具备“搜索智能”的AI智能体。
🧭 一、研究背景与问题
随着大模型(LLM)的发展,AI智能体在复杂任务中表现突出,尤其是通过调用外部工具(如搜索引擎)来增强知识获取能力。但目前的开源智能体在“搜索智能”方面仍存在明显短板:
- 搜索策略简单,无法处理复杂、多跳、信息模糊的问题;
- 现有RL方法限制搜索轮次(如≤10轮),无法学习长程策略;
- 缺乏高质量、大规模、挑战性强的训练数据;
- 训练效率低,长轨迹导致GPU空闲时间多。
🧩 二、核心贡献
1. ASearcher:一个开源的大规模RL训练框架
- 支持完全异步的RL训练,解决长轨迹阻塞问题;
- 支持长达128轮的搜索轨迹,突破传统10轮限制;
- 训练过程中智能体可生成超过150k tokens,调用超过40次工具;
- 支持从基础模型(如Qwen2.5-7B/14B)或强推理模型(如QwQ-32B)开始训练。
2. 自动化数据合成智能体
- 提出一个LLM驱动的数据合成智能体,从14k种子QA对中生成134k高质量QA对;
- 使用**Injection(注入事实)和Fuzzing(模糊化)**两种策略提升问题难度;
- 每道题经过多阶段质量验证,确保挑战性、可解性和唯一答案。
3. 端到端强化学习训练
- 所有组件(思考、工具调用、摘要)都通过RL联合优化;
- 使用GRPO算法和稀疏奖励机制;
- 引入动态过滤机制,去除无意义样本,提升训练效率。
🧪 三、实验与结果
1. 评估基准
- 单跳/多跳QA:Natural Questions、TriviaQA、HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
- 复杂任务:GAIA、xBench-DeepSearch、Frames
2. 实验设置
- 本地知识库(RAG)设置:使用维基百科2018数据集;
- Web搜索设置:使用搜索引擎 + 浏览器工具;
- 评估指标:F1分数、LLM-as-Judge(LasJ)、Avg@4、Pass@4
3. 主要结果
模型 | GAIA (Avg@4) | xBench (Avg@4) | Frames (Avg@4) |
---|---|---|---|
ASearcher-Web-QwQ | 52.8 | 42.1 | 70.9 |
其他SOTA模型 | 47.6 | 40.3 | 67.0 |
- 在7B/14B模型中,ASearcher在多个基准上超越同级别甚至更大模型;
- 在QwQ-32B基础上微调后,ASearcher-Web-QwQ在GAIA等复杂任务上提升20%+;
- 训练后智能体展现出:
- 不确定性感知推理
- 精准信息提取
- 跨文档推理
- 基于证据的验证能力
🧠 四、案例研究(GAIA难题)
对比三种智能体在复杂问题上的表现:
模型 | 问题分解 | 信息提取 | 错误验证 | 结论 |
---|---|---|---|---|
Search-R1-32B | ❌ 不会分解 | ❌ 幻觉严重 | ❌ 无法验证 | 失败 |
Search-o1(QwQ) | ✅ 能找资料 | ❌ 易漏信息 | ❌ 无法纠错 | 失败 |
ASearcher-Web-QwQ | ✅ 精准分解 | ✅ 精准提取 | ✅ 反复验证 | 成功 |
🧱 五、训练动态观察
- 7B模型:能学会搜索,但难以掌握网页摘要;
- 14B模型:逐渐学会浏览网页并提取关键信息;
- QwQ-32B模型:训练中工具调用次数逐步提升至40+,输出token数达150k+,展现出长程推理与搜索能力。
✅ 六、总结
ASearcher通过:
- 异步RL系统解决长轨迹训练效率问题;
- 数据合成智能体构建高质量、挑战性QA数据;
- 端到端RL训练激发模型搜索智能;
在多个基准上超越现有开源模型,为构建具备专家级搜索能力的AI智能体提供了可扩展、可复现的完整方案。
ParallelSearch: Decompose Query and Search Sub-queries in Parallel with RL.
这篇文章《ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning》提出了一种新的强化学习框架,用于训练大语言模型(LLM)在搜索任务中并行处理多个子查询,从而提升效率、减少LLM调用次数,同时保持甚至提升答案准确性。
🧭 一、研究背景与动机
尽管当前基于强化学习的搜索智能体(如 Search-R1)在多跳推理任务中表现良好,但它们普遍存在一个结构性瓶颈:
所有搜索操作都是顺序执行的,即使某些子查询在逻辑上是独立的、可以并行处理。
例如问题:“Claude Monet 和 Camille Pissarro 谁更年长?”
- 传统方法:先查 Monet 生日,再查 Pissarro 生日,两步顺序执行;
- 本文方法:并行查询两人生日,一步到位。
这种顺序处理方式导致:
- 响应延迟高
- LLM调用次数多
- 推理效率低
🧩 二、核心贡献
✅ 1. 提出 ParallelSearch 框架
- 训练 LLM 识别可并行化的查询结构;
- 在单轮推理中生成多个子查询;
- 并行执行搜索,并统一整合结果;
- 通过强化学习优化模型的分解与搜索策略。
✅ 2. 多维度奖励函数设计(4个组成部分)
奖励类型 | 作用 |
---|---|
Outcome Reward | 答案是否正确(Exact Match) |
Decomposition Reward | 是否对可分解问题进行了分解 |
Search Count Reward | 是否高效使用搜索(避免冗余) |
Format Reward | 是否遵循推理-搜索-输出格式 |
✅ 3. 实验验证效果显著
- 在 7个问答基准上平均提升 2.9%;
- 在可并行问题上提升高达 12.7%;
- LLM调用次数减少 30.4%;
- 推理轮数减少(从平均 3~6 轮降至 2 轮以内);
- 响应更简洁,部署成本更低。
🧪 三、实验设置与结果
📊 数据集
- 通用问答:NQ、TriviaQA、PopQA
- 多跳问答:HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
- 并行子集:HotpotQA-par、2wiki-par、MultihopRAG-par(仅含可并行问题)
🔍 模型与训练
- 基础模型:Qwen2.5-7B(Base / Instruct)
- 强化学习算法:PPO、GRPO
- 搜索器:基于 Wikipedia 2018 的稠密检索(E5 嵌入)
- 奖励函数:组合上述4类奖励,通过消融实验确定最优权重
📈 主要结果
方法 | EM 平均分 | 并行问题提升 | LLM调用次数 |
---|---|---|---|
Search-R1 | 0.370 | — | 3.36 |
ZeroSearch | 0.391 | — | — |
ParallelSearch | 0.425 | +12.7% | 2.34 |
🧠 四、案例与行为分析
✅ 正确案例(HotpotQA-par)
问题:Laleli Mosque 和 Esma Sultan Mansion 是否位于同一区域?
模型并行搜索两个地点,判断不在同一区域,回答正确。
❌ 错误案例
问题:Cypress 和 Ajuga 是否都是属(genus)?
模型误判为“是”,实际 Cypress 是通称,不全是属。
🧱 五、结论与展望
✅ 总结
- ParallelSearch 是第一个通过强化学习训练 LLM 实现并行搜索的框架;
- 不增加模型参数,不依赖额外数据,仅通过奖励设计实现策略优化;
- 在效率与准确性之间取得良好平衡;
- 可推广至真实搜索系统,提升部署效率。
🔮 展望
- 支持多模态输入(如截图 + HTML);
- 引入更复杂的依赖结构识别(非完全并行或混合结构);
- 推广至真实搜索引擎(如 Bing、Google API);
- 结合更细粒度的信息整合策略(如注意力机制、摘要模型)。
AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning.
这篇论文《AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning》提出了一种新的强化学习框架,旨在让大语言模型(LLM)在推理过程中自主决定是否使用工具、使用哪种工具,从而解决现有工具集成推理(TIR)方法中工具调用僵化、语言能力下降的问题。
🧭 一、研究背景与问题
✅ 当前TIR方法的局限:
- 多数方法采用固定工具调用策略(如先搜索再推理、或强制调用代码解释器);
- 工具使用与任务不匹配,导致:
- 资源浪费(不必要的搜索或代码执行);
- 语言建模能力下降(指令遵循、通用推理能力受损);
- 泛化能力差(无法适应不同任务类型)。
✅ 目标:
让模型像人类一样,根据任务内容自主判断是否需要工具、以及使用哪种工具,实现:
- 更高效的推理;
- 更强的通用性;
- 更好的语言能力与工具能力平衡。
🧩 二、AutoTIR 框架核心
✅ 1. 自主工具决策机制
- 模型在每一步推理中可自主选择:
- 不使用工具(纯文本推理);
- 使用搜索工具(获取知识);
- 使用代码工具(执行计算);
- 通过强化学习训练模型做出最优决策。
✅ 2. 混合奖励机制(Hybrid Reward)
总奖励 = 0.1 × 行动奖励 + 0.9 × 输出奖励
奖励类型 | 作用 | 设计细节 |
---|---|---|
行动奖励 | 鼓励正确的工具选择 | 在工具有益的任务中奖励使用工具;在工具无效的任务中惩罚误用工具 |
输出奖励 | 鼓励正确答案 | 使用任务特定的评估函数(如F1、Exact Match、IFScore) |
✅ 3. 支持多工具集成
- 当前支持工具:
- 搜索引擎(基于 Wikipedia 2018);
- 代码解释器(Python 沙箱);
- 框架可扩展至更多工具(如计算器、数据库等)。
🧪 三、实验与结果
✅ 数据集(覆盖3类任务)
类型 | 数据集 |
---|---|
知识密集型 | HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle |
数学推理 | AIME2024/2025、MATH500、GSM8K |
通用语言任务 | LogiQA、IFEval(指令遵循) |
✅ 性能对比(平均分)
方法 | 平均分 | 特点 |
---|---|---|
Qwen2.5-7B-Instruct | 21.84 | 无工具 |
Search-R1 | 29.26 | 只用搜索 |
ToRL | 24.18 | 只用代码 |
ReSearch | 28.65 | 搜索+RL |
AutoTIR | 46.01 | 自主工具选择 |
✅ AutoTIR 在所有任务中均优于 baseline,尤其在数学任务和知识推理中提升显著。
✅ 工具使用效率分析(TS / TP)
- Tool Selection(TS):工具选择是否正确;
- Tool Productivity(TP):每次工具使用是否带来正确答案。
方法 | TS(平均) | TP(平均) |
---|---|---|
Search-R1 | 93.94 | 25.51 |
ReSearch | 78.43 | 14.06 |
AutoTIR | 94.45 | 28.76 |
✅ AutoTIR 在工具选择的准确性和效率上均优于现有方法。
🔍 四、消融实验(Ablation Study)
配置 | 平均分 | 说明 |
---|---|---|
AutoTIR | 46.01 | 完整框架 |
w/o Tools | 28.76 | 禁用工具,性能大幅下降 |
w/o IF | 34.01 | 去除指令遵循数据,IFEval 分数暴跌 |
w/o Penalty | 44.36 | 去除误用惩罚,工具误用增加 |
w/ Prior | 43.12 | 强制使用工具,性能下降 |
✅ 每个组件都对性能有正向贡献,自主探索工具使用比人为设定规则更有效。
📈 五、训练动态与可扩展性
- 训练过程中:
- 奖励逐步提升;
- 响应长度增长,模型学会更复杂的推理;
- 工具使用策略逐步优化;
- 在不同任务上均表现出稳定的性能提升趋势;
- 具备良好的跨任务泛化能力。
✅ 六、结论与意义
✅ 总结
- AutoTIR 是第一个通过强化学习训练 LLM 自主决定工具使用的框架;
- 不增加模型参数,不依赖人工规则,仅通过奖励机制实现策略学习;
- 在知识推理、数学计算、指令遵循等多类任务中均取得 SOTA 性能;
- 实现了工具使用效率与语言建模能力的良好平衡。
🔮 展望
- 支持更多工具(API、数据库、图表生成等);
- 引入动态工具组合与多轮工具协作;
- 推广至真实场景部署,如智能助手、教育、科研等。