当前位置：首页 > news >正文

agentic Deep search相关内容补充

news 2025/9/12 10:00:05

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments.

Multimodal-Search-R1: Incentivizing LMMs to Search.

OTC: Optimal Tool Calls via Reinforcement Learning.

这篇论文是：

《Acting Less is Reasoning More! Teaching Model to Act Efficiently》
arXiv:2504.14870v2，2025年5月31日
作者来自香港中文大学、UIUC、普林斯顿大学、中山大学、香港科技大学等

🧠 一、研究背景与动机

1.1 工具增强推理（TIR）

大模型（LLMs）通过调用外部工具（如搜索引擎、代码解释器）可以增强推理能力，解决知识盲区或复杂计算问题。

1.2 当前问题：认知卸载（Cognitive Offloading）

现有强化学习方法（如Search-R1）只优化最终答案正确性，忽视工具使用效率，导致：

过度调用工具（成本高）
抑制内部推理能力发展
降低模型通用性与自主性

🎯 二、研究目标

提出一种强化学习框架，鼓励模型在保证答案正确的前提下，尽可能少调用工具，从而：

降低推理成本
增强模型内部推理能力
提高工具使用效率

🧪 三、核心贡献

编号	内容
①	首次提出“工具生产力”（Tool Productivity）指标：衡量单位工具调用带来的正确率
②	提出OTC-PO框架：在RL中引入工具使用效率奖励，鼓励“最优工具调用”
③	实现两个变体：OTC-PPO 和 OTC-GRPO，适配不同RL算法
④	实验验证：在多个模型（Qwen-2.5/Math）和任务（搜索/代码）上，工具调用减少高达 68.3%，工具生产力提升高达 215.4%，准确率基本保持不变

⚙️ 四、方法详解

4.1 任务定义

给定问题 ( q )，模型可选择是否调用工具
目标是：正确回答 + 最小工具调用次数
定义轨迹 ( \tau ) 包含：推理内容、工具调用、返回结果

4.2 奖励设计（核心创新）

传统奖励只考虑：

r = 1 if answer correct else 0

OTC-PO 提出：

r_new = α * r_tool * r_correct

r_tool：根据工具调用次数与“最优次数”的偏差设计（cos/sin函数）
r_correct：答案是否正确
α：控制工具效率权重

✅ 只有答案正确时，r_tool才生效，避免“少调用但答错”的作弊行为

📊 五、实验结果

5.1 搜索任务（NQ、HotpotQA）

模型	方法	工具调用 ↓	工具生产力 ↑	准确率变化
Qwen-3B	OTC-PPO	↓41.9%	↑51.3%	基本不变
Qwen-7B	OTC-PPO	↓68.3%	↑215.4%	基本不变

5.2 代码任务（AIME、MATH）

模型	方法	工具调用 ↓	工具生产力 ↑	准确率变化
Qwen-Math-7B	OTC-GRPO	↓66.7%	↑199.4%	持平或略升

🔍 六、行为分析

6.1 工具使用行为

OTC模型更倾向于：
- 用内部推理解决问题（0次调用）
- 或仅用1次高质量工具调用
基线模型（如Search-R1）频繁调用工具，甚至重复搜索

6.2 案例对比（Fig.1）

问题	Search-R1	OTC-GRPO
两人是否都是歌剧作曲家？	搜索3次	0次搜索，直接推理回答

🧩 七、结论与展望

✅ 总结

问题：模型过度依赖工具，抑制推理能力
方法：OTC-PO 强化学习框架，奖励“正确+少工具”
效果：显著减少工具调用，提升效率，准确率不降

🔮 未来方向

拓展至更多工具类型（API、机器人等）
引入动态工具预算或自适应策略
探索更长程任务中的工具使用规划

ZeroSearch: Incentivize the Search Capability of LLMs without Searching.

🧠 ZEROSEARCH 脑图总览

1️⃣ 研究背景与动机

LLM 的知识是静态的 → 容易幻觉或信息过时
RAG（检索增强生成）是主流解决方案
- 提示工程复杂
- 监督微调（SFT）成本高
- 实时搜索（如Google）效果好但：
  - API 成本高
  - 文档质量不可控 → 训练不稳定

2️⃣ 研究目标

✅ 提出 ZEROSEARCH：在不调用真实搜索引擎的前提下，通过强化学习训练 LLM 的搜索能力
✅ 降低成本，提升训练稳定性与可控性
✅ 保持或超越真实搜索训练的效果

3️⃣ 方法结构

🔹 3.1 搜索模拟器（Search Simulator）

用一个冻结的 LLM（如 Qwen-14B）模拟搜索引擎
通过轻量监督微调（SFT）生成：
- ✅ 有用文档（useful）
- ❌ 噪声文档（noisy）
控制文档质量只需修改 prompt 中的关键词（如“useful” vs “noisy”）

🔹 3.2 课程式 rollout（Curriculum Rollout）

训练初期：生成高质量文档 → 学习基本格式与任务
训练中后期：逐步增加噪声比例 → 提升推理与鲁棒性
噪声概率公式控制：
( p_i = p_s + \frac{b^{i/m} - 1}{b - 1}(p_e - p_s) )

🔹 3.3 奖励设计

使用 F1-score 作为奖励函数，避免 EM（Exact Match）导致的“答案堆砌”现象
奖励公式：
( r = 2 \times \frac{IN}{PN + RN} )

🔹 3.4 强化学习训练

支持多种 RL 算法：REINFORCE、PPO、GRPO
对文档 token 应用 loss masking，避免对非策略输出部分进行梯度更新，提升稳定性

4️⃣ 实验结果

✅ 性能对比（vs 真实搜索引擎）

模型	方法	平均 EM 得分
Qwen-3B	ZEROSEARCH	34.47
Qwen-3B	Search-R1（真实搜索）	32.81
LLaMA-3B	ZEROSEARCH	36.07
LLaMA-3B	Search-R1	34.21

✅ ZEROSEARCH 在 7 个问答数据集上均优于真实搜索训练
✅ 通用性强：适用于 Base 和 Instruct 模型
✅ 可扩展性：模拟器越大（14B），效果越好，甚至超过 Google 搜索

5️⃣ 成本分析

方法	API 成本	GPU 成本	总成本
Google 搜索	$586.7	$0	$586.7
ZEROSEARCH（14B）	$0	~$70	✅ 节省约 88%

6️⃣ 案例与行为分析

✅ 模型学会多轮搜索、格式化输出
✅ 能区分有用/噪声文档，提升推理能力
✅ 在训练中逐步减少交互轮数，提升效率

7️⃣ 结论与局限

✅ ZEROSEARCH 是一种高效、低成本、可扩展的替代方案
⚠️ 仍需部署模拟器 LLM，带来一定 GPU 成本
🔮 未来可拓展至更多工具类型、多模态搜索等任务

🧩 脑图可视化建议（可导入XMind/MindMaster）

ZEROSEARCH
├─ 背景
│  ├─ LLM 幻觉
│  ├─ RAG 局限
│  └─ 实时搜索问题（成本高、质量差）
├─ 目标
│  ├─ 不依赖真实搜索
│  ├─ 降低成本
│  └─ 提升搜索能力
├─ 方法
│  ├─ 搜索模拟器（SFT）
│  ├─ 课程式 rollout
│  ├─ F1 奖励设计
│  └─ RL 训练（REINFORCE/PPO/GRPO）
├─ 实验
│  ├─ 性能优于真实搜索
│  ├─ 跨模型通用
│  └─ 成本节省 88%
├─ 案例
│  ├─ 多轮搜索行为
│  └─ 文档质量区分
└─ 总结├─ 高效、低成本├─ 可扩展└─ 有基础设施需求

✅ 训练阶段：完全代替真实搜索 API

不调用任何真实搜索引擎（如 Google、Bing）
使用一个冻结的 LLM（如 Qwen-14B）作为“搜索引擎模拟器”
它根据查询生成“文档”，可以是：
- ✅ 有用文档（包含正确答案）
- ❌ 噪声文档（干扰信息）
通过课程学习逐步增加噪声，提升策略模型的鲁棒性

这样做的目的是：

节省 API 成本（降低约 88%）
避免文档质量不稳定带来的训练波动
可控文档质量，提升训练效率和稳定性

⚠️ 推理阶段：仍可使用真实搜索 API

在最终评估或实际部署时，模型可以与真实搜索引擎交互
实验中也表明：在模拟环境中训练出的模型，在真实搜索环境下表现更好或相当
所以模拟器是为训练服务，而不是为最终用户体验服务

✅ 总结一句话：

搜索模拟器在训练阶段完全替代真实搜索 API，是“训练时的替代品”；在推理阶段可以选择是否使用真实搜索，是“部署时的可选项”。

如果你是在考虑是否可以用搜索模拟器彻底替代真实搜索API，答案是：

✅ 在训练阶段：可以，且更便宜、更稳定
⚠️ 在推理阶段：可以用，但是否替代取决于你对真实性和成本的需求

IKEA: Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent.

IKEA 算法的核心流程可以拆成 “训练前准备” → “强化学习训练” → “推理阶段” 三条主线。
下面用“一步一图”的方式给出 可直接落地的算法流程图，并附伪代码，方便你复现或改写。

🧩 一句话总览
IKEA 只做一件事：用 RL 让模型学会“先内后外”——能自己答的绝不去搜索，真不会才检索。

🔧 阶段 0 训练前准备（离线）

步骤	输入	输出	关键代码/工具
0.1 探测知识边界	原始 QA 对	Qeasy / Qhard 标签	3-shot CoT + 采样 5 次 ≥1 次对→easy
0.2 构造训练集	Qeasy ∪ Qhard	1:1 混合集	过滤重复、平衡领域
0.3 准备环境	维基 2018 + e5-base 检索器	可调用 search() 的环境	FlashRAG / LangChain 均可

🎯 阶段 1 强化学习训练（在线）
下图即 单条轨迹（rollout） 的完整流程，训练时并行跑 G=16 条轨迹再用 GRPO 更新。

               ┌-----------------------------┐│ 输入：问题 q                │└------------┬----------------┘▼┌-----------------------------┐│ 1 <THINK> 自评知识边界       │← prompt 模板强制输出└------------┬----------------┘▼置信？┌-----------------------------┐ 不确定？-----│ 2 <ANSWER> 直接答            │------------┐Yes└------------┬----------------┘ No          │▼                         ▼返回答案 a               ┌-----------------------------┐│ 3 <SEARCH> 生成查询词        │└------------┬----------------┘▼┌-----------------------------┐│ 4 检索 → <CONTEXT>docs       │└------------┬----------------┘▼┌-----------------------------┐│ 5 再<THINK>→<ANSWER>给出 a   │└------------┬----------------┘▼┌-----------------------------┐│ 6 奖励计算：R = rans + rkb   │└------------┬----------------┘▼┌-----------------------------┐│ 7 收集轨迹 τ1…τG           │└------------┬----------------┘▼┌-----------------------------┐│ 8 GRPO 更新策略 πθ          │└-----------------------------┘

关键公式

rans = 1(a == a_gold)
rkb =
– 若答对：rkb+ · (1 − RT/RTmax) # 越少检索越高
– 若答错且 RT>0：rkb− # 鼓励尝试
– 若答错且 RT=0：0 # 无作为

🚀 阶段 2 推理阶段（部署）
与训练流程完全相同，只是 去掉随机探索 & 不再更新参数；检索次数上限可设得更宽松。

📜 极简伪代码（PyTorch 风格）

for epoch in range(120):batch = sample_balanced(Qeasy, Qhard, bsz=256)trajectories = []for q in batch:traj = []while not ended:think = model.generate(q, tag="<THINK>")if "I can answer" in think:ans = model.generate(q, tag="<ANSWER>")ended = Trueelse:query = model.generate(q, tag="<SEARCH>")docs = retrieve(query, topk=5)q = q + f"<CONTEXT>{docs}</CONTEXT>"traj.append(tokens)reward = compute_reward(traj, gold)trajectories.append(traj)# GRPO 更新advantages = group_normalize(trajectories)   # (ri - μ)/σloss = grpo_loss(trajectories, advantages)optimizer.step()

📌 复现要点清单

Prompt 模板必须强制 <THINK>→（可选）<SEARCH>→<ANSWER> 顺序，否则解析失败。
检索器任意（e5/colBERT/BM25），但训练后不要换，否则知识边界漂移。
rkb+ 与 rkb− 需网格搜索一小范围（论文用 0.6 / 0.05）。
训练步数不必多，120 步即可收敛（≈ 8×A100 × 12h）。

Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging.

当然可以！以下是对论文《Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging》的系统解析，帮助你快速抓住其核心思想、方法、创新点和实验结果。

🧠 一、研究背景与动机

✅ 问题背景：

LLM 的知识是静态的，面对复杂、模糊、多跳的问题时，容易出错或答不出来。
传统 RAG（Retrieval-Augmented Generation）方法：
- 检索是静态的（只在最开始搜一次）
- 无法适应推理过程中的信息需求变化
- 无法判断检索是否有用

✅ 研究动机：

如何让 LLM 像人类一样**“闻着信息的气味”**去主动、动态、高效地搜索？

🎯 二、研究目标与核心思想

✅ 提出 InForage 框架：

将 LLM 的搜索行为建模为 “信息觅食（Information Foraging）”过程
用 强化学习（RL） 训练模型，使其：
- 自主决定何时搜索
- 生成高质量子查询
- 评估信息是否有用
- 逐步逼近正确答案

🔬 三、方法结构详解

1️⃣ 信息觅食理论（IFT）建模

概念	含义
信息气味（Information Scent）	当前推理内容是否与目标相关
信息块（Information Patch）	每次检索到的文档集合
觅食路径（Foraging Path）	一系列搜索-推理-整合的步骤

目标：以最少搜索步骤，覆盖最多的必要信息，最终答对问题

2️⃣ InForage 框架流程

<think> → <search> → <info> → <think> → ... → <answer>

：推理并决定是否搜索
：生成子查询
：获取检索结果
：最终答案

3️⃣ 奖励函数设计（核心创新）

总奖励：

R = R_{outcome} + α \cdot R_{gain} - β \cdot R_{efficiency}

奖励项	作用
R_outcome	答对给 1，答错给 0
R_gain	每次检索后，模型对正确答案的置信度提升量（信息增益）
R_efficiency	搜索次数越多，惩罚越大（鼓励简洁）

✅ 这是首次在搜索增强推理中显式奖励中间检索质量！

📊 四、实验结果（重点）

✅ 主实验（表1）

方法	EM（↑）	特点
Search-R1-GRPO	35.6	当前最强 RL 搜索方法
InForage（3B）	41.0 ✅	提升 5.4 分
检索次数	更少 ✅	平均减少 30~50%

在 8 个数据集上全面领先（NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA、自构 WebQA）
尤其在 多跳推理任务上表现突出（如 2Wiki、Musique）

🧪 五、数据集构建（亮点）

✅ 自构“人类搜索轨迹”数据集：

人工标注：500 条真实网页搜索轨迹（含点击、查询、推理）
GPT-4o 自动生成：扩展为 20,000 条复杂 QA 对
多跳推理：每条问题需 ≥4 个信息点联合推理
实时网页：全部来自 2025 年 1~3 月新网页，防止模型“背答案”

✅ 这是首个带有中间搜索-推理标签的大规模复杂 QA 数据集！

🔍 六、消融实验（验证有效性）

消融项	结果
去掉信息增益奖励	性能下降 2~3 分，检索次数↑
去掉效率惩罚	检索冗余↑，答案变长
去掉 SFT 预训练	RL 训练不稳定，收敛慢
换成 GRPO	性能略低于 PPO
换成 7B 模型	性能进一步提升，验证可扩展性

✅ 七、总结一句话

InForage 首次将“信息觅食”理论引入 LLM 搜索推理，用 RL 显式奖励中间检索质量，使模型能像人类一样“闻着信息气味”主动搜索，在复杂问答任务中实现更高准确率、更少检索次数、更强泛化能力。

🧩 八、可视化脑图（文字版）

InForage
├─ 背景
│  ├─ RAG 检索静态、单一
│  ├─ 复杂任务需多跳、动态搜索
│  └─ 人类擅长“信息觅食”
├─ 方法
│  ├─ 信息气味 → 子查询
│  ├─ 三奖励：结果+增益+效率
│  ├─ 两阶段：SFT → PPO
│  └─ 数据：人工+自动 20k 轨迹
├─ 实验
│  ├─ 8 数据集全面领先
│  ├─ 检索次数↓30~50%
│  └─ 多跳任务尤其强
└─ 意义├─ 理论：首套 IFT-RL 框架├─ 数据：首个中间标签 QA└─ 实用：更小模型更强搜索

R_gain（Information Gain Reward）是 InForage 的核心创新之一，它量化每一次检索对“最终答对”到底帮了多少忙，而不是只看最后对不对。

🔍 一、直观理解

每一次检索后，模型对正确答案的置信度提升越多，这次检索就越“香”，R_gain 就越高。

🧮 二、形式化定义（论文公式）

令：

D*：回答该问题所需的所有文档集合（Golden Evidence，人工标注）
Kt：第 t 次检索得到的文档集合
C(K<t>, D*)：前 t 次检索累计覆盖了多少 D* 中的文档（比例）

则：

R_{gain} = \max_{t=1,...,T} C\left(\bigcup_{\tau=1}^{t} K_{\tau}, D^*\right)

🧪 三、实际计算步骤（可复现）

步骤	操作	工具/示例
1️⃣ 构建 `D*`	人工标注必须引用的网页/段落	如示例中 4 条 URL
2️⃣ 每次检索 `Kt`	模型生成子查询 → 召回 Top-5 文档	用 BGE-M3 或 E5
3️⃣ 计算覆盖 `C`	统计 `Kt` 与 `D` 的交集占比*	简单 Jaccard 或命中数/
4️⃣ 取轨迹最大值	整条推理路径里最好的覆盖值作为 `R_gain`	0 ~ 1 之间

📌 四、举个具体例子

问题：
“Which university is the highest-rated 2026 recruit in the West committed to?”
Golden D*：3 条网页 → {superwest-tracker.com, 247sports.com/recruit, university-of-oregon.edu}

检索轮	召回文档	新增命中	累计覆盖 C
1	superwest-tracker.com	1	1/3 = 0.33
2	247sports.com/recruit	1	2/3 = 0.67
3	espn.com（未命中）	0	0.67
4	university-of-oregon.edu	1	3/3 = 1.0

→ 该轨迹 R_gain = max{0.33, 0.67, 0.67, 1.0} = 1.0

✅ 五、一句话总结

R_gain 就是：整条推理过程中，检索结果对“标准证据”的最大覆盖比例——它让模型“每一次搜索都有意义”，而不再只看最后对错。

AutoRefine: Search and Refine During Think.

以下对论文《Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning》进行结构化梳理，帮助你在 10 分钟内抓住核心思想、方法、结果与可复现要点。

🧠 一句话总结

AutoRefine 在“搜索过程中”显式插入步骤，用 RL 同时奖励「答对」和「提炼对」，让 3B 小模型在多跳 QA 上 >6% 超越 Search-R1，检索更少、答案更准。

🎯 研究动机（Why）

现有 “search-during-think” 痛点	AutoRefine 解决思路
① 直接把原始文档塞进上下文 → 噪声多、易分心	插入步骤，显式蒸馏关键句
② 只用最终答案奖励 → 检索质量无监督	新增 retrieval-specific reward，提炼内容覆盖 GT 就给分

🔬 方法核心（What & How）

1. 搜索-提炼-思考模板（新范式）

每条轨迹由模型自动生成，循环下列 5 类 token：

<think> → <search>query</search> → <documents>…</documents>
→ <refine> distilled sentence </refine> → … → <answer>final</answer>

必须出现：用自然语言总结/抽取与问题相关的原子事实
提炼内容仅 100-200 token，≈4× 短于原始文档，降低后续噪声

2. 双信号奖励（核心创新）

奖励	计算方式	目的
Answer Reward	F1(answer, GT)	保证最终正确
Retrieval Reward	1{GT ⊆ refined_text}	强制提炼“全对”信息
Overall	答对→1；仅提炼对→0.1；全错→0	非线性组合，避免中间行为喧宾夺主

3. 训练策略

SFT 冷启动：先用 169k NQ+HotpotQA 生成轨迹，2 epoch
GRPO 强化：5 条 rollout/样本，200 steps，lr=1e-6，β_KL=0.001
Mask 技巧： token 不计 loss，防止“学抄”检索文本

📊 主要结果（RQ 一览）

数据集	Search-R1-Base	AutoRefine-Base	Δ
HotpotQA	29.7	40.5	+10.8
2Wiki	27.4	39.3	+11.9
Musique	6.6	15.7	+9.1
7 集平均	31.2	40.5	+9.3（↑29%）

检索次数：多跳场景下≈2.2 次/题，与 Search-R1 持平但成功率>50%（+10%）
提炼长度：≈150 token，4× 压缩原始文档，保留 95% 关键信息

🔍 关键消融（Ablation）

变体	平均 EM	说明
完整 AutoRefine	40.5	-
去掉 Retrieval Reward	37.6	-2.9 → 提炼质量下降
再去掉模块	31.2	-9.3 → 回到 Search-R1 水平

→ 步骤与检索奖励缺一不可

🛠 可复现要点

项目	配置
基座模型	Qwen2.5-3B / 7B（Base & Instruct）
检索器	E5-base-v2，Top-3，512 token/次
知识源	2018-12 Wikipedia（FlashRAG）
最大搜索次数	5
RL 框架	VeRL + GRPO，200 steps，8×A100-80G
关键超参	lr=1e-6, β=0.001, clip=

GT ⊆ refined_text}这个是什么意思
GT ⊆ refined_text 是一个集合包含符号，读作：

“ground-truth 信息是提炼句 refined_text 的子集”。

在 AutoRefine 的强化学习奖励里，它是一条0/1 判定规则：

把标准答案拆成若干原子事实（可看成集合 GT）。
用同样方式把模型在 <refine> 里写下的 distilled sentence 拆成原子事实（集合 refined_text）。
只有当GT 的每一条原子事实都出现在 refined_text 中时，才认为 GT ⊆ refined_text 成立，给 retrieval reward = 1；否则为 0。

换句话说，它要求模型在精炼步骤必须“一句不漏”地把能推出答案的关键证据全部保留，而不是只保留部分或写一些无关内容。这样就能强制模型学会“去噪+全覆盖”的双重能力。

O^2-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering.

O²-Searcher 的奖励函数设计是其核心创新之一，目标是引导模型同时处理开放性和封闭性问题，并根据问题类型自适应调整输出策略。

🎯 一、总体思路

封闭性问题：答案唯一，奖励聚焦在准确性和格式正确性。
开放性问题：答案多样，奖励需考虑：
- 格式规范（Markdown 列表）
- 内容多样性（避免重复）
- 事实正确性（与参考答案匹配）

🧮 二、奖励函数结构

✅ 1. 封闭性问题奖励（Closed-ended）

[
r_c =
\begin{cases}
1, & \text{若格式正确且 } a_{pred} = a_{gt} \
0, & \text{否则}
\end{cases}
]

a_pred：模型生成的答案
a_gt：标准答案
格式要求：答案必须包含在 <answer> 标签中
匹配方式：不区分大小写精确匹配

✅ 2. 开放性问题奖励（Open-ended）

由三部分加权组成：

[
r_o = \gamma_0 \cdot r_{o,fm} + \gamma_1 \cdot r_{o,div} + \gamma_2 \cdot r_{o,f1}
]

（1）格式奖励（Format Reward）( r_{o,fm} )

鼓励：

使用 Markdown 列表格式
列表项不重复
格式正确

[
r_{o,fm} = \alpha_0 \cdot \frac{n_{val}}{n_{tot}} + \alpha_1 \cdot [1 - s(a_{pred})]^\delta - \alpha_2 \cdot \frac{n_{dup}}{n_{tot}}
]

( n_{tot} )：总条目数
( n_{val} )：格式正确的条目数
( n_{dup} )：重复条目数
( s(a_{pred}) )：条目间语义相似度（越低越好）
( \alpha_0, \alpha_1, \alpha_2, \delta )：超参（如 ( \alpha_0 = 0.5, \alpha_1 = 0.5, \alpha_2 = 3, \delta = 1.5 )）

（2）多样性奖励（Diversity Reward）( r_{o,div} )

鼓励生成语义多样化的搜索查询：

[
r_{o,div} = \left( \frac{1}{n_q} \sum_{i=1}^{n_q} \frac{1}{n_q - 1} \sum_{j \neq i} (1 - \cos(\psi(q_i), \psi(q_j))) \right) \cdot \omega(n_q)
]

( \psi(q_i) )：查询 ( q_i ) 的嵌入向量
( \cos(\cdot) )：余弦相似度
( \omega(n_q) )：查询数量惩罚项，避免太多或太少

（3）事实性奖励（Factual Reward）( r_{o,f1} )

衡量生成答案与参考答案的语义匹配度：

使用嵌入模型将答案条目编码为向量
计算生成与参考条目间的余弦相似度
使用 匈牙利算法 做最优匹配
过滤低相似度匹配（阈值 ( s_\theta = 0.75 )）
最终计算 Precision、Recall、F1 分数

[
r_{o,f1} = 2 \cdot \frac{p \cdot r}{p + r}
]

🧩 三、奖励函数设计总结表

问题类型	奖励组成	目标
封闭性	准确性 + 格式	答对且格式正确
开放性	格式 + 多样性 + 事实性	结构清晰、内容多样、真实可靠

🧠 四、设计亮点

多目标优化：格式、内容、语义全覆盖。
可解释性强：每个奖励项都可追踪。
训练稳定：避免单一奖励（如 F1）导致训练震荡。
自适应：模型能自动识别问题类型并调整策略。

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability.

这篇文章提出了一个名为 MASKSEARCH 的新型预训练框架，旨在增强大模型（LLMs）在 智能体搜索（agentic search） 场景下的通用检索与推理能力，特别是在 开放域多跳问答（open-domain multi-hop QA） 任务中表现突出。

🧠 一、研究背景与动机

RALMs（Retrieval-Augmented Language Models） 通过检索外部知识增强生成能力，但检索与生成模块通常是分离的，限制了模型的主动性和适应性。
智能体搜索（Agentic Search） 允许模型主动调用搜索工具进行多步推理，但现有方法多依赖任务特定数据，泛化能力弱。
目标：提出一种通用的预训练任务，使模型在预训练阶段就具备搜索、推理、工具使用等能力，从而更好地适应下游任务。

🧩 二、核心贡献

提出 RAMP 预训练任务（Retrieval-Augmented Mask Prediction）：
- 模型需通过搜索工具填补文本中被遮蔽的关键信息（如实体、时间、术语等）。
- 培养模型的问题分解、搜索调用、结果观察与推理能力。
两阶段训练框架：
- 阶段一（预训练）：基于 RAMP 任务进行 SFT 或 RL 训练。
- 阶段二（下游任务）：在问答数据集（如 HotpotQA）上微调，提升任务表现。
高质量数据生成机制：
- Agent-based Startup：使用多智能体系统（Planner、Rewriter、Observer）生成初始 CoT 数据。
- Self-Evolve Distillation：用已训练模型作为教师，迭代生成更高质量的数据集（最终构建 10M 条数据）。
强化学习优化：
- 采用 DAPO（Dynamic Sampling Policy Optimization）算法。
- 奖励设计包括：
  - 格式奖励：是否遵循推理和回答格式。
  - 答案奖励：基于 Token-level Recall、Penalty、或 Model-based 判断答案正确性。
课程学习策略（Curriculum Learning）：
- 从少 mask 到多 mask 逐步增加任务难度，提升模型学习效率与鲁棒性。

🧪 三、实验结果

✅ 1. 多数据集评估（如 HotpotQA、FanoutQA、Musique 等）

模型规模	方法	平均 Recall
1.5B	MASKSEARCH（RL+RL）	65.34
3B	MASKSEARCH（RL+RL）	69.37
7B	MASKSEARCH（RL+RL）	71.01

在所有模型规模上，MASKSEARCH 均显著优于：
- RAG-PE（传统检索增强）
- Agent-PE（提示工程）
- Search-R1（单阶段 RL）

✅ 2. 消融实验与策略对比

PPL-based Masking：提升部分数据集表现，但过难样本可能降低效果。
课程学习：在多 mask 场景下优于混合训练，提升泛化能力。
RL vs SFT：RL 在预训练中带来更高上限，尤其适用于复杂推理任务。

🧭 四、方法结构图（简化）

原始文本（含 mask） → 模型推理 → 搜索工具调用 → 搜索结果 → 填补 mask → 输出答案

模型需自主决定：
- 是否搜索
- 搜索什么
- 如何利用搜索结果推理
- 何时给出答案

⚠️ 五、局限性与未来方向

局限性	说明
工具单一	当前仅使用搜索工具，未来可扩展至 API、数据库等
理论分析不足	方法有效但缺乏深入理论解释
数据多样性	自演化数据可能缺乏多样性，影响大模型效果上限

📌 六、总结

MASKSEARCH 通过引入 RAMP 预训练任务，让模型在预训练阶段就具备 搜索、推理、工具使用 等能力，显著提升了在开放域问答任务中的表现。其两阶段训练、数据自演化、RL 优化与课程学习等机制，为构建 通用智能体搜索系统 提供了新范式。

VRAG-RL: Vision-Perception-Based RAG for Visually Rich Information Understanding

这篇文章提出了 VRAG-RL，一个专为 视觉丰富信息理解与推理 设计的强化学习（RL）框架，用于提升视觉-语言模型（VLMs）在 检索增强生成（RAG） 任务中的表现，特别适用于多跳问答、图表理解、文档视觉问答等复杂场景。

🧠 一、研究背景与问题

传统 RAG 的局限：
- 文本 RAG 无法处理图像、图表等视觉信息。
- 视觉 RAG 多为固定流程，缺乏动态推理能力。
现有方法的问题：
- 图像仅作为上下文输入，未激活视觉感知能力。
- 搜索查询表达能力弱，检索质量低。
- 多轮推理不稳定，训练过程容易失效。

🧩 二、核心贡献

✅ 1. 提出 VRAG-RL 框架

首个专为 视觉丰富信息 RAG 设计的 强化学习框架。
支持 多轮迭代推理，模型可主动调用搜索工具并处理图像。

✅ 2. 视觉感知动作空间（Visual Perception Action Space）

模型可输出 <region> 标签，选择图像中的感兴趣区域进行裁剪、缩放、重编码。
实现从 粗粒度到细粒度 的视觉信息提取，提升感知效率与精度。

✅ 3. 多维度奖励机制（Fine-Grained Reward）

奖励函数由三部分组成：

奖励类型	作用
检索效率奖励（rRet）	基于 NDCG 评估检索图像的相关性与顺序
模型答案奖励（rAns）	使用大模型（如 Qwen2.5-7B）评估生成答案是否正确
模式一致性奖励（rPat）	保证模型遵循 `<think>`、`<search>`、`<answer>` 等动作格式

最终奖励：
[
r_\phi = \alpha \cdot r_{Ret} + \beta \cdot r_{Ans} + \gamma \cdot r_{Pat}
]

✅ 4. 强化学习训练策略

使用 GRPO（Group Relative Policy Optimization） 算法。
支持 多轮交互采样，每条轨迹包含思考、搜索、感知、回答等步骤。
引入 KL 散度约束，防止模型偏离原始能力。

🧪 三、实验结果

📊 1. 数据集与任务

数据集	类型	特点
SlideVQA	幻灯片问答	多图、多跳推理
ViDoSeek	文档视觉问答	大图集合、跨图推理
MMLongBench	长文档理解	含图表、表格、布局等视觉元素

📈 2. 性能对比（Recall 或 Accuracy）

模型	方法	SlideVQA	ViDoSeek	MMLongBench	平均
Qwen2.5-VL-3B	Search-R1-VL	21.3	14.1	11.2	15.5
➕	VRAG-RL	53.5	38.6	19.5	37.2
Qwen2.5-VL-7B	Search-R1-VL	37.4	22.2	20.9	26.8
➕	VRAG-RL	57.1	43.1	21.2	40.5

VRAG-RL 提升 20%~30%，尤其在推理型任务中表现突出。
视觉感知动作空间 在图表、布局类任务中提升显著。

🔍 四、关键模块消融实验

模块	移除后性能下降	说明
视觉感知动作空间	↓ 2.2~5.8 分	裁剪/缩放能聚焦高密度信息区
检索效率奖励	↓ 3~5 分	鼓励早检索、少噪声，提升上下文质量
模型答案奖励	↓ 明显	避免召回式奖励的“刷分”行为

🧭 五、案例分析与可解释性

案例 1：模型通过裁剪表格区域，提取 Dugwells 与 Shallow Tubewells 的数量，完成数值比较。
案例 2：识别图像中药代动力学图表，判断 Famotidine 生物利用度低于 Cimetidine。
展现出 人类般的反思与感知策略，而非机械复述训练模式。

⚠️ 六、局限与未来方向

局限性	未来方向
当前仅支持搜索 + 视觉感知	引入更多工具（API、数据库、计算器等）
模型裁剪动作可能出错	引入更精细的 grounding 模型或人工校验
多轮交互增加延迟	优化策略减少无效搜索，提升效率

📌 七、总结一句话

VRAG-RL 是第一个将 视觉感知动作空间 与 强化学习 结合用于 视觉 RAG 的框架，显著提升了模型在复杂视觉文档中的 检索、感知与推理能力，为构建 真正的多模态智能体 提供了新范式。

R1-Code-Interpreter: Training LLMs to Reason with Code via SFT and RL.

这篇文章提出了 R1-Code-Interpreter，一个通过 监督微调（SFT） 和 强化学习（RL） 训练的大语言模型框架，使模型能够 自主决定在推理过程中何时使用代码解释器（Code Interpreter），从而提升在复杂推理和规划任务中的准确性和效率。

🧠 一、研究背景与动机

文本推理的局限：大模型在文本推理方面表现优秀，但在需要精确计算、符号操作、算法推理等任务上表现不佳。
代码解释器的优势：通过生成并执行代码，可以显著提升模型在数学、逻辑、规划等任务上的表现。
关键挑战：
- 如何让模型 自主判断何时使用代码？
- 如何 训练模型有效集成代码解释器？
- 如何 泛化到多种任务类型？

🧩 二、核心贡献

✅ 1. 提出 R1-Code-Interpreter 框架

首个开源的、通用目的的 Code Interpreter 训练框架。
支持 多轮文本+代码交互，模型可自主决定何时调用代码解释器。
训练后的模型（R1-CI-14B）在 37 个测试任务上平均准确率从 44.0% 提升至 64.1%，超过 GPT-4o（文本版 58.6%），接近 GPT-4o + Code Interpreter（70.9%）。

✅ 2. 构建大规模任务基准

汇总 144 个推理与规划任务（107 训练，37 测试），每个任务包含 200+ 样本。
覆盖数学、逻辑、空间、优化、搜索等多种能力类型。
所有任务统一格式，支持自动化评估。

✅ 3. 训练流程：SFT + RL（GRPO）

阶段	方法	内容
SFT	多轮轨迹合成	使用 GPT-4o 生成 6.5k 条文本+代码交替的正确轨迹
RL	GRPO 优化	使用 Group Relative Policy Optimization 强化学习，基于结果奖励优化策略

✅ 4. 关键发现与训练策略对比

策略	结论
模型选择	使用通用模型（如 Qwen2.5）优于专门推理模型（如 DeepSeek-R1），后者会削弱代码能力
冷启动 vs 热启动	热启动（先 SFT 再 RL）显著优于冷启动（直接 RL）
GRPO vs PPO	GRPO 在多任务训练中更稳定、更高效
代码输出掩码	在 RL 中掩码代码执行结果，避免模型学习预测输出，提升稳定性
代码使用比例	训练后模型更智能地选择是否使用代码，而非滥用

🧪 三、实验结果

📊 1. 总体性能（测试任务平均成功率）

方法	平均成功率
GPT-4o（文本）	58.6%
R1-CI-14B	64.1% ✅
GPT-4o + Code Interpreter	70.9%

在所有模型规模（3B/7B/14B）上均显著提升。
在多个任务类型（数学、逻辑、空间、优化等）中表现均衡。

📈 2. 训练曲线与行为分析

训练奖励曲线：初期波动大，后期趋于稳定。
响应长度：未显著增长，说明模型更高效。
代码使用比例：训练后更均衡，避免过度依赖代码。
自检查行为涌现：模型会主动生成验证代码，提升答案可靠性。

⚠️ 四、局限性与未来方向

局限性	说明
训练成本高	14B 模型训练需约 1600 GPU 小时，代码执行开销大
任务多样性挑战	任务越多样，RL 提升越有限，需更强基础模型
适用范围有限	当前聚焦于推理与规划，未覆盖绘图、软件开发等任务

📌 五、总结一句话

R1-Code-Interpreter 是第一个通过 SFT + RL 训练的大模型框架，使模型能 自主决定何时使用代码解释器 进行推理，在 广泛任务类型 上显著超越传统文本推理模型，为构建 可执行、可验证、可泛化 的智能推理系统提供了新路径。

在 R1-Code-Interpreter 中，奖励函数的设计是整个强化学习训练过程的核心。它决定了模型在训练过程中如何评估其行为（即是否正确地使用了推理和代码），并指导其策略优化。

🎯 一、奖励构建目标

鼓励模型正确完成任务（即最终答案正确）
不强制格式或中间步骤，保持模型自然推理能力
避免奖励作弊（reward hacking），如刷格式、刷中间输出
仅基于结果正确性，不依赖神经奖励模型或过程监督

🧮 二、奖励函数设计

✅ 1. 奖励类型：基于结果的规则奖励（Rule-based Outcome Reward）

R1-Code-Interpreter 使用 纯结果导向的奖励机制，即：

只有当模型生成的最终答案 完全正确 时，给予奖励 1；否则奖励为 0。

[
r = \begin{cases}
1, & \text{最终答案正确} \
0, & \text{否则}
\end{cases}
]

✅ 2. 正确性判断方式（因任务类型而异）

任务类型	正确性判断方式
数学计算题	数值是否等于标准答案
逻辑推理题	是否匹配标准答案（如 True/False、字符串）
规划类任务（如 Blocksworld）	是否满足所有约束和目标状态
编程类任务	是否输出正确结果（通过执行验证）

所有任务的答案都通过 自动化规则 或 代码执行结果 进行验证，无需人工标注。

✅ 3. 奖励计算时机

在每一轮完整的“推理+代码执行”轨迹结束后，计算一次奖励。
奖励仅与 最终答案 相关，不评估中间推理或代码片段。
中间代码执行结果仅作为上下文输入，不参与奖励计算。

🧠 三、为什么选择这种奖励设计？

优点	说明
✅ 简单鲁棒	避免复杂奖励模型带来的误差和不稳定性
✅ 防作弊	不奖励格式、长度、中间输出，防止模型“刷分”
✅ 通用性强	适用于多种任务类型（数学、逻辑、规划等）
✅ 与真实目标一致	直接优化任务成功率，符合最终应用需求

⚠️ 四、未采用的奖励设计（有意避免）

方法	原因
格式奖励	模型已能自然遵循格式，强制格式会限制灵活性
过程奖励	中间步骤难以自动评估，容易引入噪声
神经奖励模型	训练成本高，容易过拟合或奖励作弊
BLEU/ROUGE 等文本相似度	不适用于结构化答案或代码输出

📌 五、总结一句话

R1-Code-Interpreter 的奖励函数采用“结果导向”的规则奖励：只有最终答案正确才得 1 分，其余为 0。这种设计简单、鲁棒、防作弊，直接优化模型在多样化任务上的实际表现。

R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning.

这篇文章是：

《R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning》
作者：Qingfei Zhao 等
机构：中国科学院信息工程研究所、北京师范大学
发布时间：2025年6月4日（arXiv）

🧭 一、研究背景与问题

大模型（LLMs） 在多步推理中表现良好，但在复杂逻辑和知识密集型任务中仍面临挑战：
- 容易生成幻觉（hallucination）；
- 难以动态判断何时该搜索、何时该推理；
- 现有 RAG 方法多为模块化设计，推理与搜索耦合浅，导致交互轨迹次优。
多轮 RAG 方法虽支持迭代检索，但：
- 检索时机依赖模型内部判断，不一定准确；
- 搜索与推理交互浅，无法深度融合外部知识。

🧩 二、核心贡献

贡献点	内容
1. 提出 R-Search 框架	首个基于强化学习（RL）的 RAG 框架，联合优化推理-搜索交互轨迹，支持token级触发搜索与全局证据整合。
2. 多奖励机制	设计三维度奖励： - 答案奖励（F1） - 证据奖励（跨模型验证） - 格式奖励（结构合规）
3. 模块化工具 RSTool	将推理过程中生成的高质量证据封装为可复用模块，支持本地部署与跨模型迁移。
4. 实验验证	在 7 个数据集（4 多跳 + 3 单跳）上，最高提升 32.2%（内域）/ 25.1%（外域），优于所有 RAG 和 RL 基线。

⚙️ 三、方法结构

1. 框架流程（Rollout）

阶段	内容
推理	模型生成 CoT，可在任意 token 处触发搜索（query）
搜索	检索 top-k 文档，包装为插入推理链
证据整合	模型从所有观测中提炼出 <original_evidence>，用于全局判断
答案生成	基于证据生成最终答案

2. 多奖励设计（Multi-Reward）

奖励类型	公式	说明
答案奖励	( r^\alpha_\phi = \text{F1}(\alpha_{\text{pred}}, \alpha_{\text{gold}}) )	衡量最终答案准确性
证据奖励	( r^e_\phi = \text{F1}(\alpha_{\text{cf}}, \alpha_{\text{gold}}) )	用跨模型（Llama-3.2）验证证据质量，减少偏见
格式奖励	( r^f_\phi \in {0, \gamma_e, \gamma_a, \gamma_e + \gamma_a} )	保证证据与答案格式正确

总奖励：
[
r_\phi = r^\alpha_\phi + r^e_\phi + r^f_\phi
]

3. 训练策略

掩码策略：搜索返回的文档不参与梯度更新，避免噪声；
非掩码证据：证据部分参与训练，强化模型对知识的理解与整合；
RL 算法：使用 GRPO（Group Relative Policy Optimization），无需价值网络，稳定性优于 PPO。

📊 四、实验结果

✅ 主实验（7 数据集平均 F1）

方法	多跳平均	单跳平均	总平均
Vanilla RAG	24.4	49.1	35.0
Search-R1（RL基线）	48.0	46.5	47.3
R-Search（GRPO）	47.9	47.2	47.6（3B）
R-Search（GRPO）	54.6	52.1	53.6（7B）

最高提升：MuSiQue 数据集上 +5.6% 超越 Search-R1；
跨模型迁移：RSTool + GLM-4-Plus 在 2WikiMQA 上 +20% 提升。

🔍 五、关键发现

发现	说明
证据机制至关重要	去除证据后，MuSiQue 下降 2.8%，2WikiMQA 下降 6.1%
GRPO > PPO	GRPO 收敛更快、奖励更高，尤其在大模型上优势明显
搜索次数增加	训练后模型触发更多搜索，形成更深层次的交互
证据可迁移	RSTool 可复用于其他模型，降低 API 成本，提升本地部署效率

⚠️ 六、局限与未来方向

局限	未来方向
仅使用 2WikiMQA 训练，数据单一	引入多领域高质量训练数据
训练成本高（8×A100）	探索高效 RL 方法（如 LoRA、蒸馏）
未覆盖图像、表格等多模态	拓展至多模态推理-检索任务

✅ 总结一句话

R-Search 通过 token级搜索触发 + 多奖励RL训练 + 可迁移证据模块，首次实现了推理与搜索的深度耦合，在复杂问答任务中显著超越现有 RAG 和 RL 方法，为可解释、可迁移的推理-检索系统提供了新范式。

StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization.

这篇文章是：

《StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization》
作者：Ziliang Wang 等
机构：SenseTime、南京大学、深圳大学
发布时间：2025年5月26日（arXiv）

🧭 一、研究背景与问题

大模型（LLMs） 在多跳推理（multi-hop reasoning）中表现不足，尤其在需要主动搜索外部知识时。
现有方法如 RAG（Retrieval-Augmented Generation） 和 Chain-of-Thought（CoT） 存在以下问题：
- 对外部知识依赖强，但搜索过程静态、粗糙；
- 强化学习（RL）方法如 PPO、GRPO 仅使用全局奖励（如最终答案是否正确），缺乏中间搜索步骤的监督；
- 搜索行为缺乏细粒度反馈，导致模型在多跳问答中表现不佳。

🧩 二、核心贡献

贡献点	内容
1. StepSearch 框架	提出基于逐步强化学习（Step-wise PPO）的训练框架，引入中间搜索步骤的奖励机制。
2. 双奖励机制	设计两种奖励： Type 1：全局奖励（答案正确性 + 搜索关键词匹配） Type 2：步骤奖励（信息增益 - 冗余惩罚）
3. 数据管道	基于 MuSiQue 数据集，构建了一个包含子问题-搜索关键词-答案轨迹的精细训练数据集（19k 条）。
4. 实验验证	在 4 个多跳问答数据集（HotpotQA、MuSiQue、2Wiki、Bamboogle）上，3B/7B 模型均显著优于现有 RL+RAG 方法，最高提升 15.2%。

⚙️ 三、方法详解

1. 数据构建流程（Data Pipeline）

输入：MuSiQue 多跳问题
步骤：
1. 用 GPT-4o 将问题分解为多个子问题；
2. 为每个子问题生成多个搜索查询；
3. 用多个搜索引擎（Google/Bing/Wiki）验证查询有效性；
4. 保留至少在一半引擎中返回有效结果的查询；
5. 构建“子问题 → 搜索关键词 → 检索文档 → 子答案”的完整轨迹。

2. 训练框架：StepSearch（StePPO）

基于 PPO，引入步骤级奖励；
每个搜索轮次包括：
- <think>：推理
- <search>：发出查询
- <information>：返回文档（训练时mask，不参与梯度更新）
奖励设计：
- 信息增益（Information Gain）：衡量本轮检索文档与标准答案的相似度提升；
- 冗余惩罚（Redundancy Penalty）：惩罚重复检索已看过的文档；
- 搜索关键词奖励（Search Key Reward）：衡量生成查询与标准关键词的匹配度；
- 答案奖励（Answer Reward）：基于 F1 分数评估最终答案正确性。

📊 四、实验结果

1. 主实验（4 个数据集）

模型	HotpotQA F1	MuSiQue F1	Bamboogle F1
Search-R1（baseline）	0.401	0.188	0.344
StepSearch（3B）	0.452	0.273	0.419
StepSearch（7B）	0.502	0.324	0.573

仅用 19k 训练数据，超越使用 170k 数据的 Search-R1；
在小模型（3B）上提升更明显，说明细粒度监督对小模型更有效。

2. 消融实验（Ablation Study）

模块移除	HotpotQA F1	说明
无步骤奖励	0.475	明显下降
无信息增益	0.468	搜索质量下降
无冗余惩罚	0.494	出现重复搜索
无关键词奖励	0.528	收敛变慢

🧪 五、案例展示（Case Study）

早期训练阶段：模型反复搜索相似关键词，浪费预算；
后期训练阶段：模型能精准定位关键文档，避免冗余；
仅使用关键词奖励：模型会“骗奖励”，伪造搜索格式或生成假答案，导致崩溃。

⚠️ 六、局限与未来工作

局限	未来方向
仅支持文本问答	拓展到多模态（图像、音频）
仅测试 3B/7B 模型	探索14B/32B大模型下的稳定性
训练数据仅 19k	探索更大规模数据下的表现
搜索行为有限	引入更复杂的搜索策略（如跳转、多轮交互）

✅ 总结一句话

StepSearch 通过引入步骤级奖励机制（信息增益 + 冗余惩罚），让大模型在搜索过程中“步步有反馈”，显著提升多跳推理能力，尤其在小模型 + 少数据场景下表现突出。

步骤级别奖励（Step-wise Reward）在 StepSearch 中由两部分组成：

信息增益（Information Gain） 减去 冗余惩罚（Redundancy Penalty）

✅ 公式总览

$rtstep=Gt−Ptr_t^{\text{step}} = G_t - P_t$

其中：

( G_t )：第 ( t ) 轮搜索的信息增益
( P_t )：第 ( t ) 轮搜索的冗余惩罚

🔍 1. 信息增益 ( G_t )

目的：

衡量本轮检索文档对标准答案文档的新增匹配程度。

定义：

设有 ( n ) 个标准文档 ( {d_1^g, …, d_n^g} )，每个文档 ( d_i^g ) 对应一个子问题。

令 ( m_t^i )：前 ( t-1 ) 轮中，检索文档与 ( d_i^g ) 的最大相似度；
令 ( c_t^i )：第 ( t ) 轮中，检索文档与 ( d_i^g ) 的最大相似度；
则第 ( t ) 轮对 ( d_i^g ) 的信息增益为：

$\Delta_t^i = \max(c_t^i - m_t^i, 0)$

整体信息增益为：

$G_t = \frac{1}{n} \sum_{i=1}^n \Delta_t^i$

✅ 说明：只有当本轮检索文档比历史更好时，才计入增益，避免重复奖励。

🧹 2. 冗余惩罚 ( P_t )

目的：

惩罚重复检索已看过的文档。

定义：

设 ( H_{t-1} )：前 ( t-1 ) 轮已检索过的文档集合；
第 ( t ) 轮检索文档集合为 ( D_t = {d_{t1}, …, d_{tk}} )；
则冗余惩罚为：

$P_t = \frac{1}{k} \sum_{j=1}^k \mathbb{1}(d_{tj} \in H_{t-1})$

✅ 说明：每重复一个文档，惩罚增加 ( \frac{1}{k} )，鼓励探索新文档。

📌 总结公式

$\boxed{ r_t^{\text{step}} = \underbrace{\frac{1}{n} \sum_{i=1}^n \max\left(\max_{d \in D_t} \text{sim}(d, d_i^g) - m_t^i,\ 0\right)}_{\text{信息增益 } G_t} - \underbrace{\frac{1}{k} \sum_{d \in D_t} \mathbb{1}(d \in H_{t-1})}_{\text{冗余惩罚 } P_t} }$

SimpleTIR: Stable End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning.

这篇文章是：

《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》
作者：Zhenghai Xue 等
机构：南洋理工大学、TikTok
发布时间：2025年9月2日（arXiv）

🧭 一、研究背景与问题

大模型（LLMs） 在数学推理等任务中表现受限，尤其在：
- 数值计算精度
- 多步逻辑推理
- 知识截止时间限制
工具集成推理（TIR）：让模型调用外部工具（如 Python 解释器）进行多轮交互推理，显著提升推理能力。
挑战：
- 多轮 TIR 在强化学习中极易出现训练不稳定、梯度爆炸；
- 常见解决方案是冷启动监督微调（SFT），但这会限制模型探索新策略的能力；
- **Zero RL（从零开始强化学习）**更具潜力，但多轮交互中极易崩溃。

🧩 二、核心贡献

贡献点	内容
1. 识别不稳定的根本原因	多轮 TIR 中，工具反馈（如代码执行结果）偏离模型预训练分布，导致模型生成低概率 token，进而引发梯度爆炸和信用分配错误。
2. 提出 SimpleTIR 框架	一种 plug-and-play 的轨迹过滤方法，通过识别并剔除包含 “void turn”（无效轮次）的轨迹，阻断有害梯度，稳定训练。
3. 显著性能提升	在 Qwen2.5-7B 上，AIME24 得分从 22.1 → 50.5，超越所有 Zero RL 基线，接近或超过冷启动方法。
4. 保留多样化推理模式	无需 SFT，模型自然涌现出交叉验证、渐进推理、错误修正等复杂策略。

⚙️ 三、方法详解

1. 问题诊断：低概率 Token 是罪魁祸首

工具反馈（如代码结果）是 OOD（分布外）输入，模型在其基础上继续生成，容易输出低概率 token；
这些 token 在后续轮次中被喂回模型，加剧分布偏移；
最终导致：
- 梯度爆炸（重要性采样比率爆炸）
- 信用分配错误（终端奖励无法区分早期好推理与晚期坏生成）

2. SimpleTIR 解决方案：过滤“Void Turn”

Void Turn 定义：某一轮中模型既没有生成完整代码块，也没有给出最终答案（如空回复、重复文本、提前结束）；
策略：在策略更新前，剔除所有包含 void turn 的轨迹，避免其参与梯度计算；
效果：
- 阻断低概率 token 的梯度传播；
- 避免错误惩罚早期正确推理；
- 训练曲线平滑，性能稳定提升。

3. 训练框架与细节

基于 GRPO（Group Relative Policy Optimization）；
不依赖价值函数，避免 critic 不稳定；
工具反馈 token 被掩码，不参与梯度计算；
支持最多 10 轮交互，每轮最多 24K tokens；
**使用异步代码沙箱（Sandbox Fusion）**执行 Python 代码。

📊 四、实验结果

✅ 主实验结果（AIME24、MATH500 等）

模型	AIME24	MATH500	说明
Qwen2.5-7B（文本）	3.2	51.9	基线
Qwen2.5-7B + SimpleTIR	50.5	88.4	✅ Zero RL，无 SFT
ReTool-7B（冷启动+RL）	42.3	86.4	有 SFT
ZeroTIR-7B	39.6	80.2	Zero RL，无过滤

SimpleTIR-7B 超越所有 Zero RL 方法，并接近或超过冷启动方法；
SimpleTIR-32B 在 AIME24 上达到 59.9，为当前 Zero RL 设置下最强结果。

🔍 五、消融实验与行为分析

方法	AIME24	说明
SimpleTIR	50.5	✅ 完整方法
Naive Multi-Turn	20.8	无过滤，训练崩溃
低概率 token 过滤	23.3	无法解决根本问题
高重要性比率过滤	26.3	同样无效

仅 void turn 过滤有效，其他启发式方法无法稳定训练；
推理行为涌现（无需 SFT）：
- 交叉验证（Cross Validation）
- 渐进推理（Progressive Reasoning）
- 错误修正循环（Error Correction Loop）

⚠️ 六、局限与未来方向

局限	未来方向
Void turn 指标可能不适用于非 TIR 任务	探索更通用的轨迹质量指标
最多 10 轮交互，可能不够	支持更长的多轮交互
依赖高效代码沙箱	构建更快、更轻量的执行环境
异步 rollout 与奖励计算尚未实现	支持完全异步训练流程

✅ 总结一句话

SimpleTIR 通过识别并过滤“无效轮次”，首次实现了从零开始、稳定训练的多轮工具集成推理，在数学推理任务中取得突破性性能，并无需任何监督数据，为可扩展、自动演化的智能体训练开辟了新路径。

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning.

这篇文章是：

《Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》
作者：Haozhen Zhang 等
机构：伊利诺伊大学厄本纳-香槟分校（UIUC）
发布时间：2025年6月18日（arXiv）

🧭 一、研究背景与问题

大模型（LLMs）种类繁多，各自擅长不同任务（如推理、写作、数学、多语言等）；
现有 LLM 路由器（Router）多为单轮、一对一映射（即一个查询 → 一个模型），无法充分利用多个模型的互补能力；
复杂任务（如多跳问答）需要多轮交互、模型协同，而非一次性选择；
关键挑战：
- 多轮模型选择是非可微分的离散决策过程，无法直接用反向传播训练；
- 如何在性能与成本之间做权衡；
- 如何泛化到未见过的新模型，无需重新训练。

🧩 二、核心贡献

贡献点	内容
1. 提出 Router-R1 框架	首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架。
2. LLM 即路由器	路由器本身是一个具备推理能力的 LLM，可交替执行： - `<think>`：内部推理 - `<search>`：调用外部模型 - `<info>`：整合返回结果
3. 多目标奖励设计	设计轻量级规则奖励，包括： - 格式奖励（结构化输出） - 结果奖励（答案正确性） - 成本奖励（模型调用开销）
4. 强泛化能力	仅依赖模型描述（如价格、参数量、任务表现）即可零样本泛化到未见过的新模型。
5. 实验验证	在 7 个 QA 数据集（单跳 + 多跳）上，超越 10+ 强基线，包括传统路由器、RAG、Search-R1 等。

⚙️ 三、方法结构

1. 框架流程（Multi-Round Routing）

阶段	动作	说明
思考	`<think>`	分析任务、判断是否需外部模型
路由	`<search>模型名:子问题</search>`	选择模型并发出子查询
整合	`<info>返回结果</info>`	将模型返回结果纳入上下文
回答	`<answer>最终答案</answer>`	输出最终答案

✅ 支持多轮交互，可多次调用不同模型，逐步 refine 答案。

2. 奖励函数设计（Rule-Based）

奖励类型	公式/规则	作用
格式奖励	不符合结构 → -1；否则 → 0	保证输出结构化
结果奖励	( R_{\text{outcome}} = \text{EM}(y_{\text{pred}}, y_{\text{gt}}) )	鼓励答对
成本奖励	( R_{\text{cost}} \propto -m(P_{\text{LLM}}) \cdot T_{\text{out}} )	惩罚高成本模型调用
总奖励	( r = R_{\text{format}} + (1-\alpha)R_{\text{outcome}} + \alpha R_{\text{cost}} )	可调性能-成本权衡

3. 泛化机制（Zero-Shot Generalization）

不依赖模型 ID 或 embedding，仅使用文本描述（如参数量、价格、擅长任务）；
支持动态扩展模型池，只需在 prompt 中添加新模型描述；
实验验证：加入 2 个未见过的新模型后，性能不降反升，体现强泛化能力。

📊 四、实验结果

✅ 主实验（Exact Match 平均分）

方法	平均分	说明
Direct / CoT / SFT	~0.15–0.20	仅依赖自身知识
RAG	0.267	静态检索
Search-R1	0.291	多轮搜索
Prompt LLM	0.329	单轮路由
GraphRouter	0.297	图结构路由
Router-R1-Qwen	0.416 ✅	多轮推理+路由
Router-R1-Llama	0.409 ✅	换底座仍领先

🔍 成本分析（Cost-Aware Routing）

α = 0：性能优先，调用大模型最多；
α = 0.6：成本下降 50%，性能几乎不降；
α = 0.9：成本下降 90%，性能下降约 20%；
结论：Router-R1 能自动学习“先小后大”的 escalation 策略，实现性能-成本帕累托前沿。

🧪 泛化实验（Unseen Models）

方法	加入新模型后性能变化
Prompt LLM	几乎不变
GraphRouter	略微下降
Router-R1	上升 1–2 个点 ✅

✅ 说明：Router-R1 能通过描述推断新模型能力，并更有效地使用它们。

⚠️ 五、局限与未来方向

局限	未来方向
仅评估 QA 任务	扩展到对话、代码、摘要等任务
规则奖励可能不够细	引入人类反馈或学习式奖励
多轮交互增加延迟	引入早期停止或并行路由
依赖模型描述质量	结合模型行为嵌入或元学习

✅ 总结一句话

Router-R1 是首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架，通过LLM 自路由 + 多目标奖励 + 模型描述泛化，在复杂问答任务中实现性能与成本的动态平衡，为多模型协同推理系统提供了新范式。

SkyRL: A Modular Full-stack RL Library for LLMs.

ASearcher: Large-Scale RL for Search Agents.

这篇文章是《Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL》，作者来自清华大学、蚂蚁集团RL Lab和华盛顿大学，提出了一个名为 ASearcher 的开源项目，用于通过大规模异步强化学习（RL）训练具备“搜索智能”的AI智能体。

🧭 一、研究背景与问题

随着大模型（LLM）的发展，AI智能体在复杂任务中表现突出，尤其是通过调用外部工具（如搜索引擎）来增强知识获取能力。但目前的开源智能体在“搜索智能”方面仍存在明显短板：

搜索策略简单，无法处理复杂、多跳、信息模糊的问题；
现有RL方法限制搜索轮次（如≤10轮），无法学习长程策略；
缺乏高质量、大规模、挑战性强的训练数据；
训练效率低，长轨迹导致GPU空闲时间多。

🧩 二、核心贡献

1. ASearcher：一个开源的大规模RL训练框架

支持完全异步的RL训练，解决长轨迹阻塞问题；
支持长达128轮的搜索轨迹，突破传统10轮限制；
训练过程中智能体可生成超过150k tokens，调用超过40次工具；
支持从基础模型（如Qwen2.5-7B/14B）或强推理模型（如QwQ-32B）开始训练。

2. 自动化数据合成智能体

提出一个LLM驱动的数据合成智能体，从14k种子QA对中生成134k高质量QA对；
使用**Injection（注入事实）和Fuzzing（模糊化）**两种策略提升问题难度；
每道题经过多阶段质量验证，确保挑战性、可解性和唯一答案。

3. 端到端强化学习训练

所有组件（思考、工具调用、摘要）都通过RL联合优化；
使用GRPO算法和稀疏奖励机制；
引入动态过滤机制，去除无意义样本，提升训练效率。

🧪 三、实验与结果

1. 评估基准

单跳/多跳QA：Natural Questions、TriviaQA、HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
复杂任务：GAIA、xBench-DeepSearch、Frames

2. 实验设置

本地知识库（RAG）设置：使用维基百科2018数据集；
Web搜索设置：使用搜索引擎 + 浏览器工具；
评估指标：F1分数、LLM-as-Judge（LasJ）、Avg@4、Pass@4

3. 主要结果

模型	GAIA (Avg@4)	xBench (Avg@4)	Frames (Avg@4)
ASearcher-Web-QwQ	52.8	42.1	70.9
其他SOTA模型	47.6	40.3	67.0

在7B/14B模型中，ASearcher在多个基准上超越同级别甚至更大模型；
在QwQ-32B基础上微调后，ASearcher-Web-QwQ在GAIA等复杂任务上提升20%+；
训练后智能体展现出：
- 不确定性感知推理
- 精准信息提取
- 跨文档推理
- 基于证据的验证能力

🧠 四、案例研究（GAIA难题）

对比三种智能体在复杂问题上的表现：

模型	问题分解	信息提取	错误验证	结论
Search-R1-32B	❌ 不会分解	❌ 幻觉严重	❌ 无法验证	失败
Search-o1(QwQ)	✅ 能找资料	❌ 易漏信息	❌ 无法纠错	失败
ASearcher-Web-QwQ	✅ 精准分解	✅ 精准提取	✅ 反复验证	成功

🧱 五、训练动态观察

7B模型：能学会搜索，但难以掌握网页摘要；
14B模型：逐渐学会浏览网页并提取关键信息；
QwQ-32B模型：训练中工具调用次数逐步提升至40+，输出token数达150k+，展现出长程推理与搜索能力。

✅ 六、总结

ASearcher通过：

异步RL系统解决长轨迹训练效率问题；
数据合成智能体构建高质量、挑战性QA数据；
端到端RL训练激发模型搜索智能；
在多个基准上超越现有开源模型，为构建具备专家级搜索能力的AI智能体提供了可扩展、可复现的完整方案。

ParallelSearch: Decompose Query and Search Sub-queries in Parallel with RL.

这篇文章《ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning》提出了一种新的强化学习框架，用于训练大语言模型（LLM）在搜索任务中并行处理多个子查询，从而提升效率、减少LLM调用次数，同时保持甚至提升答案准确性。

🧭 一、研究背景与动机

尽管当前基于强化学习的搜索智能体（如 Search-R1）在多跳推理任务中表现良好，但它们普遍存在一个结构性瓶颈：

所有搜索操作都是顺序执行的，即使某些子查询在逻辑上是独立的、可以并行处理。

例如问题：“Claude Monet 和 Camille Pissarro 谁更年长？”

传统方法：先查 Monet 生日，再查 Pissarro 生日，两步顺序执行；
本文方法：并行查询两人生日，一步到位。

这种顺序处理方式导致：

响应延迟高
LLM调用次数多
推理效率低

🧩 二、核心贡献

✅ 1. 提出 ParallelSearch 框架

训练 LLM 识别可并行化的查询结构；
在单轮推理中生成多个子查询；
并行执行搜索，并统一整合结果；
通过强化学习优化模型的分解与搜索策略。

✅ 2. 多维度奖励函数设计（4个组成部分）

奖励类型	作用
Outcome Reward	答案是否正确（Exact Match）
Decomposition Reward	是否对可分解问题进行了分解
Search Count Reward	是否高效使用搜索（避免冗余）
Format Reward	是否遵循推理-搜索-输出格式

✅ 3. 实验验证效果显著

在 7个问答基准上平均提升 2.9%；
在可并行问题上提升高达 12.7%；
LLM调用次数减少 30.4%；
推理轮数减少（从平均 3~6 轮降至 2 轮以内）；
响应更简洁，部署成本更低。

🧪 三、实验设置与结果

📊 数据集

通用问答：NQ、TriviaQA、PopQA
多跳问答：HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
并行子集：HotpotQA-par、2wiki-par、MultihopRAG-par（仅含可并行问题）

🔍 模型与训练

基础模型：Qwen2.5-7B（Base / Instruct）
强化学习算法：PPO、GRPO
搜索器：基于 Wikipedia 2018 的稠密检索（E5 嵌入）
奖励函数：组合上述4类奖励，通过消融实验确定最优权重

📈 主要结果

方法	EM 平均分	并行问题提升	LLM调用次数
Search-R1	0.370	—	3.36
ZeroSearch	0.391	—	—
ParallelSearch	0.425	+12.7%	2.34

🧠 四、案例与行为分析

✅ 正确案例（HotpotQA-par）

问题：Laleli Mosque 和 Esma Sultan Mansion 是否位于同一区域？
模型并行搜索两个地点，判断不在同一区域，回答正确。

❌ 错误案例

问题：Cypress 和 Ajuga 是否都是属（genus）？
模型误判为“是”，实际 Cypress 是通称，不全是属。

🧱 五、结论与展望

✅ 总结

ParallelSearch 是第一个通过强化学习训练 LLM 实现并行搜索的框架；
不增加模型参数，不依赖额外数据，仅通过奖励设计实现策略优化；
在效率与准确性之间取得良好平衡；
可推广至真实搜索系统，提升部署效率。

🔮 展望

支持多模态输入（如截图 + HTML）；
引入更复杂的依赖结构识别（非完全并行或混合结构）；
推广至真实搜索引擎（如 Bing、Google API）；
结合更细粒度的信息整合策略（如注意力机制、摘要模型）。

AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning.

这篇论文《AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning》提出了一种新的强化学习框架，旨在让大语言模型（LLM）在推理过程中自主决定是否使用工具、使用哪种工具，从而解决现有工具集成推理（TIR）方法中工具调用僵化、语言能力下降的问题。

🧭 一、研究背景与问题

✅ 当前TIR方法的局限：

多数方法采用固定工具调用策略（如先搜索再推理、或强制调用代码解释器）；
工具使用与任务不匹配，导致：
- 资源浪费（不必要的搜索或代码执行）；
- 语言建模能力下降（指令遵循、通用推理能力受损）；
- 泛化能力差（无法适应不同任务类型）。

✅ 目标：

让模型像人类一样，根据任务内容自主判断是否需要工具、以及使用哪种工具，实现：

更高效的推理；
更强的通用性；
更好的语言能力与工具能力平衡。

🧩 二、AutoTIR 框架核心

✅ 1. 自主工具决策机制

模型在每一步推理中可自主选择：
- 不使用工具（纯文本推理）；
- 使用搜索工具（获取知识）；
- 使用代码工具（执行计算）；
通过强化学习训练模型做出最优决策。

✅ 2. 混合奖励机制（Hybrid Reward）

总奖励 = 0.1 × 行动奖励 + 0.9 × 输出奖励

奖励类型	作用	设计细节
行动奖励	鼓励正确的工具选择	在工具有益的任务中奖励使用工具；在工具无效的任务中惩罚误用工具
输出奖励	鼓励正确答案	使用任务特定的评估函数（如F1、Exact Match、IFScore）

✅ 3. 支持多工具集成

当前支持工具：
- 搜索引擎（基于 Wikipedia 2018）；
- 代码解释器（Python 沙箱）；
框架可扩展至更多工具（如计算器、数据库等）。

🧪 三、实验与结果

✅ 数据集（覆盖3类任务）

类型	数据集
知识密集型	HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
数学推理	AIME2024/2025、MATH500、GSM8K
通用语言任务	LogiQA、IFEval（指令遵循）

✅ 性能对比（平均分）

方法	平均分	特点
Qwen2.5-7B-Instruct	21.84	无工具
Search-R1	29.26	只用搜索
ToRL	24.18	只用代码
ReSearch	28.65	搜索+RL
AutoTIR	46.01	自主工具选择

✅ AutoTIR 在所有任务中均优于 baseline，尤其在数学任务和知识推理中提升显著。

✅ 工具使用效率分析（TS / TP）

Tool Selection（TS）：工具选择是否正确；
Tool Productivity（TP）：每次工具使用是否带来正确答案。

方法	TS（平均）	TP（平均）
Search-R1	93.94	25.51
ReSearch	78.43	14.06
AutoTIR	94.45	28.76

✅ AutoTIR 在工具选择的准确性和效率上均优于现有方法。

🔍 四、消融实验（Ablation Study）

配置	平均分	说明
AutoTIR	46.01	完整框架
w/o Tools	28.76	禁用工具，性能大幅下降
w/o IF	34.01	去除指令遵循数据，IFEval 分数暴跌
w/o Penalty	44.36	去除误用惩罚，工具误用增加
w/ Prior	43.12	强制使用工具，性能下降

✅ 每个组件都对性能有正向贡献，自主探索工具使用比人为设定规则更有效。

📈 五、训练动态与可扩展性

训练过程中：
- 奖励逐步提升；
- 响应长度增长，模型学会更复杂的推理；
- 工具使用策略逐步优化；
在不同任务上均表现出稳定的性能提升趋势；
具备良好的跨任务泛化能力。

✅ 六、结论与意义

✅ 总结

AutoTIR 是第一个通过强化学习训练 LLM 自主决定工具使用的框架；
不增加模型参数，不依赖人工规则，仅通过奖励机制实现策略学习；
在知识推理、数学计算、指令遵循等多类任务中均取得 SOTA 性能；
实现了工具使用效率与语言建模能力的良好平衡。

🔮 展望

支持更多工具（API、数据库、图表生成等）；
引入动态工具组合与多轮工具协作；
推广至真实场景部署，如智能助手、教育、科研等。

https://hub.baai.ac.cn/view/47131

文章转载自：

http://m1S9c983.brwgp.cn
http://BPzXvhw8.brwgp.cn
http://9oraFJLF.brwgp.cn
http://NgoD6TUF.brwgp.cn
http://T9rvfjJ1.brwgp.cn
http://yQwuZAbq.brwgp.cn
http://Xe31e6vn.brwgp.cn
http://MZIJM2gS.brwgp.cn
http://EMXnqPN1.brwgp.cn
http://o0inFeYf.brwgp.cn
http://8JITLUy7.brwgp.cn
http://zqNXzKuk.brwgp.cn
http://sXm2G1jU.brwgp.cn
http://V8nypCKy.brwgp.cn
http://4DVISXO8.brwgp.cn
http://2nu7Gi6p.brwgp.cn
http://j83w91u7.brwgp.cn
http://xDaA9DWW.brwgp.cn
http://MDpuB7cB.brwgp.cn
http://t9uS0pTf.brwgp.cn
http://D1jnQUc0.brwgp.cn
http://rnu46UAg.brwgp.cn
http://tJX9kUBZ.brwgp.cn
http://AulSgJHs.brwgp.cn
http://UfcqjgVX.brwgp.cn
http://dddhhwFk.brwgp.cn
http://VOGBo9Ge.brwgp.cn
http://EQnreB4i.brwgp.cn
http://HxrYc68e.brwgp.cn
http://j1cKRgFT.brwgp.cn

查看全文

http://www.dtcms.com/a/379103.html

第一篇：如何在数组中操作数据【数据结构入门】

PYcharm——pyqt音乐播放器

OpenAI已正式开放ChatGPT Projects

日系电车销量破万，真正突围了，恰恰说明了电车的组装本质！

Linux 防火墙 Iptables

不想考地信，计算机又太卷，所以转型GIS开发

PotPlayer 1.7.22611发布：支持蓝光播放+智能字幕匹配

LVS负载均衡群集与Keepalived高可用

React中hook的用法及例子（持续更新）

【网络编程】TCP、UDP、KCP、QUIC 全面解析

【1】占位符

A2A 中的内存共享方法

力扣704. 二分查找

HttpServletRequest vs ServletContext 全面解析

介绍keepalived和LVS

NAT技术：SNAT与DNAT区别详解

设计模式-单例桥接命令职责链

数据分析：合并

bug：uniCloud报Business Failed, 参数有误retry invoke error

人工智能学习：Transformer结构中的子层连接（Sublayer Connection）

阿里FunASR语音转文字模型搭建

Android8 binder源码学习分析笔记（三）

sizeof 和 strlen

2025年度4款录音转文字工具横向对比

教资科三【信息技术】— 学科知识(简答题)精简背诵版

滚动列表展示跟随弹框效果

readelf 和 ldd 查看文件的依赖

基于社交媒体数据的公众情绪指数构建与重大事件影响分析

Cosign 实战：构建可信容器镜像的签名与验证体系

定时器实战：LED闪烁与呼吸灯调试

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments.

Multimodal-Search-R1: Incentivizing LMMs to Search.

OTC: Optimal Tool Calls via Reinforcement Learning.

🧠 一、研究背景与动机

1.1 工具增强推理（TIR）

1.2 当前问题：认知卸载（Cognitive Offloading）

🎯 二、研究目标

🧪 三、核心贡献

⚙️ 四、方法详解

4.1 任务定义

4.2 奖励设计（核心创新）

📊 五、实验结果

5.1 搜索任务（NQ、HotpotQA）

5.2 代码任务（AIME、MATH）

🔍 六、行为分析

6.1 工具使用行为

6.2 案例对比（Fig.1）

🧩 七、结论与展望

✅ 总结

🔮 未来方向

ZeroSearch: Incentivize the Search Capability of LLMs without Searching.

🧠 ZEROSEARCH 脑图总览

1️⃣ 研究背景与动机

2️⃣ 研究目标

3️⃣ 方法结构

🔹 3.1 搜索模拟器（Search Simulator）

🔹 3.2 课程式 rollout（Curriculum Rollout）

🔹 3.3 奖励设计

🔹 3.4 强化学习训练

4️⃣ 实验结果

✅ 性能对比（vs 真实搜索引擎）

5️⃣ 成本分析

6️⃣ 案例与行为分析

7️⃣ 结论与局限

🧩 脑图可视化建议（可导入XMind/MindMaster）

✅ 训练阶段：完全代替真实搜索 API

⚠️ 推理阶段：仍可使用真实搜索 API

✅ 总结一句话：

IKEA: Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent.

Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging.

🧠 一、研究背景与动机

✅ 问题背景：

✅ 研究动机：

🎯 二、研究目标与核心思想

✅ 提出 InForage 框架：

🔬 三、方法结构详解

1️⃣ 信息觅食理论（IFT）建模

2️⃣ InForage 框架流程

3️⃣ 奖励函数设计（核心创新）

📊 四、实验结果（重点）

✅ 主实验（表1）

🧪 五、数据集构建（亮点）

✅ 自构“人类搜索轨迹”数据集：

🔍 六、消融实验（验证有效性）

✅ 七、总结一句话

🧩 八、可视化脑图（文字版）

🔍 一、直观理解

🧮 二、形式化定义（论文公式）

🧪 三、实际计算步骤（可复现）

📌 四、举个具体例子

✅ 五、一句话总结

AutoRefine: Search and Refine During Think.

🧠 一句话总结

🎯 研究动机（Why）

🔬 方法核心（What & How）

1. 搜索-提炼-思考 模板（新范式）

2. 双信号奖励（核心创新）

3. 训练策略

📊 主要结果（RQ 一览）

🔍 关键消融（Ablation）

🛠 可复现要点

O^2-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering.

🎯 一、总体思路

🧮 二、奖励函数结构

✅ 1. 封闭性问题奖励（Closed-ended）

✅ 2. 开放性问题奖励（Open-ended）

（1）格式奖励（Format Reward）( r_{o,fm} )

（2）多样性奖励（Diversity Reward）( r_{o,div} )

（3）事实性奖励（Factual Reward）( r_{o,f1} )

🧩 三、奖励函数设计总结表

1. 搜索-提炼-思考模板（新范式）