当前位置: 首页 > news >正文

agentic Deep search相关内容补充

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments.

Multimodal-Search-R1: Incentivizing LMMs to Search.

OTC: Optimal Tool Calls via Reinforcement Learning.

这篇论文是:

《Acting Less is Reasoning More! Teaching Model to Act Efficiently》
arXiv:2504.14870v2,2025年5月31日
作者来自香港中文大学、UIUC、普林斯顿大学、中山大学、香港科技大学等


🧠 一、研究背景与动机

1.1 工具增强推理(TIR)

大模型(LLMs)通过调用外部工具(如搜索引擎、代码解释器)可以增强推理能力,解决知识盲区或复杂计算问题。

1.2 当前问题:认知卸载(Cognitive Offloading)

现有强化学习方法(如Search-R1)只优化最终答案正确性,忽视工具使用效率,导致:

  • 过度调用工具(成本高)
  • 抑制内部推理能力发展
  • 降低模型通用性与自主性

🎯 二、研究目标

提出一种强化学习框架,鼓励模型在保证答案正确的前提下,尽可能少调用工具,从而:

  • 降低推理成本
  • 增强模型内部推理能力
  • 提高工具使用效率

🧪 三、核心贡献

编号内容
首次提出“工具生产力”(Tool Productivity)指标:衡量单位工具调用带来的正确率
提出OTC-PO框架:在RL中引入工具使用效率奖励,鼓励“最优工具调用”
实现两个变体:OTC-PPO 和 OTC-GRPO,适配不同RL算法
实验验证:在多个模型(Qwen-2.5/Math)和任务(搜索/代码)上,工具调用减少高达 68.3%,工具生产力提升高达 215.4%,准确率基本保持不变

⚙️ 四、方法详解

4.1 任务定义

  • 给定问题 ( q ),模型可选择是否调用工具
  • 目标是:正确回答 + 最小工具调用次数
  • 定义轨迹 ( \tau ) 包含:推理内容、工具调用、返回结果

4.2 奖励设计(核心创新)

传统奖励只考虑:

r = 1 if answer correct else 0

OTC-PO 提出:

r_new = α * r_tool * r_correct
  • r_tool:根据工具调用次数与“最优次数”的偏差设计(cos/sin函数)
  • r_correct:答案是否正确
  • α:控制工具效率权重

✅ 只有答案正确时,r_tool才生效,避免“少调用但答错”的作弊行为


📊 五、实验结果

5.1 搜索任务(NQ、HotpotQA)

模型方法工具调用 ↓工具生产力 ↑准确率变化
Qwen-3BOTC-PPO↓41.9%↑51.3%基本不变
Qwen-7BOTC-PPO↓68.3%↑215.4%基本不变

5.2 代码任务(AIME、MATH)

模型方法工具调用 ↓工具生产力 ↑准确率变化
Qwen-Math-7BOTC-GRPO↓66.7%↑199.4%持平或略升

🔍 六、行为分析

6.1 工具使用行为

  • OTC模型更倾向于:
    • 内部推理解决问题(0次调用)
    • 或仅用1次高质量工具调用
  • 基线模型(如Search-R1)频繁调用工具,甚至重复搜索

6.2 案例对比(Fig.1)

问题Search-R1OTC-GRPO
两人是否都是歌剧作曲家?搜索3次0次搜索,直接推理回答

🧩 七、结论与展望

✅ 总结

  • 问题:模型过度依赖工具,抑制推理能力
  • 方法:OTC-PO 强化学习框架,奖励“正确+少工具”
  • 效果:显著减少工具调用,提升效率,准确率不降

🔮 未来方向

  • 拓展至更多工具类型(API、机器人等)
  • 引入动态工具预算或自适应策略
  • 探索更长程任务中的工具使用规划

ZeroSearch: Incentivize the Search Capability of LLMs without Searching.

🧠 ZEROSEARCH 脑图总览

1️⃣ 研究背景与动机
  • LLM 的知识是静态的 → 容易幻觉或信息过时
  • RAG(检索增强生成)是主流解决方案
    • 提示工程复杂
    • 监督微调(SFT)成本高
    • 实时搜索(如Google)效果好但:
      • API 成本高
      • 文档质量不可控 → 训练不稳定

2️⃣ 研究目标
  • ✅ 提出 ZEROSEARCH:在不调用真实搜索引擎的前提下,通过强化学习训练 LLM 的搜索能力
  • ✅ 降低成本,提升训练稳定性与可控性
  • ✅ 保持或超越真实搜索训练的效果

3️⃣ 方法结构
🔹 3.1 搜索模拟器(Search Simulator)
  • 用一个冻结的 LLM(如 Qwen-14B)模拟搜索引擎
  • 通过轻量监督微调(SFT)生成:
    • ✅ 有用文档(useful)
    • ❌ 噪声文档(noisy)
  • 控制文档质量只需修改 prompt 中的关键词(如“useful” vs “noisy”)
🔹 3.2 课程式 rollout(Curriculum Rollout)
  • 训练初期:生成高质量文档 → 学习基本格式与任务
  • 训练中后期:逐步增加噪声比例 → 提升推理与鲁棒性
  • 噪声概率公式控制:
    ( p_i = p_s + \frac{b^{i/m} - 1}{b - 1}(p_e - p_s) )
🔹 3.3 奖励设计
  • 使用 F1-score 作为奖励函数,避免 EM(Exact Match)导致的“答案堆砌”现象
  • 奖励公式:
    ( r = 2 \times \frac{IN}{PN + RN} )
🔹 3.4 强化学习训练
  • 支持多种 RL 算法:REINFORCE、PPO、GRPO
  • 对文档 token 应用 loss masking,避免对非策略输出部分进行梯度更新,提升稳定性

4️⃣ 实验结果
✅ 性能对比(vs 真实搜索引擎)
模型方法平均 EM 得分
Qwen-3BZEROSEARCH34.47
Qwen-3BSearch-R1(真实搜索)32.81
LLaMA-3BZEROSEARCH36.07
LLaMA-3BSearch-R134.21
  • ✅ ZEROSEARCH 在 7 个问答数据集上均优于真实搜索训练
  • ✅ 通用性强:适用于 Base 和 Instruct 模型
  • ✅ 可扩展性:模拟器越大(14B),效果越好,甚至超过 Google 搜索

5️⃣ 成本分析
方法API 成本GPU 成本总成本
Google 搜索$586.7$0$586.7
ZEROSEARCH(14B)$0~$70✅ 节省约 88%

6️⃣ 案例与行为分析
  • ✅ 模型学会多轮搜索、格式化输出
  • ✅ 能区分有用/噪声文档,提升推理能力
  • ✅ 在训练中逐步减少交互轮数,提升效率

7️⃣ 结论与局限
  • ✅ ZEROSEARCH 是一种高效、低成本、可扩展的替代方案
  • ⚠️ 仍需部署模拟器 LLM,带来一定 GPU 成本
  • 🔮 未来可拓展至更多工具类型、多模态搜索等任务

🧩 脑图可视化建议(可导入XMind/MindMaster)

ZEROSEARCH
├─ 背景
│  ├─ LLM 幻觉
│  ├─ RAG 局限
│  └─ 实时搜索问题(成本高、质量差)
├─ 目标
│  ├─ 不依赖真实搜索
│  ├─ 降低成本
│  └─ 提升搜索能力
├─ 方法
│  ├─ 搜索模拟器(SFT)
│  ├─ 课程式 rollout
│  ├─ F1 奖励设计
│  └─ RL 训练(REINFORCE/PPO/GRPO)
├─ 实验
│  ├─ 性能优于真实搜索
│  ├─ 跨模型通用
│  └─ 成本节省 88%
├─ 案例
│  ├─ 多轮搜索行为
│  └─ 文档质量区分
└─ 总结├─ 高效、低成本├─ 可扩展└─ 有基础设施需求

训练阶段:完全代替真实搜索 API

  • 不调用任何真实搜索引擎(如 Google、Bing)
  • 使用一个冻结的 LLM(如 Qwen-14B)作为“搜索引擎模拟器”
  • 它根据查询生成“文档”,可以是:
    • 有用文档(包含正确答案)
    • 噪声文档(干扰信息)
  • 通过课程学习逐步增加噪声,提升策略模型的鲁棒性

这样做的目的是:

  • 节省 API 成本(降低约 88%)
  • 避免文档质量不稳定带来的训练波动
  • 可控文档质量,提升训练效率和稳定性

⚠️ 推理阶段:仍可使用真实搜索 API

  • 最终评估或实际部署时,模型可以与真实搜索引擎交互
  • 实验中也表明:在模拟环境中训练出的模型,在真实搜索环境下表现更好或相当
  • 所以模拟器是为训练服务,而不是为最终用户体验服务

✅ 总结一句话:

搜索模拟器在训练阶段完全替代真实搜索 API,是“训练时的替代品”;在推理阶段可以选择是否使用真实搜索,是“部署时的可选项”。


如果你是在考虑是否可以用搜索模拟器彻底替代真实搜索API,答案是:

  • 在训练阶段:可以,且更便宜、更稳定
  • ⚠️ 在推理阶段:可以用,但是否替代取决于你对真实性和成本的需求

IKEA: Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent.

IKEA 算法的核心流程可以拆成 “训练前准备” → “强化学习训练” → “推理阶段” 三条主线。
下面用“一步一图”的方式给出 可直接落地的算法流程图,并附伪代码,方便你复现或改写。


🧩 一句话总览
IKEA 只做一件事:用 RL 让模型学会“先内后外”——能自己答的绝不去搜索,真不会才检索。


🔧 阶段 0 训练前准备(离线)

步骤输入输出关键代码/工具
0.1 探测知识边界原始 QA 对Qeasy / Qhard 标签3-shot CoT + 采样 5 次 ≥1 次对→easy
0.2 构造训练集Qeasy ∪ Qhard1:1 混合集过滤重复、平衡领域
0.3 准备环境维基 2018 + e5-base 检索器可调用 search() 的环境FlashRAG / LangChain 均可

🎯 阶段 1 强化学习训练(在线)
下图即 单条轨迹(rollout) 的完整流程,训练时并行跑 G=16 条轨迹再用 GRPO 更新。

               ┌-----------------------------┐│ 输入:问题 q                │└------------┬----------------┘▼┌-----------------------------┐│ 1 <THINK> 自评知识边界       │← prompt 模板强制输出└------------┬----------------┘▼置信?┌-----------------------------┐ 不确定?-----│ 2 <ANSWER> 直接答            │------------┐Yes└------------┬----------------┘ No          │▼                         ▼返回答案 a               ┌-----------------------------┐│ 3 <SEARCH> 生成查询词        │└------------┬----------------┘▼┌-----------------------------┐│ 4 检索 → <CONTEXT>docs       │└------------┬----------------┘▼┌-----------------------------┐│ 5 再<THINK>→<ANSWER>给出 a   │└------------┬----------------┘▼┌-----------------------------┐│ 6 奖励计算:R = rans + rkb   │└------------┬----------------┘▼┌-----------------------------┐│ 7 收集轨迹 τ1…τG           │└------------┬----------------┘▼┌-----------------------------┐│ 8 GRPO 更新策略 πθ          │└-----------------------------┘

关键公式

  • rans = 1(a == a_gold)
  • rkb =
    – 若答对:rkb+ · (1 − RT/RTmax)  # 越少检索越高
    – 若答错且 RT>0:rkb−      # 鼓励尝试
    – 若答错且 RT=0:0       # 无作为

🚀 阶段 2 推理阶段(部署)
与训练流程完全相同,只是 去掉随机探索 & 不再更新参数;检索次数上限可设得更宽松。


📜 极简伪代码(PyTorch 风格)

for epoch in range(120):batch = sample_balanced(Qeasy, Qhard, bsz=256)trajectories = []for q in batch:traj = []while not ended:think = model.generate(q, tag="<THINK>")if "I can answer" in think:ans = model.generate(q, tag="<ANSWER>")ended = Trueelse:query = model.generate(q, tag="<SEARCH>")docs = retrieve(query, topk=5)q = q + f"<CONTEXT>{docs}</CONTEXT>"traj.append(tokens)reward = compute_reward(traj, gold)trajectories.append(traj)# GRPO 更新advantages = group_normalize(trajectories)   # (ri - μ)/σloss = grpo_loss(trajectories, advantages)optimizer.step()

📌 复现要点清单

  1. Prompt 模板必须强制 <THINK>→(可选)<SEARCH><ANSWER> 顺序,否则解析失败。
  2. 检索器任意(e5/colBERT/BM25),但训练后不要换,否则知识边界漂移。
  3. rkb+ 与 rkb− 需网格搜索一小范围(论文用 0.6 / 0.05)。
  4. 训练步数不必多,120 步即可收敛(≈ 8×A100 × 12h)。

Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging.

当然可以!以下是对论文《Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging》的系统解析,帮助你快速抓住其核心思想、方法、创新点和实验结果。


🧠 一、研究背景与动机

✅ 问题背景:

  • LLM 的知识是静态的,面对复杂、模糊、多跳的问题时,容易出错或答不出来。
  • 传统 RAG(Retrieval-Augmented Generation)方法:
    • 检索是静态的(只在最开始搜一次)
    • 无法适应推理过程中的信息需求变化
    • 无法判断检索是否有用

✅ 研究动机:

如何让 LLM 像人类一样**“闻着信息的气味”**去主动、动态、高效地搜索?


🎯 二、研究目标与核心思想

✅ 提出 InForage 框架:

  • 将 LLM 的搜索行为建模为 “信息觅食(Information Foraging)”过程
  • 强化学习(RL) 训练模型,使其:
    • 自主决定何时搜索
    • 生成高质量子查询
    • 评估信息是否有用
    • 逐步逼近正确答案

🔬 三、方法结构详解

1️⃣ 信息觅食理论(IFT)建模

概念含义
信息气味(Information Scent)当前推理内容是否与目标相关
信息块(Information Patch)每次检索到的文档集合
觅食路径(Foraging Path)一系列搜索-推理-整合的步骤

目标:以最少搜索步骤,覆盖最多的必要信息,最终答对问题


2️⃣ InForage 框架流程

<think> → <search> → <info> → <think> → ... → <answer>
  • :推理并决定是否搜索
  • :生成子查询
  • :获取检索结果
  • :最终答案

3️⃣ 奖励函数设计(核心创新)

总奖励:

R = R_{outcome} + α \cdot R_{gain} - β \cdot R_{efficiency}
奖励项作用
R_outcome答对给 1,答错给 0
R_gain每次检索后,模型对正确答案的置信度提升量(信息增益)
R_efficiency搜索次数越多,惩罚越大(鼓励简洁)

✅ 这是首次在搜索增强推理中显式奖励中间检索质量


📊 四、实验结果(重点)

✅ 主实验(表1)

方法EM(↑)特点
Search-R1-GRPO35.6当前最强 RL 搜索方法
InForage(3B)41.0提升 5.4 分
检索次数更少平均减少 30~50%
  • 8 个数据集上全面领先(NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA、自构 WebQA)
  • 尤其在 多跳推理任务上表现突出(如 2Wiki、Musique)

🧪 五、数据集构建(亮点)

✅ 自构“人类搜索轨迹”数据集:

  • 人工标注:500 条真实网页搜索轨迹(含点击、查询、推理)
  • GPT-4o 自动生成:扩展为 20,000 条复杂 QA 对
  • 多跳推理:每条问题需 ≥4 个信息点联合推理
  • 实时网页:全部来自 2025 年 1~3 月新网页,防止模型“背答案”

✅ 这是首个带有中间搜索-推理标签的大规模复杂 QA 数据集!


🔍 六、消融实验(验证有效性)

消融项结果
去掉信息增益奖励性能下降 2~3 分,检索次数↑
去掉效率惩罚检索冗余↑,答案变长
去掉 SFT 预训练RL 训练不稳定,收敛慢
换成 GRPO性能略低于 PPO
换成 7B 模型性能进一步提升,验证可扩展性

✅ 七、总结一句话

InForage 首次将“信息觅食”理论引入 LLM 搜索推理,用 RL 显式奖励中间检索质量,使模型能像人类一样“闻着信息气味”主动搜索,在复杂问答任务中实现更高准确率、更少检索次数、更强泛化能力。


🧩 八、可视化脑图(文字版)

InForage
├─ 背景
│  ├─ RAG 检索静态、单一
│  ├─ 复杂任务需多跳、动态搜索
│  └─ 人类擅长“信息觅食”
├─ 方法
│  ├─ 信息气味 → 子查询
│  ├─ 三奖励:结果+增益+效率
│  ├─ 两阶段:SFT → PPO
│  └─ 数据:人工+自动 20k 轨迹
├─ 实验
│  ├─ 8 数据集全面领先
│  ├─ 检索次数↓30~50%
│  └─ 多跳任务尤其强
└─ 意义├─ 理论:首套 IFT-RL 框架├─ 数据:首个中间标签 QA└─ 实用:更小模型更强搜索

R_gain(Information Gain Reward)是 InForage 的核心创新之一,它量化每一次检索对“最终答对”到底帮了多少忙,而不是只看最后对不对。


🔍 一、直观理解

每一次检索后,模型对正确答案的置信度提升越多,这次检索就越“香”,R_gain 就越高。


🧮 二、形式化定义(论文公式)

令:

  • D*:回答该问题所需的所有文档集合(Golden Evidence,人工标注)
  • Kt:第 t 次检索得到的文档集合
  • C(K<t>, D*):前 t 次检索累计覆盖了多少 D* 中的文档(比例)

则:

R_{gain} = \max_{t=1,...,T} C\left(\bigcup_{\tau=1}^{t} K_{\tau}, D^*\right)

🧪 三、实际计算步骤(可复现)

步骤操作工具/示例
1️⃣ 构建 D*人工标注必须引用的网页/段落如示例中 4 条 URL
2️⃣ 每次检索 Kt模型生成子查询 → 召回 Top-5 文档用 BGE-M3 或 E5
3️⃣ 计算覆盖 C统计 KtD*交集占比简单 Jaccard 或命中数/
4️⃣ 取轨迹最大值整条推理路径里最好的覆盖值作为 R_gain0 ~ 1 之间

📌 四、举个具体例子

问题
“Which university is the highest-rated 2026 recruit in the West committed to?”
Golden D*:3 条网页 → {superwest-tracker.com, 247sports.com/recruit, university-of-oregon.edu}

检索轮召回文档新增命中累计覆盖 C
1superwest-tracker.com11/3 = 0.33
2247sports.com/recruit12/3 = 0.67
3espn.com(未命中)00.67
4university-of-oregon.edu13/3 = 1.0

→ 该轨迹 R_gain = max{0.33, 0.67, 0.67, 1.0} = 1.0


✅ 五、一句话总结

R_gain 就是:整条推理过程中,检索结果对“标准证据”的最大覆盖比例——它让模型“每一次搜索都有意义”,而不再只看最后对错。


AutoRefine: Search and Refine During Think.

以下对论文《Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning》进行结构化梳理,帮助你在 10 分钟内抓住核心思想、方法、结果与可复现要点。


🧠 一句话总结

AutoRefine 在“搜索过程中”显式插入 步骤,用 RL 同时奖励「答对」和「提炼对」,让 3B 小模型在多跳 QA 上 >6% 超越 Search-R1,检索更少、答案更准。


🎯 研究动机(Why)

现有 “search-during-think” 痛点AutoRefine 解决思路
① 直接把原始文档塞进上下文 → 噪声多、易分心插入 步骤,显式蒸馏关键句
② 只用最终答案奖励 → 检索质量无监督新增 retrieval-specific reward提炼内容覆盖 GT 就给分

🔬 方法核心(What & How)

1. 搜索-提炼-思考 模板(新范式)

每条轨迹由模型自动生成,循环下列 5 类 token:

<think> → <search>query</search> → <documents>…</documents>
→ <refine> distilled sentence </refine> → … → <answer>final</answer>
  • 必须出现:用自然语言总结/抽取与问题相关的原子事实
  • 提炼内容仅 100-200 token,≈4× 短于原始文档,降低后续噪声

2. 双信号奖励(核心创新)

奖励计算方式目的
Answer RewardF1(answer, GT)保证最终正确
Retrieval Reward1{GT ⊆ refined_text}强制提炼“全对”信息
Overall答对→1;仅提炼对→0.1;全错→0非线性组合,避免中间行为喧宾夺主

3. 训练策略

  • SFT 冷启动:先用 169k NQ+HotpotQA 生成轨迹,2 epoch
  • GRPO 强化:5 条 rollout/样本,200 steps,lr=1e-6,β_KL=0.001
  • Mask 技巧: token 不计 loss,防止“学抄”检索文本

📊 主要结果(RQ 一览)

数据集Search-R1-BaseAutoRefine-BaseΔ
HotpotQA29.740.5+10.8
2Wiki27.439.3+11.9
Musique6.615.7+9.1
7 集平均31.240.5+9.3(↑29%)
  • 检索次数:多跳场景下≈2.2 次/题,与 Search-R1 持平但成功率>50%(+10%)
  • 提炼长度:≈150 token,4× 压缩原始文档,保留 95% 关键信息

🔍 关键消融(Ablation)

变体平均 EM说明
完整 AutoRefine40.5-
去掉 Retrieval Reward37.6-2.9 → 提炼质量下降
再去掉 模块31.2-9.3 → 回到 Search-R1 水平

步骤与检索奖励缺一不可


🛠 可复现要点

项目配置
基座模型Qwen2.5-3B / 7B(Base & Instruct)
检索器E5-base-v2,Top-3,512 token/次
知识源2018-12 Wikipedia(FlashRAG)
最大搜索次数5
RL 框架VeRL + GRPO,200 steps,8×A100-80G
关键超参lr=1e-6, β=0.001, clip=

GT ⊆ refined_text}这个是什么意思
GT ⊆ refined_text 是一个集合包含符号,读作:

“ground-truth 信息是提炼句 refined_text 的子集”。

在 AutoRefine 的强化学习奖励里,它是一条0/1 判定规则

  1. 把标准答案拆成若干原子事实(可看成集合 GT)。
  2. 用同样方式把模型在 <refine> 里写下的 distilled sentence 拆成原子事实(集合 refined_text)。
  3. 只有当GT 的每一条原子事实都出现在 refined_text 中时,才认为 GT ⊆ refined_text 成立,给 retrieval reward = 1;否则为 0。

换句话说,它要求模型在精炼步骤必须“一句不漏”地把能推出答案的关键证据全部保留,而不是只保留部分或写一些无关内容。这样就能强制模型学会“去噪+全覆盖”的双重能力。


O^2-Searcher: A Searching-based Agent Model for Open-Domain Open-Ended Question Answering.

O²-Searcher 的奖励函数设计是其核心创新之一,目标是引导模型同时处理开放性和封闭性问题,并根据问题类型自适应调整输出策略。


🎯 一、总体思路

  • 封闭性问题:答案唯一,奖励聚焦在准确性格式正确性
  • 开放性问题:答案多样,奖励需考虑:
    • 格式规范(Markdown 列表)
    • 内容多样性(避免重复)
    • 事实正确性(与参考答案匹配)

🧮 二、奖励函数结构

✅ 1. 封闭性问题奖励(Closed-ended)

[
r_c =
\begin{cases}
1, & \text{若格式正确且 } a_{pred} = a_{gt} \
0, & \text{否则}
\end{cases}
]

  • a_pred:模型生成的答案
  • a_gt:标准答案
  • 格式要求:答案必须包含在 <answer> 标签中
  • 匹配方式:不区分大小写精确匹配

✅ 2. 开放性问题奖励(Open-ended)

由三部分加权组成:

[
r_o = \gamma_0 \cdot r_{o,fm} + \gamma_1 \cdot r_{o,div} + \gamma_2 \cdot r_{o,f1}
]

(1)格式奖励(Format Reward)( r_{o,fm} )

鼓励:

  • 使用 Markdown 列表格式
  • 列表项不重复
  • 格式正确

[
r_{o,fm} = \alpha_0 \cdot \frac{n_{val}}{n_{tot}} + \alpha_1 \cdot [1 - s(a_{pred})]^\delta - \alpha_2 \cdot \frac{n_{dup}}{n_{tot}}
]

  • ( n_{tot} ):总条目数
  • ( n_{val} ):格式正确的条目数
  • ( n_{dup} ):重复条目数
  • ( s(a_{pred}) ):条目间语义相似度(越低越好)
  • ( \alpha_0, \alpha_1, \alpha_2, \delta ):超参(如 ( \alpha_0 = 0.5, \alpha_1 = 0.5, \alpha_2 = 3, \delta = 1.5 ))

(2)多样性奖励(Diversity Reward)( r_{o,div} )

鼓励生成语义多样化的搜索查询

[
r_{o,div} = \left( \frac{1}{n_q} \sum_{i=1}^{n_q} \frac{1}{n_q - 1} \sum_{j \neq i} (1 - \cos(\psi(q_i), \psi(q_j))) \right) \cdot \omega(n_q)
]

  • ( \psi(q_i) ):查询 ( q_i ) 的嵌入向量
  • ( \cos(\cdot) ):余弦相似度
  • ( \omega(n_q) ):查询数量惩罚项,避免太多或太少

(3)事实性奖励(Factual Reward)( r_{o,f1} )

衡量生成答案与参考答案的语义匹配度

  • 使用嵌入模型将答案条目编码为向量
  • 计算生成与参考条目间的余弦相似度
  • 使用 匈牙利算法 做最优匹配
  • 过滤低相似度匹配(阈值 ( s_\theta = 0.75 ))
  • 最终计算 Precision、Recall、F1 分数

[
r_{o,f1} = 2 \cdot \frac{p \cdot r}{p + r}
]


🧩 三、奖励函数设计总结表

问题类型奖励组成目标
封闭性准确性 + 格式答对且格式正确
开放性格式 + 多样性 + 事实性结构清晰、内容多样、真实可靠

🧠 四、设计亮点

  • 多目标优化:格式、内容、语义全覆盖。
  • 可解释性强:每个奖励项都可追踪。
  • 训练稳定:避免单一奖励(如 F1)导致训练震荡。
  • 自适应:模型能自动识别问题类型并调整策略。

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability.

这篇文章提出了一个名为 MASKSEARCH 的新型预训练框架,旨在增强大模型(LLMs)在 智能体搜索(agentic search) 场景下的通用检索与推理能力,特别是在 开放域多跳问答(open-domain multi-hop QA) 任务中表现突出。


🧠 一、研究背景与动机

  • RALMs(Retrieval-Augmented Language Models) 通过检索外部知识增强生成能力,但检索与生成模块通常是分离的,限制了模型的主动性和适应性。
  • 智能体搜索(Agentic Search) 允许模型主动调用搜索工具进行多步推理,但现有方法多依赖任务特定数据,泛化能力弱。
  • 目标:提出一种通用的预训练任务,使模型在预训练阶段就具备搜索、推理、工具使用等能力,从而更好地适应下游任务。

🧩 二、核心贡献

  1. 提出 RAMP 预训练任务(Retrieval-Augmented Mask Prediction)

    • 模型需通过搜索工具填补文本中被遮蔽的关键信息(如实体、时间、术语等)。
    • 培养模型的问题分解、搜索调用、结果观察与推理能力。
  2. 两阶段训练框架

    • 阶段一(预训练):基于 RAMP 任务进行 SFT 或 RL 训练。
    • 阶段二(下游任务):在问答数据集(如 HotpotQA)上微调,提升任务表现。
  3. 高质量数据生成机制

    • Agent-based Startup:使用多智能体系统(Planner、Rewriter、Observer)生成初始 CoT 数据。
    • Self-Evolve Distillation:用已训练模型作为教师,迭代生成更高质量的数据集(最终构建 10M 条数据)。
  4. 强化学习优化

    • 采用 DAPO(Dynamic Sampling Policy Optimization)算法。
    • 奖励设计包括:
      • 格式奖励:是否遵循推理和回答格式。
      • 答案奖励:基于 Token-level Recall、Penalty、或 Model-based 判断答案正确性。
  5. 课程学习策略(Curriculum Learning)

    • 从少 mask 到多 mask 逐步增加任务难度,提升模型学习效率与鲁棒性。

🧪 三、实验结果

✅ 1. 多数据集评估(如 HotpotQA、FanoutQA、Musique 等)

模型规模方法平均 Recall
1.5BMASKSEARCH(RL+RL)65.34
3BMASKSEARCH(RL+RL)69.37
7BMASKSEARCH(RL+RL)71.01
  • 在所有模型规模上,MASKSEARCH 均显著优于:
    • RAG-PE(传统检索增强)
    • Agent-PE(提示工程)
    • Search-R1(单阶段 RL)

✅ 2. 消融实验与策略对比

  • PPL-based Masking:提升部分数据集表现,但过难样本可能降低效果。
  • 课程学习:在多 mask 场景下优于混合训练,提升泛化能力。
  • RL vs SFT:RL 在预训练中带来更高上限,尤其适用于复杂推理任务。

🧭 四、方法结构图(简化)

原始文本(含 mask) → 模型推理 → 搜索工具调用 → 搜索结果 → 填补 mask → 输出答案
  • 模型需自主决定:
    • 是否搜索
    • 搜索什么
    • 如何利用搜索结果推理
    • 何时给出答案

⚠️ 五、局限性与未来方向

局限性说明
工具单一当前仅使用搜索工具,未来可扩展至 API、数据库等
理论分析不足方法有效但缺乏深入理论解释
数据多样性自演化数据可能缺乏多样性,影响大模型效果上限

📌 六、总结

MASKSEARCH 通过引入 RAMP 预训练任务,让模型在预训练阶段就具备 搜索、推理、工具使用 等能力,显著提升了在开放域问答任务中的表现。其两阶段训练、数据自演化、RL 优化与课程学习等机制,为构建 通用智能体搜索系统 提供了新范式。


VRAG-RL: Vision-Perception-Based RAG for Visually Rich Information Understanding

这篇文章提出了 VRAG-RL,一个专为 视觉丰富信息理解与推理 设计的强化学习(RL)框架,用于提升视觉-语言模型(VLMs)在 检索增强生成(RAG) 任务中的表现,特别适用于多跳问答、图表理解、文档视觉问答等复杂场景。


🧠 一、研究背景与问题

  • 传统 RAG 的局限
    • 文本 RAG 无法处理图像、图表等视觉信息。
    • 视觉 RAG 多为固定流程,缺乏动态推理能力。
  • 现有方法的问题
    • 图像仅作为上下文输入,未激活视觉感知能力。
    • 搜索查询表达能力弱,检索质量低。
    • 多轮推理不稳定,训练过程容易失效。

🧩 二、核心贡献

✅ 1. 提出 VRAG-RL 框架

  • 首个专为 视觉丰富信息 RAG 设计的 强化学习框架
  • 支持 多轮迭代推理,模型可主动调用搜索工具并处理图像。

✅ 2. 视觉感知动作空间(Visual Perception Action Space)

  • 模型可输出 <region> 标签,选择图像中的感兴趣区域进行裁剪、缩放、重编码。
  • 实现从 粗粒度到细粒度 的视觉信息提取,提升感知效率与精度。

✅ 3. 多维度奖励机制(Fine-Grained Reward)

奖励函数由三部分组成:

奖励类型作用
检索效率奖励(rRet)基于 NDCG 评估检索图像的相关性与顺序
模型答案奖励(rAns)使用大模型(如 Qwen2.5-7B)评估生成答案是否正确
模式一致性奖励(rPat)保证模型遵循 <think><search><answer> 等动作格式

最终奖励:
[
r_\phi = \alpha \cdot r_{Ret} + \beta \cdot r_{Ans} + \gamma \cdot r_{Pat}
]

✅ 4. 强化学习训练策略

  • 使用 GRPO(Group Relative Policy Optimization) 算法。
  • 支持 多轮交互采样,每条轨迹包含思考、搜索、感知、回答等步骤。
  • 引入 KL 散度约束,防止模型偏离原始能力。

🧪 三、实验结果

📊 1. 数据集与任务

数据集类型特点
SlideVQA幻灯片问答多图、多跳推理
ViDoSeek文档视觉问答大图集合、跨图推理
MMLongBench长文档理解含图表、表格、布局等视觉元素

📈 2. 性能对比(Recall 或 Accuracy)

模型方法SlideVQAViDoSeekMMLongBench平均
Qwen2.5-VL-3BSearch-R1-VL21.314.111.215.5
VRAG-RL53.538.619.537.2
Qwen2.5-VL-7BSearch-R1-VL37.422.220.926.8
VRAG-RL57.143.121.240.5
  • VRAG-RL 提升 20%~30%,尤其在推理型任务中表现突出。
  • 视觉感知动作空间 在图表、布局类任务中提升显著。

🔍 四、关键模块消融实验

模块移除后性能下降说明
视觉感知动作空间↓ 2.2~5.8 分裁剪/缩放能聚焦高密度信息区
检索效率奖励↓ 3~5 分鼓励早检索、少噪声,提升上下文质量
模型答案奖励↓ 明显避免召回式奖励的“刷分”行为

🧭 五、案例分析与可解释性

  • 案例 1:模型通过裁剪表格区域,提取 Dugwells 与 Shallow Tubewells 的数量,完成数值比较。
  • 案例 2:识别图像中药代动力学图表,判断 Famotidine 生物利用度低于 Cimetidine。
  • 展现出 人类般的反思与感知策略,而非机械复述训练模式。

⚠️ 六、局限与未来方向

局限性未来方向
当前仅支持搜索 + 视觉感知引入更多工具(API、数据库、计算器等)
模型裁剪动作可能出错引入更精细的 grounding 模型或人工校验
多轮交互增加延迟优化策略减少无效搜索,提升效率

📌 七、总结一句话

VRAG-RL 是第一个将 视觉感知动作空间强化学习 结合用于 视觉 RAG 的框架,显著提升了模型在复杂视觉文档中的 检索、感知与推理能力,为构建 真正的多模态智能体 提供了新范式。


R1-Code-Interpreter: Training LLMs to Reason with Code via SFT and RL.

这篇文章提出了 R1-Code-Interpreter,一个通过 监督微调(SFT)强化学习(RL) 训练的大语言模型框架,使模型能够 自主决定在推理过程中何时使用代码解释器(Code Interpreter),从而提升在复杂推理和规划任务中的准确性和效率。


🧠 一、研究背景与动机

  • 文本推理的局限:大模型在文本推理方面表现优秀,但在需要精确计算、符号操作、算法推理等任务上表现不佳。
  • 代码解释器的优势:通过生成并执行代码,可以显著提升模型在数学、逻辑、规划等任务上的表现。
  • 关键挑战
    • 如何让模型 自主判断何时使用代码
    • 如何 训练模型有效集成代码解释器
    • 如何 泛化到多种任务类型

🧩 二、核心贡献

✅ 1. 提出 R1-Code-Interpreter 框架

  • 首个开源的、通用目的的 Code Interpreter 训练框架
  • 支持 多轮文本+代码交互,模型可自主决定何时调用代码解释器。
  • 训练后的模型(R1-CI-14B)在 37 个测试任务上平均准确率从 44.0% 提升至 64.1%,超过 GPT-4o(文本版 58.6%),接近 GPT-4o + Code Interpreter(70.9%)。

✅ 2. 构建大规模任务基准

  • 汇总 144 个推理与规划任务(107 训练,37 测试),每个任务包含 200+ 样本。
  • 覆盖数学、逻辑、空间、优化、搜索等多种能力类型。
  • 所有任务统一格式,支持自动化评估。

✅ 3. 训练流程:SFT + RL(GRPO)

阶段方法内容
SFT多轮轨迹合成使用 GPT-4o 生成 6.5k 条文本+代码交替的正确轨迹
RLGRPO 优化使用 Group Relative Policy Optimization 强化学习,基于结果奖励优化策略

✅ 4. 关键发现与训练策略对比

策略结论
模型选择使用通用模型(如 Qwen2.5)优于专门推理模型(如 DeepSeek-R1),后者会削弱代码能力
冷启动 vs 热启动热启动(先 SFT 再 RL)显著优于冷启动(直接 RL)
GRPO vs PPOGRPO 在多任务训练中更稳定、更高效
代码输出掩码在 RL 中掩码代码执行结果,避免模型学习预测输出,提升稳定性
代码使用比例训练后模型更智能地选择是否使用代码,而非滥用

🧪 三、实验结果

📊 1. 总体性能(测试任务平均成功率)

方法平均成功率
GPT-4o(文本)58.6%
R1-CI-14B64.1%
GPT-4o + Code Interpreter70.9%
  • 在所有模型规模(3B/7B/14B)上均显著提升。
  • 在多个任务类型(数学、逻辑、空间、优化等)中表现均衡。

📈 2. 训练曲线与行为分析

  • 训练奖励曲线:初期波动大,后期趋于稳定。
  • 响应长度:未显著增长,说明模型更高效。
  • 代码使用比例:训练后更均衡,避免过度依赖代码。
  • 自检查行为涌现:模型会主动生成验证代码,提升答案可靠性。

⚠️ 四、局限性与未来方向

局限性说明
训练成本高14B 模型训练需约 1600 GPU 小时,代码执行开销大
任务多样性挑战任务越多样,RL 提升越有限,需更强基础模型
适用范围有限当前聚焦于推理与规划,未覆盖绘图、软件开发等任务

📌 五、总结一句话

R1-Code-Interpreter 是第一个通过 SFT + RL 训练的大模型框架,使模型能 自主决定何时使用代码解释器 进行推理,在 广泛任务类型 上显著超越传统文本推理模型,为构建 可执行、可验证、可泛化 的智能推理系统提供了新路径。


R1-Code-Interpreter 中,奖励函数的设计是整个强化学习训练过程的核心。它决定了模型在训练过程中如何评估其行为(即是否正确地使用了推理和代码),并指导其策略优化。


🎯 一、奖励构建目标

  • 鼓励模型正确完成任务(即最终答案正确)
  • 不强制格式或中间步骤,保持模型自然推理能力
  • 避免奖励作弊(reward hacking),如刷格式、刷中间输出
  • 仅基于结果正确性,不依赖神经奖励模型或过程监督

🧮 二、奖励函数设计

✅ 1. 奖励类型:基于结果的规则奖励(Rule-based Outcome Reward)

R1-Code-Interpreter 使用 纯结果导向的奖励机制,即:

只有当模型生成的最终答案 完全正确 时,给予奖励 1;否则奖励为 0。

[
r = \begin{cases}
1, & \text{最终答案正确} \
0, & \text{否则}
\end{cases}
]


✅ 2. 正确性判断方式(因任务类型而异)

任务类型正确性判断方式
数学计算题数值是否等于标准答案
逻辑推理题是否匹配标准答案(如 True/False、字符串)
规划类任务(如 Blocksworld)是否满足所有约束和目标状态
编程类任务是否输出正确结果(通过执行验证)

所有任务的答案都通过 自动化规则代码执行结果 进行验证,无需人工标注。


✅ 3. 奖励计算时机

  • 在每一轮完整的“推理+代码执行”轨迹结束后,计算一次奖励。
  • 奖励仅与 最终答案 相关,不评估中间推理或代码片段
  • 中间代码执行结果仅作为上下文输入,不参与奖励计算。

🧠 三、为什么选择这种奖励设计?

优点说明
✅ 简单鲁棒避免复杂奖励模型带来的误差和不稳定性
✅ 防作弊不奖励格式、长度、中间输出,防止模型“刷分”
✅ 通用性强适用于多种任务类型(数学、逻辑、规划等)
✅ 与真实目标一致直接优化任务成功率,符合最终应用需求

⚠️ 四、未采用的奖励设计(有意避免)

方法原因
格式奖励模型已能自然遵循格式,强制格式会限制灵活性
过程奖励中间步骤难以自动评估,容易引入噪声
神经奖励模型训练成本高,容易过拟合或奖励作弊
BLEU/ROUGE 等文本相似度不适用于结构化答案或代码输出

📌 五、总结一句话

R1-Code-Interpreter 的奖励函数采用“结果导向”的规则奖励:只有最终答案正确才得 1 分,其余为 0。这种设计简单、鲁棒、防作弊,直接优化模型在多样化任务上的实际表现。


R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning.

这篇文章是:

《R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning》
作者:Qingfei Zhao 等
机构:中国科学院信息工程研究所、北京师范大学
发布时间:2025年6月4日(arXiv)


🧭 一、研究背景与问题

  • 大模型(LLMs) 在多步推理中表现良好,但在复杂逻辑和知识密集型任务中仍面临挑战:

    • 容易生成幻觉(hallucination);
    • 难以动态判断何时该搜索、何时该推理
    • 现有 RAG 方法多为模块化设计,推理与搜索耦合浅,导致交互轨迹次优。
  • 多轮 RAG 方法虽支持迭代检索,但:

    • 检索时机依赖模型内部判断,不一定准确
    • 搜索与推理交互浅,无法深度融合外部知识。

🧩 二、核心贡献

贡献点内容
1. 提出 R-Search 框架首个基于 强化学习(RL) 的 RAG 框架,联合优化推理-搜索交互轨迹,支持token级触发搜索全局证据整合
2. 多奖励机制设计 三维度奖励
- 答案奖励(F1)
- 证据奖励(跨模型验证)
- 格式奖励(结构合规)
3. 模块化工具 RSTool将推理过程中生成的 高质量证据 封装为可复用模块,支持本地部署跨模型迁移
4. 实验验证7 个数据集(4 多跳 + 3 单跳) 上,最高提升 32.2%(内域)/ 25.1%(外域),优于所有 RAG 和 RL 基线。

⚙️ 三、方法结构

1. 框架流程(Rollout)

阶段内容
推理模型生成 CoT,可在任意 token 处触发搜索(query)
搜索检索 top-k 文档,包装为 插入推理链
证据整合模型从所有观测中提炼出 <original_evidence>,用于全局判断
答案生成基于证据生成最终答案

2. 多奖励设计(Multi-Reward)

奖励类型公式说明
答案奖励( r^\alpha_\phi = \text{F1}(\alpha_{\text{pred}}, \alpha_{\text{gold}}) )衡量最终答案准确性
证据奖励( r^e_\phi = \text{F1}(\alpha_{\text{cf}}, \alpha_{\text{gold}}) )用**跨模型(Llama-3.2)**验证证据质量,减少偏见
格式奖励( r^f_\phi \in {0, \gamma_e, \gamma_a, \gamma_e + \gamma_a} )保证证据与答案格式正确

总奖励:
[
r_\phi = r^\alpha_\phi + r^e_\phi + r^f_\phi
]


3. 训练策略

  • 掩码策略:搜索返回的文档不参与梯度更新,避免噪声;
  • 非掩码证据:证据部分参与训练,强化模型对知识的理解与整合;
  • RL 算法:使用 GRPO(Group Relative Policy Optimization),无需价值网络,稳定性优于 PPO。

📊 四、实验结果

✅ 主实验(7 数据集平均 F1)

方法多跳平均单跳平均总平均
Vanilla RAG24.449.135.0
Search-R1(RL基线)48.046.547.3
R-Search(GRPO)47.947.247.6(3B)
R-Search(GRPO)54.652.153.6(7B)
  • 最高提升:MuSiQue 数据集上 +5.6% 超越 Search-R1;
  • 跨模型迁移:RSTool + GLM-4-Plus 在 2WikiMQA 上 +20% 提升。

🔍 五、关键发现

发现说明
证据机制至关重要去除证据后,MuSiQue 下降 2.8%,2WikiMQA 下降 6.1%
GRPO > PPOGRPO 收敛更快、奖励更高,尤其在大模型上优势明显
搜索次数增加训练后模型触发更多搜索,形成更深层次的交互
证据可迁移RSTool 可复用于其他模型,降低 API 成本,提升本地部署效率

⚠️ 六、局限与未来方向

局限未来方向
仅使用 2WikiMQA 训练,数据单一引入多领域高质量训练数据
训练成本高(8×A100)探索高效 RL 方法(如 LoRA、蒸馏)
未覆盖图像、表格等多模态拓展至多模态推理-检索任务

✅ 总结一句话

R-Search 通过 token级搜索触发 + 多奖励RL训练 + 可迁移证据模块,首次实现了推理与搜索的深度耦合,在复杂问答任务中显著超越现有 RAG 和 RL 方法,为可解释、可迁移的推理-检索系统提供了新范式。


StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization.

这篇文章是:

《StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization》
作者:Ziliang Wang 等
机构:SenseTime、南京大学、深圳大学
发布时间:2025年5月26日(arXiv)


🧭 一、研究背景与问题

  • 大模型(LLMs) 在多跳推理(multi-hop reasoning)中表现不足,尤其在需要主动搜索外部知识时。
  • 现有方法如 RAG(Retrieval-Augmented Generation)Chain-of-Thought(CoT) 存在以下问题:
    • 对外部知识依赖强,但搜索过程静态、粗糙;
    • 强化学习(RL)方法如 PPO、GRPO 仅使用全局奖励(如最终答案是否正确),缺乏中间搜索步骤的监督
    • 搜索行为缺乏细粒度反馈,导致模型在多跳问答中表现不佳。

🧩 二、核心贡献

贡献点内容
1. StepSearch 框架提出基于 逐步强化学习(Step-wise PPO) 的训练框架,引入中间搜索步骤的奖励机制
2. 双奖励机制设计两种奖励:
Type 1:全局奖励(答案正确性 + 搜索关键词匹配)
Type 2:步骤奖励(信息增益 - 冗余惩罚)
3. 数据管道基于 MuSiQue 数据集,构建了一个包含 子问题-搜索关键词-答案轨迹 的精细训练数据集(19k 条)。
4. 实验验证在 4 个多跳问答数据集(HotpotQA、MuSiQue、2Wiki、Bamboogle)上,3B/7B 模型均显著优于现有 RL+RAG 方法,最高提升 15.2%

⚙️ 三、方法详解

1. 数据构建流程(Data Pipeline)
  • 输入:MuSiQue 多跳问题
  • 步骤:
    1. 用 GPT-4o 将问题分解为多个子问题;
    2. 为每个子问题生成多个搜索查询;
    3. 用多个搜索引擎(Google/Bing/Wiki)验证查询有效性;
    4. 保留至少在一半引擎中返回有效结果的查询;
    5. 构建“子问题 → 搜索关键词 → 检索文档 → 子答案”的完整轨迹。
2. 训练框架:StepSearch(StePPO)
  • 基于 PPO,引入步骤级奖励
  • 每个搜索轮次包括:
    • <think>:推理
    • <search>:发出查询
    • <information>:返回文档(训练时mask,不参与梯度更新)
  • 奖励设计:
    • 信息增益(Information Gain):衡量本轮检索文档与标准答案的相似度提升;
    • 冗余惩罚(Redundancy Penalty):惩罚重复检索已看过的文档;
    • 搜索关键词奖励(Search Key Reward):衡量生成查询与标准关键词的匹配度;
    • 答案奖励(Answer Reward):基于 F1 分数评估最终答案正确性。

📊 四、实验结果

1. 主实验(4 个数据集)
模型HotpotQA F1MuSiQue F1Bamboogle F1
Search-R1(baseline)0.4010.1880.344
StepSearch(3B)0.4520.2730.419
StepSearch(7B)0.5020.3240.573
  • 仅用 19k 训练数据,超越使用 170k 数据的 Search-R1;
  • 在小模型(3B)上提升更明显,说明细粒度监督对小模型更有效
2. 消融实验(Ablation Study)
模块移除HotpotQA F1说明
无步骤奖励0.475明显下降
无信息增益0.468搜索质量下降
无冗余惩罚0.494出现重复搜索
无关键词奖励0.528收敛变慢

🧪 五、案例展示(Case Study)

  • 早期训练阶段:模型反复搜索相似关键词,浪费预算;
  • 后期训练阶段:模型能精准定位关键文档,避免冗余;
  • 仅使用关键词奖励:模型会“骗奖励”,伪造搜索格式或生成假答案,导致崩溃。

⚠️ 六、局限与未来工作

局限未来方向
仅支持文本问答拓展到多模态(图像、音频)
仅测试 3B/7B 模型探索14B/32B大模型下的稳定性
训练数据仅 19k探索更大规模数据下的表现
搜索行为有限引入更复杂的搜索策略(如跳转、多轮交互)

✅ 总结一句话

StepSearch 通过引入步骤级奖励机制(信息增益 + 冗余惩罚),让大模型在搜索过程中“步步有反馈”,显著提升多跳推理能力,尤其在小模型 + 少数据场景下表现突出。


步骤级别奖励(Step-wise Reward)在 StepSearch 中由两部分组成:

信息增益(Information Gain) 减去 冗余惩罚(Redundancy Penalty)


✅ 公式总览

rtstep=Gt−Ptr_t^{\text{step}} = G_t - P_trtstep=GtPt

其中:

  • ( G_t ):第 ( t ) 轮搜索的信息增益
  • ( P_t ):第 ( t ) 轮搜索的冗余惩罚

🔍 1. 信息增益 ( G_t )

目的:

衡量本轮检索文档对标准答案文档新增匹配程度

定义:

设有 ( n ) 个标准文档 ( {d_1^g, …, d_n^g} ),每个文档 ( d_i^g ) 对应一个子问题。

  • 令 ( m_t^i ):前 ( t-1 ) 轮中,检索文档与 ( d_i^g ) 的最大相似度
  • 令 ( c_t^i ):第 ( t ) 轮中,检索文档与 ( d_i^g ) 的最大相似度
  • 则第 ( t ) 轮对 ( d_i^g ) 的信息增益为:

Δti=max⁡(cti−mti,0) \Delta_t^i = \max(c_t^i - m_t^i, 0) Δti=max(ctimti,0)

  • 整体信息增益为:

Gt=1n∑i=1nΔti G_t = \frac{1}{n} \sum_{i=1}^n \Delta_t^i Gt=n1i=1nΔti

✅ 说明:只有当本轮检索文档比历史更好时,才计入增益,避免重复奖励。


🧹 2. 冗余惩罚 ( P_t )

目的:

惩罚重复检索已看过的文档

定义:
  • 设 ( H_{t-1} ):前 ( t-1 ) 轮已检索过的文档集合;
  • 第 ( t ) 轮检索文档集合为 ( D_t = {d_{t1}, …, d_{tk}} );
  • 则冗余惩罚为:

Pt=1k∑j=1k1(dtj∈Ht−1) P_t = \frac{1}{k} \sum_{j=1}^k \mathbb{1}(d_{tj} \in H_{t-1}) Pt=k1j=1k1(dtjHt1)

✅ 说明:每重复一个文档,惩罚增加 ( \frac{1}{k} ),鼓励探索新文档。


📌 总结公式

rtstep=1n∑i=1nmax⁡(max⁡d∈Dtsim(d,dig)−mti, 0)⏟信息增益 Gt−1k∑d∈Dt1(d∈Ht−1)⏟冗余惩罚 Pt \boxed{ r_t^{\text{step}} = \underbrace{\frac{1}{n} \sum_{i=1}^n \max\left(\max_{d \in D_t} \text{sim}(d, d_i^g) - m_t^i,\ 0\right)}_{\text{信息增益 } G_t} - \underbrace{\frac{1}{k} \sum_{d \in D_t} \mathbb{1}(d \in H_{t-1})}_{\text{冗余惩罚 } P_t} } rtstep=信息增益 Gtn1i=1nmax(dDtmaxsim(d,dig)mti, 0)冗余惩罚 Ptk1dDt1(dHt1)

SimpleTIR: Stable End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning.

这篇文章是:

《SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning》
作者:Zhenghai Xue 等
机构:南洋理工大学、TikTok
发布时间:2025年9月2日(arXiv)


🧭 一、研究背景与问题

  • 大模型(LLMs) 在数学推理等任务中表现受限,尤其在:

    • 数值计算精度
    • 多步逻辑推理
    • 知识截止时间限制
  • 工具集成推理(TIR):让模型调用外部工具(如 Python 解释器)进行多轮交互推理,显著提升推理能力。

  • 挑战

    • 多轮 TIR 在强化学习中极易出现训练不稳定梯度爆炸
    • 常见解决方案是冷启动监督微调(SFT),但这会限制模型探索新策略的能力;
    • **Zero RL(从零开始强化学习)**更具潜力,但多轮交互中极易崩溃。

🧩 二、核心贡献

贡献点内容
1. 识别不稳定的根本原因多轮 TIR 中,工具反馈(如代码执行结果)偏离模型预训练分布,导致模型生成低概率 token,进而引发梯度爆炸信用分配错误
2. 提出 SimpleTIR 框架一种** plug-and-play 的轨迹过滤方法**,通过识别并剔除包含 “void turn”(无效轮次)的轨迹,阻断有害梯度,稳定训练。
3. 显著性能提升在 Qwen2.5-7B 上,AIME24 得分从 22.1 → 50.5,超越所有 Zero RL 基线,接近或超过冷启动方法。
4. 保留多样化推理模式无需 SFT,模型自然涌现出交叉验证、渐进推理、错误修正等复杂策略。

⚙️ 三、方法详解

1. 问题诊断:低概率 Token 是罪魁祸首

  • 工具反馈(如代码结果)是 OOD(分布外)输入,模型在其基础上继续生成,容易输出低概率 token
  • 这些 token 在后续轮次中被喂回模型,加剧分布偏移
  • 最终导致:
    • 梯度爆炸(重要性采样比率爆炸)
    • 信用分配错误(终端奖励无法区分早期好推理与晚期坏生成)

2. SimpleTIR 解决方案:过滤“Void Turn”

  • Void Turn 定义:某一轮中模型既没有生成完整代码块,也没有给出最终答案(如空回复、重复文本、提前结束);
  • 策略:在策略更新前,剔除所有包含 void turn 的轨迹,避免其参与梯度计算;
  • 效果
    • 阻断低概率 token 的梯度传播;
    • 避免错误惩罚早期正确推理;
    • 训练曲线平滑,性能稳定提升。

3. 训练框架与细节

  • 基于 GRPO(Group Relative Policy Optimization)
  • 不依赖价值函数,避免 critic 不稳定;
  • 工具反馈 token 被掩码,不参与梯度计算;
  • 支持最多 10 轮交互,每轮最多 24K tokens;
  • **使用异步代码沙箱(Sandbox Fusion)**执行 Python 代码。

📊 四、实验结果

✅ 主实验结果(AIME24、MATH500 等)

模型AIME24MATH500说明
Qwen2.5-7B(文本)3.251.9基线
Qwen2.5-7B + SimpleTIR50.588.4✅ Zero RL,无 SFT
ReTool-7B(冷启动+RL)42.386.4有 SFT
ZeroTIR-7B39.680.2Zero RL,无过滤
  • SimpleTIR-7B 超越所有 Zero RL 方法,并接近或超过冷启动方法
  • SimpleTIR-32B 在 AIME24 上达到 59.9,为当前 Zero RL 设置下最强结果

🔍 五、消融实验与行为分析

方法AIME24说明
SimpleTIR50.5✅ 完整方法
Naive Multi-Turn20.8无过滤,训练崩溃
低概率 token 过滤23.3无法解决根本问题
高重要性比率过滤26.3同样无效
  • 仅 void turn 过滤有效,其他启发式方法无法稳定训练;
  • 推理行为涌现(无需 SFT):
    • 交叉验证(Cross Validation)
    • 渐进推理(Progressive Reasoning)
    • 错误修正循环(Error Correction Loop)

⚠️ 六、局限与未来方向

局限未来方向
Void turn 指标可能不适用于非 TIR 任务探索更通用的轨迹质量指标
最多 10 轮交互,可能不够支持更长的多轮交互
依赖高效代码沙箱构建更快、更轻量的执行环境
异步 rollout 与奖励计算尚未实现支持完全异步训练流程

✅ 总结一句话

SimpleTIR 通过识别并过滤“无效轮次”,首次实现了从零开始、稳定训练的多轮工具集成推理,在数学推理任务中取得突破性性能,并无需任何监督数据,为可扩展、自动演化的智能体训练开辟了新路径。


Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning.

这篇文章是:

《Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》
作者:Haozhen Zhang 等
机构:伊利诺伊大学厄本纳-香槟分校(UIUC)
发布时间:2025年6月18日(arXiv)


🧭 一、研究背景与问题

  • 大模型(LLMs)种类繁多,各自擅长不同任务(如推理、写作、数学、多语言等);
  • 现有 LLM 路由器(Router)多为单轮、一对一映射(即一个查询 → 一个模型),无法充分利用多个模型的互补能力;
  • 复杂任务(如多跳问答)需要多轮交互、模型协同,而非一次性选择;
  • 关键挑战
    • 多轮模型选择是非可微分的离散决策过程,无法直接用反向传播训练;
    • 如何在性能与成本之间做权衡
    • 如何泛化到未见过的新模型,无需重新训练。

🧩 二、核心贡献

贡献点内容
1. 提出 Router-R1 框架首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架。
2. LLM 即路由器路由器本身是一个具备推理能力的 LLM,可交替执行:
- <think>:内部推理
- <search>:调用外部模型
- <info>:整合返回结果
3. 多目标奖励设计设计轻量级规则奖励,包括:
- 格式奖励(结构化输出)
- 结果奖励(答案正确性)
- 成本奖励(模型调用开销)
4. 强泛化能力仅依赖模型描述(如价格、参数量、任务表现)即可零样本泛化到未见过的新模型。
5. 实验验证在 **7 个 QA 数据集(单跳 + 多跳)**上,超越 10+ 强基线,包括传统路由器、RAG、Search-R1 等。

⚙️ 三、方法结构

1. 框架流程(Multi-Round Routing)

阶段动作说明
思考<think>分析任务、判断是否需外部模型
路由<search>模型名:子问题</search>选择模型并发出子查询
整合<info>返回结果</info>将模型返回结果纳入上下文
回答<answer>最终答案</answer>输出最终答案

✅ 支持多轮交互,可多次调用不同模型,逐步 refine 答案。


2. 奖励函数设计(Rule-Based)

奖励类型公式/规则作用
格式奖励不符合结构 → -1;否则 → 0保证输出结构化
结果奖励( R_{\text{outcome}} = \text{EM}(y_{\text{pred}}, y_{\text{gt}}) )鼓励答对
成本奖励( R_{\text{cost}} \propto -m(P_{\text{LLM}}) \cdot T_{\text{out}} )惩罚高成本模型调用
总奖励( r = R_{\text{format}} + (1-\alpha)R_{\text{outcome}} + \alpha R_{\text{cost}} )可调性能-成本权衡

3. 泛化机制(Zero-Shot Generalization)

  • 不依赖模型 ID 或 embedding,仅使用文本描述(如参数量、价格、擅长任务);
  • 支持动态扩展模型池,只需在 prompt 中添加新模型描述;
  • 实验验证:加入 2 个未见过的新模型后,性能不降反升,体现强泛化能力。

📊 四、实验结果

✅ 主实验(Exact Match 平均分)

方法平均分说明
Direct / CoT / SFT~0.15–0.20仅依赖自身知识
RAG0.267静态检索
Search-R10.291多轮搜索
Prompt LLM0.329单轮路由
GraphRouter0.297图结构路由
Router-R1-Qwen0.416多轮推理+路由
Router-R1-Llama0.409换底座仍领先

🔍 成本分析(Cost-Aware Routing)

  • α = 0:性能优先,调用大模型最多;
  • α = 0.6:成本下降 50%,性能几乎不降;
  • α = 0.9:成本下降 90%,性能下降约 20%;
  • 结论:Router-R1 能自动学习“先小后大”的 escalation 策略,实现性能-成本帕累托前沿

🧪 泛化实验(Unseen Models)

方法加入新模型后性能变化
Prompt LLM几乎不变
GraphRouter略微下降
Router-R1上升 1–2 个点

✅ 说明:Router-R1 能通过描述推断新模型能力,并更有效地使用它们


⚠️ 五、局限与未来方向

局限未来方向
仅评估 QA 任务扩展到对话、代码、摘要等任务
规则奖励可能不够细引入人类反馈或学习式奖励
多轮交互增加延迟引入早期停止或并行路由
依赖模型描述质量结合模型行为嵌入或元学习

✅ 总结一句话

Router-R1 是首个将多轮 LLM 路由与聚合建模为序列决策过程的强化学习框架,通过LLM 自路由 + 多目标奖励 + 模型描述泛化,在复杂问答任务中实现性能与成本的动态平衡,为多模型协同推理系统提供了新范式。


SkyRL: A Modular Full-stack RL Library for LLMs.


ASearcher: Large-Scale RL for Search Agents.

这篇文章是《Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL》,作者来自清华大学、蚂蚁集团RL Lab和华盛顿大学,提出了一个名为 ASearcher 的开源项目,用于通过大规模异步强化学习(RL)训练具备“搜索智能”的AI智能体。


🧭 一、研究背景与问题

随着大模型(LLM)的发展,AI智能体在复杂任务中表现突出,尤其是通过调用外部工具(如搜索引擎)来增强知识获取能力。但目前的开源智能体在“搜索智能”方面仍存在明显短板:

  • 搜索策略简单,无法处理复杂、多跳、信息模糊的问题;
  • 现有RL方法限制搜索轮次(如≤10轮),无法学习长程策略;
  • 缺乏高质量、大规模、挑战性强的训练数据;
  • 训练效率低,长轨迹导致GPU空闲时间多。

🧩 二、核心贡献

1. ASearcher:一个开源的大规模RL训练框架

  • 支持完全异步的RL训练,解决长轨迹阻塞问题;
  • 支持长达128轮的搜索轨迹,突破传统10轮限制;
  • 训练过程中智能体可生成超过150k tokens,调用超过40次工具
  • 支持从基础模型(如Qwen2.5-7B/14B)或强推理模型(如QwQ-32B)开始训练。

2. 自动化数据合成智能体

  • 提出一个LLM驱动的数据合成智能体,从14k种子QA对中生成134k高质量QA对
  • 使用**Injection(注入事实)Fuzzing(模糊化)**两种策略提升问题难度;
  • 每道题经过多阶段质量验证,确保挑战性、可解性和唯一答案。

3. 端到端强化学习训练

  • 所有组件(思考、工具调用、摘要)都通过RL联合优化;
  • 使用GRPO算法稀疏奖励机制
  • 引入动态过滤机制,去除无意义样本,提升训练效率。

🧪 三、实验与结果

1. 评估基准

  • 单跳/多跳QA:Natural Questions、TriviaQA、HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
  • 复杂任务:GAIA、xBench-DeepSearch、Frames

2. 实验设置

  • 本地知识库(RAG)设置:使用维基百科2018数据集;
  • Web搜索设置:使用搜索引擎 + 浏览器工具;
  • 评估指标:F1分数、LLM-as-Judge(LasJ)、Avg@4、Pass@4

3. 主要结果

模型GAIA (Avg@4)xBench (Avg@4)Frames (Avg@4)
ASearcher-Web-QwQ52.842.170.9
其他SOTA模型47.640.367.0
  • 7B/14B模型中,ASearcher在多个基准上超越同级别甚至更大模型
  • QwQ-32B基础上微调后,ASearcher-Web-QwQ在GAIA等复杂任务上提升20%+
  • 训练后智能体展现出:
    • 不确定性感知推理
    • 精准信息提取
    • 跨文档推理
    • 基于证据的验证能力

🧠 四、案例研究(GAIA难题)

对比三种智能体在复杂问题上的表现:

模型问题分解信息提取错误验证结论
Search-R1-32B❌ 不会分解❌ 幻觉严重❌ 无法验证失败
Search-o1(QwQ)✅ 能找资料❌ 易漏信息❌ 无法纠错失败
ASearcher-Web-QwQ✅ 精准分解✅ 精准提取✅ 反复验证成功

🧱 五、训练动态观察

  • 7B模型:能学会搜索,但难以掌握网页摘要
  • 14B模型:逐渐学会浏览网页并提取关键信息
  • QwQ-32B模型:训练中工具调用次数逐步提升至40+,输出token数达150k+,展现出长程推理与搜索能力

✅ 六、总结

ASearcher通过:

  • 异步RL系统解决长轨迹训练效率问题;
  • 数据合成智能体构建高质量、挑战性QA数据;
  • 端到端RL训练激发模型搜索智能;
    在多个基准上超越现有开源模型,为构建具备专家级搜索能力的AI智能体提供了可扩展、可复现的完整方案。

ParallelSearch: Decompose Query and Search Sub-queries in Parallel with RL.

这篇文章《ParallelSearch: Train your LLMs to Decompose Query and Search Sub-queries in Parallel with Reinforcement Learning》提出了一种新的强化学习框架,用于训练大语言模型(LLM)在搜索任务中并行处理多个子查询,从而提升效率、减少LLM调用次数,同时保持甚至提升答案准确性。


🧭 一、研究背景与动机

尽管当前基于强化学习的搜索智能体(如 Search-R1)在多跳推理任务中表现良好,但它们普遍存在一个结构性瓶颈

所有搜索操作都是顺序执行的,即使某些子查询在逻辑上是独立的、可以并行处理。

例如问题:“Claude Monet 和 Camille Pissarro 谁更年长?”

  • 传统方法:先查 Monet 生日,再查 Pissarro 生日,两步顺序执行;
  • 本文方法:并行查询两人生日,一步到位。

这种顺序处理方式导致:

  • 响应延迟高
  • LLM调用次数多
  • 推理效率低

🧩 二、核心贡献

✅ 1. 提出 ParallelSearch 框架

  • 训练 LLM 识别可并行化的查询结构
  • 单轮推理中生成多个子查询
  • 并行执行搜索,并统一整合结果;
  • 通过强化学习优化模型的分解与搜索策略。

✅ 2. 多维度奖励函数设计(4个组成部分)

奖励类型作用
Outcome Reward答案是否正确(Exact Match)
Decomposition Reward是否对可分解问题进行了分解
Search Count Reward是否高效使用搜索(避免冗余)
Format Reward是否遵循推理-搜索-输出格式

✅ 3. 实验验证效果显著

  • 7个问答基准上平均提升 2.9%
  • 可并行问题上提升高达 12.7%
  • LLM调用次数减少 30.4%
  • 推理轮数减少(从平均 3~6 轮降至 2 轮以内);
  • 响应更简洁,部署成本更低。

🧪 三、实验设置与结果

📊 数据集

  • 通用问答:NQ、TriviaQA、PopQA
  • 多跳问答:HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
  • 并行子集:HotpotQA-par、2wiki-par、MultihopRAG-par(仅含可并行问题)

🔍 模型与训练

  • 基础模型:Qwen2.5-7B(Base / Instruct)
  • 强化学习算法:PPO、GRPO
  • 搜索器:基于 Wikipedia 2018 的稠密检索(E5 嵌入)
  • 奖励函数:组合上述4类奖励,通过消融实验确定最优权重

📈 主要结果

方法EM 平均分并行问题提升LLM调用次数
Search-R10.3703.36
ZeroSearch0.391
ParallelSearch0.425+12.7%2.34

🧠 四、案例与行为分析

✅ 正确案例(HotpotQA-par)

问题:Laleli Mosque 和 Esma Sultan Mansion 是否位于同一区域?
模型并行搜索两个地点,判断不在同一区域,回答正确。

❌ 错误案例

问题:Cypress 和 Ajuga 是否都是属(genus)?
模型误判为“是”,实际 Cypress 是通称,不全是属。


🧱 五、结论与展望

✅ 总结

  • ParallelSearch 是第一个通过强化学习训练 LLM 实现并行搜索的框架;
  • 不增加模型参数,不依赖额外数据,仅通过奖励设计实现策略优化;
  • 效率与准确性之间取得良好平衡;
  • 可推广至真实搜索系统,提升部署效率。

🔮 展望

  • 支持多模态输入(如截图 + HTML);
  • 引入更复杂的依赖结构识别(非完全并行或混合结构);
  • 推广至真实搜索引擎(如 Bing、Google API);
  • 结合更细粒度的信息整合策略(如注意力机制、摘要模型)。

AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning.

这篇论文《AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning》提出了一种新的强化学习框架,旨在让大语言模型(LLM)在推理过程中自主决定是否使用工具、使用哪种工具,从而解决现有工具集成推理(TIR)方法中工具调用僵化、语言能力下降的问题。


🧭 一、研究背景与问题

✅ 当前TIR方法的局限:

  • 多数方法采用固定工具调用策略(如先搜索再推理、或强制调用代码解释器);
  • 工具使用与任务不匹配,导致:
    • 资源浪费(不必要的搜索或代码执行);
    • 语言建模能力下降(指令遵循、通用推理能力受损);
    • 泛化能力差(无法适应不同任务类型)。

✅ 目标:

让模型像人类一样,根据任务内容自主判断是否需要工具、以及使用哪种工具,实现:

  • 更高效的推理
  • 更强的通用性
  • 更好的语言能力与工具能力平衡

🧩 二、AutoTIR 框架核心

✅ 1. 自主工具决策机制

  • 模型在每一步推理中可自主选择:
    • 不使用工具(纯文本推理);
    • 使用搜索工具(获取知识);
    • 使用代码工具(执行计算);
  • 通过强化学习训练模型做出最优决策。

✅ 2. 混合奖励机制(Hybrid Reward)

总奖励 = 0.1 × 行动奖励 + 0.9 × 输出奖励

奖励类型作用设计细节
行动奖励鼓励正确的工具选择在工具有益的任务中奖励使用工具;在工具无效的任务中惩罚误用工具
输出奖励鼓励正确答案使用任务特定的评估函数(如F1、Exact Match、IFScore)

✅ 3. 支持多工具集成

  • 当前支持工具:
    • 搜索引擎(基于 Wikipedia 2018);
    • 代码解释器(Python 沙箱);
  • 框架可扩展至更多工具(如计算器、数据库等)。

🧪 三、实验与结果

✅ 数据集(覆盖3类任务)

类型数据集
知识密集型HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle
数学推理AIME2024/2025、MATH500、GSM8K
通用语言任务LogiQA、IFEval(指令遵循)

✅ 性能对比(平均分)

方法平均分特点
Qwen2.5-7B-Instruct21.84无工具
Search-R129.26只用搜索
ToRL24.18只用代码
ReSearch28.65搜索+RL
AutoTIR46.01自主工具选择

✅ AutoTIR 在所有任务中均优于 baseline,尤其在数学任务知识推理中提升显著。


✅ 工具使用效率分析(TS / TP)

  • Tool Selection(TS):工具选择是否正确;
  • Tool Productivity(TP):每次工具使用是否带来正确答案。
方法TS(平均)TP(平均)
Search-R193.9425.51
ReSearch78.4314.06
AutoTIR94.4528.76

✅ AutoTIR 在工具选择的准确性和效率上均优于现有方法。


🔍 四、消融实验(Ablation Study)

配置平均分说明
AutoTIR46.01完整框架
w/o Tools28.76禁用工具,性能大幅下降
w/o IF34.01去除指令遵循数据,IFEval 分数暴跌
w/o Penalty44.36去除误用惩罚,工具误用增加
w/ Prior43.12强制使用工具,性能下降

✅ 每个组件都对性能有正向贡献,自主探索工具使用比人为设定规则更有效。


📈 五、训练动态与可扩展性

  • 训练过程中:
    • 奖励逐步提升
    • 响应长度增长,模型学会更复杂的推理;
    • 工具使用策略逐步优化
  • 在不同任务上均表现出稳定的性能提升趋势
  • 具备良好的跨任务泛化能力

✅ 六、结论与意义

✅ 总结

  • AutoTIR 是第一个通过强化学习训练 LLM 自主决定工具使用的框架;
  • 不增加模型参数,不依赖人工规则,仅通过奖励机制实现策略学习;
  • 知识推理、数学计算、指令遵循等多类任务中均取得 SOTA 性能;
  • 实现了工具使用效率与语言建模能力的良好平衡

🔮 展望

  • 支持更多工具(API、数据库、图表生成等);
  • 引入动态工具组合多轮工具协作
  • 推广至真实场景部署,如智能助手、教育、科研等。

https://hub.baai.ac.cn/view/47131


文章转载自:

http://m1S9c983.brwgp.cn
http://BPzXvhw8.brwgp.cn
http://9oraFJLF.brwgp.cn
http://NgoD6TUF.brwgp.cn
http://T9rvfjJ1.brwgp.cn
http://yQwuZAbq.brwgp.cn
http://Xe31e6vn.brwgp.cn
http://MZIJM2gS.brwgp.cn
http://EMXnqPN1.brwgp.cn
http://o0inFeYf.brwgp.cn
http://8JITLUy7.brwgp.cn
http://zqNXzKuk.brwgp.cn
http://sXm2G1jU.brwgp.cn
http://V8nypCKy.brwgp.cn
http://4DVISXO8.brwgp.cn
http://2nu7Gi6p.brwgp.cn
http://j83w91u7.brwgp.cn
http://xDaA9DWW.brwgp.cn
http://MDpuB7cB.brwgp.cn
http://t9uS0pTf.brwgp.cn
http://D1jnQUc0.brwgp.cn
http://rnu46UAg.brwgp.cn
http://tJX9kUBZ.brwgp.cn
http://AulSgJHs.brwgp.cn
http://UfcqjgVX.brwgp.cn
http://dddhhwFk.brwgp.cn
http://VOGBo9Ge.brwgp.cn
http://EQnreB4i.brwgp.cn
http://HxrYc68e.brwgp.cn
http://j1cKRgFT.brwgp.cn
http://www.dtcms.com/a/379103.html

相关文章:

  • 第一篇:如何在数组中操作数据【数据结构入门】
  • PYcharm——pyqt音乐播放器
  • OpenAI已正式开放ChatGPT Projects
  • 日系电车销量破万,真正突围了,恰恰说明了电车的组装本质!
  • Linux 防火墙 Iptables
  • 不想考地信,计算机又太卷,所以转型GIS开发
  • PotPlayer 1.7.22611发布:支持蓝光播放+智能字幕匹配
  • LVS负载均衡群集与Keepalived高可用
  • React中hook的用法及例子(持续更新)
  • 【网络编程】TCP、UDP、KCP、QUIC 全面解析
  • 【1】占位符
  • A2A 中的内存共享方法
  • 力扣704. 二分查找
  • HttpServletRequest vs ServletContext 全面解析
  • 介绍keepalived和LVS
  • NAT技术:SNAT与DNAT区别详解
  • 设计模式-单例桥接命令职责链
  • 数据分析:合并
  • bug:uniCloud报Business Failed, 参数有误retry invoke error
  • 人工智能学习:Transformer结构中的子层连接(Sublayer Connection)
  • 阿里FunASR语音转文字模型搭建
  • Android8 binder源码学习分析笔记(三)
  • sizeof 和 strlen
  • 2025年度4款录音转文字工具横向对比
  • 教资科三【信息技术】— 学科知识(简答题)精简背诵版
  • 滚动列表展示跟随弹框效果
  • readelf 和 ldd 查看文件的依赖
  • 基于社交媒体数据的公众情绪指数构建与重大事件影响分析
  • Cosign 实战:构建可信容器镜像的签名与验证体系
  • 定时器实战:LED闪烁与呼吸灯调试