【智能体-DeepMiner】利用滑动窗口 提高多轮交互能力
论文《BEYOND TURN LIMITS: TRAINING DEEP SEARCH AGENTS WITH DYNAMIC CONTEXT WINDOW》提出了DeepMiner智能体,训练方法和数据构造很有意思, 通过滑动窗口与历史信息压缩提升多轮能力,利用GRPO充分学习窗口内的行为,在标准 32k 上下文中实现近 100 轮深度交互,超越了DeepDive、WebSailor等方法
1.深度研究智能体训练:超越回合限制的突破
1.1 研究背景
当前的深度推理模型在多轮交互场景中面临两大核心挑战:
-
任务复杂度不足:现有数据集(如TriviaQA、HotpotQA等)虽然涉及多步推理,但主要依赖结构化维基百科数据,允许模型通过简单检索成功,无法激发专家级推理所需的验证、回溯和战略规划等复杂认知行为。
-
上下文管理限制:长跨度交互中,累积的工具响应会迅速消耗上下文空间。典型的32k上下文长度仅支持10-15次有效交互。现有解决方案主要依赖外部摘要模型压缩工具输出,但这导致:
- 丢失对精确保理至关重要的细粒度信息
- 增加系统复杂性和计算开销
- 无法集成到端到端强化学习优化中,形成优化盲点
尽管开源社区已通过高质量数据生成和专门强化学习算法进行探索,但与能在数十次交互中保持稳定性能的专有系统相比,仍存在显著性能差距。
1.2 主要贡献
-
复杂问答对的反向构建方法:
- 从真实网络来源合成需要跨多文档推理的复杂问题
- 采用三阶段流程:实体驱动信息收集、多源问题生成、严格质量过滤
- 通过故意模糊化处理增加推理需求,确保问题只能通过工具辅助的多步探索解决
-
动态上下文窗口管理策略:
- 设计滑动窗口机制,选择性压缩远距离工具响应,同时完整保留助手推理痕迹
- 避免使用外部摘要模型,直接访问原始网页内容
- 确保训练-测试一致性,通过特殊序列构造方法适应动态上下文环境
-
高效的强化学习训练框架:
- 两阶段训练:监督微调冷启动+强化学习优化
- 调整组相对策略优化(GRPO)算法适配动态上下文管理
- 简单但有效的二元奖励设计,基于最终答案与真实答案的匹配度
-
显著性能提升:
- DeepMiner-32B在BrowseComp-en上达到33.5%准确率,超过先前最佳开源智能体近20个百分点
- 在BrowseComp-zh、XBench-DeepSearch和GAIA等基准测试上持续改进
- 动态上下文管理支持在标准32k上下文长度内实现近100轮持续交互
这项工作代表了从上下文受限的浅层推理向无边界深度探索的根本转变,为构建具有真实深度研究能力的AI智能体提供了新方法。
2 复杂问答对的反向构建方法
为训练具有深度推理能力的长周期交互智能体,我们设计了一种基于真实网络来源的复杂问答对反向构建方法。传统数据集(如TriviaQA、HotpotQA)依赖结构化维基百科数据,允许模型通过简单检索成功,无法激发验证、回溯和战略规划等专家级认知行为。我们的方法通过三阶段流程,生成需要跨多文档推理的高难度可验证问答对。下面通过具体示例详细阐述该方法。
2.1 实体驱动信息收集
我们从维基百科中选择具有中等知名度(过去六个月页面浏览量在1,000~10,000之间)的真实人物实体作为基础,以平衡信息充分性与模型先验知识的干扰。例如,在构建问题时,我们选择了"Michael Crowley"(记者)、“J. Michael Lennon”(学者)和"Ben Vander Plas"(篮球运动员)等中等知名度实体,避免使用过于知名(如总统)或过于冷门的人物。
为每个实体执行两种搜索策略:
- 直接名称查询:获取传记信息
- 新闻搜索:收集最新进展
收集的网页经过三级严格过滤:
- 实体对应验证:将每个网页与维基百科条目比对,消除实体混淆
- 信息互补性评估:排除不提供实质性独特知识的来源
- 可信度验证:过滤不可靠网站,仅保留可信来源
以"Ahsan Manzil"(孟加拉国达卡的历史宫殿)为例,我们首先验证所有收集的网页确实指向同一建筑,排除那些仅提及相似名称但描述不同建筑的页面;然后评估每篇文章是否提供了独特信息(如建筑时间、墙体厚度、自然灾害历史等);最后只保留来自政府文化网站、学术机构和知名百科的可信来源。
2.2 多源问题生成
问题生成流程使用精选来源作为输入,同时刻意排除维基百科页面,迫使模型进行跨分布式来源的信息整合。我们为LLM提供复杂推理模式的详细示例,并明确约束每个问题必须整合至少四个不同来源的信息。此外,应用二级混淆处理,将具体信息替换为更泛化的描述。
具体示例1(学术人物):
原始事实:J. Michael Lennon 2009年在《Newsweek》担任高级国际关系记者,2014年出现在PBS节目,2020年代出版关于祖父赌博问题的回忆录,被Begiebing评论。
混淆处理后:一位从公共事务研究所转到宾夕法尼亚大学的学者,在2000年代末与普利策奖得主合著了一本关于宗教主题的书。这位学者在2014年初出现在PBS节目中,并在2020年代初出版了一本回忆录,被一位姓Begiebing的人评论。这本回忆录探讨了他祖父的赌博问题。这位学者离开去上大学的新英格兰城市是哪里?
答案:Fall River
具体示例2(记者):
原始事实:Michael Crowley毕业于耶鲁大学,曾任白宫记者报道国家安全,2018-2020年加入《纽约时报》,曾在Politico担任编辑,2014年撰写过关于普京与奥巴马关系的文章,2009-2015年在《Newsweek》担任国际关系高级职位。
混淆处理后:一位毕业于1990年代常春藤盟校的记者,后来担任白宫记者报道国家安全话题,2018-2020年间加入一家主要美国报纸。这位记者曾在一家政治新闻机构担任编辑,负责国内行政部门和国际事务报道。在此期间,他撰写了一篇带有挑衅标题的文章,暗示一位世界领导人与特定总统候选人之间的联系。2009-2015年,这位记者还在一家周刊担任国际关系高级职位,同时在该出版物的华盛顿办公室担任副领导职务。这位记者的出生月日是什么?
答案:April 1
这种混淆处理显著增加推理需求,要求模型通过跨文档综合解析泛化描述,同时确保问题在充分探索后仍可解决。
2.3 多阶段质量过滤
生成的QA对经过严格的多阶段过滤,确保训练数据的挑战性和可靠性:
难度过滤通过两种机制确保问题需要超越当前模型能力的广泛推理:
- 直接搜索引擎查询:例如,对"出生在7月2001年。一位矿工。他在2012年末发现了19个比特币并卖出了8个。"这样的描述进行搜索,过滤掉能直接找到答案的问题
- 零样本推理模型测试:使用现有最强开源模型测试问题,排除它们能直接解决的问题
质量过滤控制可能损害可靠性的多方面因素,过滤具有以下属性的问题:
- 包含可能导致解释歧义的元素(如"大约"、"左右"等模糊表述)
- 具有回避性或模糊的答案(如"可能是A或B")
- 答案无法从给定参考文档中的可用证据逻辑推导
案例示例:我们曾生成一个问题要求识别符合九个特定条件的历史地点,包括:
- 位于国家首都,旁边有河流
- 1830-1860年间开始建设,1870-1880年间完工
- 墙体厚度0.5-0.9米
- 1980-1990年间被政府收购
- 1880-1890年间遭受龙卷风破坏
- 1890-1900年间遭受地震破坏
- 收购时国家总统出生年份在1920-1935年间
通过搜索、获取和定位工具的多轮交互,智能体最终确定该地点是孟加拉国达卡的Ahsan Manzil宫殿,完全符合所有条件。此问题通过了所有质量过滤标准,因为每个条件都有明确的文档证据,且答案唯一可验证。
2.4 技术优势与实现效果
此反向构建方法相比传统数据集具有显著优势:
- 真实性保障:基于真实网络来源,避免合成数据的分布偏移
- 难度可控:通过混淆处理和多源要求,精确控制推理复杂度
- 训练-测试一致性:生成的问题类型与评估基准高度一致
- 高信息密度:每个问题平均需要整合4.7个不同来源的信息
实验表明,仅通过我们的SFT模型在BrowseComp-en上就达到21.2%的准确率,显著优于在HotpotQA上训练的模型(15.6%)。如表3所示,这一性能差距证明传统多跳数据集不足以激发复杂网络代理任务所需的认知行为,验证了我们刻意设计的高难度数据构建方法的有效性。我们的方法成功生成了能够激发深度推理能力的训练任务,为后续强化学习优化提供了高质量的训练基底。
3 动态上下文窗口管理策略
在长周期交互智能体中,上下文爆炸严重限制了模型的推理深度。现有方法依赖外部摘要压缩工具响应,不仅丢失关键细节,还难以融入端到端强化学习。我们提出一种动态滑动窗口机制,在标准32k上下文内支持近100轮交互,同时保持训练与推理的一致性。
3.1 上下文挑战的实证分析
我们在BrowseComp上分析开源模型的失败模式,发现绝大多数错误发生在上下文满载时,而非任务完成。在32k上下文限制下,模型平均仅能进行10–15轮有效交互。进一步分析显示,工具响应长度通常是助手响应的5–10倍,迅速挤占上下文空间。然而,远距离工具响应对当前决策影响微弱,表明长期保留全部工具内容并非必要。这一观察启发我们:可选择性压缩早期工具输出,同时完整保留助手推理链。
3.2 滑动窗口机制设计(含示例)
我们定义完整轨迹为
τ={q,a1,t1,a2,t2,…,aT−1,tT−1,aT}\tau = \{q, a_1, t_1, a_2, t_2, \dots, a_{T-1}, t_{T-1}, a_T\}τ={q,a1,t1,a2,t2,…,aT−1,tT−1,aT}
其中 qqq 为查询,aia_iai 为助手响应,tit_iti 为工具响应。
我们引入两个参数:
- 窗口大小 WWW:保留最近 WWW 个工具响应
- 滑动步长 SSS:每累积 SSS 个新工具后触发滑动
滑动规则:当工具数达 WWW,计算边界 b=max(1,t−W+S)b = \max(1, t - W + S)b=max(1,t−W+S),将 {t1,…,tb−1}\{t_1, \dots, t_{b-1}\}{t1,…,tb−1} 替换为占位符
[Previous tool output skipped. Re-run tool if needed.],而 {tb,…,tt}\{t_b, \dots, t_t\}{tb,…,tt} 保持完整。
示例:识别历史建筑 Ahsan Manzil
假设 W=5,S=3W=5, S=3W=5,S=3,智能体在第8轮触发滑动:
原始轨迹片段(第1–8轮):
q: [复杂问题]
a1: 分析条件,搜索1880年代龙卷风 → t1: [搜索结果]
a2: 聚焦华盛顿特区 → t2: [网页A]
a3: 发现D.C. 1884有龙卷风 → t3: [网页B]
a4: 验证地震记录 → t4: [网页C]
a5: 考虑非美国地点 → t5: [网页D] ← 窗口满,触发滑动
a6: 搜索达卡历史建筑 → t6: [网页E]
a7: 发现Ahsan Manzil → t7: [维基页面]
a8: 验证墙体厚度 → t8: [Banglapedia]滑动后上下文变为:
q: [复杂问题]
a1: 分析条件... → [Previous tool output skipped...]
a2: 聚焦华盛顿... → [Previous tool output skipped...]
a3: 发现D.C.... → [Previous tool output skipped...]
a4: 验证地震... → t4: [网页C] ← 保留最近5个中的前3个
a5: 考虑非美国... → t5: [网页D]
a6: 搜索达卡... → t6: [网页E]
a7: 发现Ahsan... → t7: [维基页面]
a8: 验证墙体... → t8: [Banglapedia]
目的:保留助手全部推理链(a1–a8),仅压缩早期工具响应,既节省空间,又允许必要时重新调用工具。
3.3 训练-测试一致性保障(含示例)
滑动窗口在推理时动态改变上下文,若直接在完整轨迹上训练,会导致训练-测试不一致。为此,我们将每条轨迹 τ\tauτ 分解为多个训练序列,每个序列对应一种滑动状态。
对含 T=8T=8T=8 次工具调用、W=5,S=3W=5, S=3W=5,S=3 的轨迹,生成 K=⌊(8−5)/3⌋+1=2K = \lfloor (8-5)/3 \rfloor + 1 = 2K=⌊(8−5)/3⌋+1=2 个训练序列:
- 序列1:使用完整上下文,训练 a1a_1a1 到 a5a_5a5
- 序列2:应用滑动(t1–t3替换为占位符),训练 a6a_6a6 到 a8a_8a8
并通过掩码确保每个 aia_iai 仅在一个序列中接受梯度更新:
Mi(k)={0,i<W+(k−2)⋅S+21,otherwiseM^{(k)}_i = \begin{cases} 0, & i < W + (k-2)\cdot S + 2 \\ 1, & \text{otherwise} \end{cases} Mi(k)={0,1,i<W+(k−2)⋅S+2otherwise
示例:强化学习中的优势传播
假设某问题生成8条轨迹,其中轨迹 τ1\tau_1τ1 最终答对(奖励=1),其余答错(奖励=0)。计算组内优势值 A^1=+0.35\hat{A}_1 = +0.35A^1=+0.35。
尽管 τ1\tau_1τ1 被拆分为两个训练序列(前5轮 + 后3轮),但两个序列都接收相同的 A^1=+0.35\hat{A}_1 = +0.35A^1=+0.35。这确保:
- 模型在“完整上下文”状态下学习早期探索策略
- 在“滑动后上下文”状态下学习如何延续推理
目的:使模型在任意滑动状态下都能做出合理决策,实现端到端优化。
3.4 实现效果与技术优势
- 交互深度:在32k上下文中支持98轮工具调用,远超传统方法(15轮)
- 性能稳定:DeepMiner在32k、64k、128k上下文下准确率均为33.3%(表2),表明32k已接近性能上限
- 信息保真:无需外部摘要,直接访问原始网页,避免信息损失
- 端到端兼容:完全集成到GRPO强化学习中,无优化盲点
如图5所示,在相同32k上下文下,DeepMiner(33.0%)性能接近DeepSeek-V3.1(30.0%)但后者使用128k上下文,证明高效上下文管理比盲目扩容更有效。该策略为构建真正具备深度研究能力的智能体提供了关键基础设施。
4 模型训练过程
为在长周期交互场景中有效激发模型的深度推理能力,我们采用两阶段训练流程:首先通过监督微调(Supervised Fine-Tuning, SFT)冷启动,建立基础工具调用与多步推理能力;随后通过强化学习(Reinforcement Learning, RL)优化策略,提升目标导向性与回溯能力。整个流程基于 Qwen3-32B 模型,并与第 3 节所述的动态上下文窗口机制深度耦合,确保训练与推理行为一致。
4.1 监督微调冷启动
监督微调作为训练起点,旨在为模型提供高质量的初始策略,避免强化学习在无结构行为下陷入低效探索。我们采用逆向构造的复杂问答对(见第 2 节)作为训练信号来源,并通过强大语言模型(如 GPT-4o)生成完整的行动轨迹。整个 SFT 阶段包含四个关键步骤:轨迹生成、动态上下文注入、轨迹过滤与多序列训练构造。其中,动态上下文注入与多序列构造法是确保训练-推理一致性的核心技术。
轨迹生成
对每个逆向构造的复杂问题,我们调用闭源高性能语言模型(如 GPT-4o)生成完整的交互轨迹。每条轨迹包含:
- 助手的推理链(如子目标分解、假设验证、策略调整)
- 工具调用序列(web_search、fetch、find)
- 最终答案
平均轨迹长度约为 25 轮交互,远超传统数据集(如 HotpotQA)中的 2–3 跳推理,能够充分激发深度研究行为。
动态上下文注入
传统 SFT 方法在“无限上下文”中生成轨迹,但实际部署时模型面临 32k 上下文限制。若直接裁剪这些轨迹用于训练,会导致任务逻辑断裂和训练-推理不一致。
为此,我们在轨迹生成过程中主动应用滑动窗口机制(窗口大小 W=5W=5W=5,滑动步长 S=3S=3S=3):每当累积工具响应达到 5 个,就将最早的 2 个替换为占位符
[Previous tool output skipped. Re-run tool if needed.],同时保留所有助手推理输出。
这一设计的关键在于:占位符并非信息丢失,而是提示“可重调用”。高性能模型在生成后续动作时,若需早期信息,会主动重新调用工具(如再次搜索或 fetch 页面),从而在压缩上下文下依然完成任务。因此,生成的轨迹天然适配部署环境,避免因上下文限制而提前终止。
例如,在识别 Ahsan Manzil 宫殿的任务中,即使早期关于“1884 年华盛顿龙卷风”的工具响应被滑动窗口替换,模型仍可在后期通过新查询“Dhaka tornado 1888”获取关键证据,最终完成推理。
轨迹过滤
我们对生成的轨迹进行严格过滤,仅保留:
- 最终答案正确的轨迹
- 推理过程连贯、无跳跃的轨迹
- 长度在合理范围内(避免过短或过长)
最终保留约 3,000 条高质量轨迹用于 SFT。
多序列构造法
由于滑动窗口使单条轨迹在推理时经历多个上下文状态(如“完整上下文”、“部分压缩”等),若直接用完整轨迹训练,模型只见过“上下文永远完整”的情况,导致训练-推理不一致。
为此,我们将每条轨迹 τ\tauτ 拆分为多个训练序列,每个序列对应一个滑动窗口状态:
- 序列1:包含完整上下文,训练前 WWW 轮的助手响应
- 序列2 及以后:早期工具响应被替换为占位符,仅训练新生成的助手响应
通过梯度掩码确保每个助手响应 aia_iai 在整个训练过程中仅被更新一次,避免重复学习或梯度冲突。
例如,对一条 8 轮轨迹(W=5,S=3W=5, S=3W=5,S=3),我们生成两个训练序列:第一个训练 a1a_1a1–a5a_5a5,第二个在压缩上下文下训练 a6a_6a6–a8a_8a8。模型由此学会:即使看不到早期工具输出,也能基于已有推理链继续决策。
该设计保证了模型在 SFT 阶段就掌握在动态上下文中维持推理连贯性的能力,为后续 RL 优化奠定基础。
该阶段产出的 DeepMiner-32B-SFT 在 BrowseComp-en 上已达 21.2% 准确率,显著优于基于 HotpotQA 训练的基线(15.6%),验证了逆向构造数据与动态上下文感知训练的有效性。
4.2 强化学习优化
在 SFT 提供的合理初始策略基础上,我们引入强化学习进一步优化长周期推理策略,重点提升模型的目标导向性、回溯能力与信息整合效率。
算法选择与适配
我们采用 组相对策略优化(Group Relative Policy Optimization, GRPO)作为 RL 算法,并针对滑动窗口机制进行适配。
关键挑战:GRPO 原本基于完整轨迹计算优势值,但我们的轨迹被拆分为多个训练序列。
解决方案:优势信号传播机制
- 对每个问题 qqq,生成 G=8G=8G=8 条完整轨迹 {τ1,…,τG}\{\tau_1, \dots, \tau_G\}{τ1,…,τG}
- 基于最终答案计算二元奖励 Ri∈{0,1}R_i \in \{0, 1\}Ri∈{0,1}
- 计算组内标准化优势:
A^i=Ri−mean({Rj})std({Rj})\hat{A}_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})} A^i=std({Rj})Ri−mean({Rj}) - 将 A^i\hat{A}_iA^i 完整传播至 τi\tau_iτi 对应的所有训练序列(无论滑动状态如何)
该设计确保模型在任意上下文状态下都能接收一致的策略信号,实现端到端优化。
奖励设计
我们采用极简但高效的二元奖励:
- 若最终答案与标准答案精确匹配(或数值问题在容差范围内),奖励为 1
- 否则为 0
此设计避免了复杂奖励工程可能引入的偏差,同时通过 GRPO 的相对比较机制,使模型能从“答对 vs 答错”的对比中学习有效策略。如图4所示,训练过程中平均奖励从 0.45 稳步提升至 0.60,轨迹长度从 18k 增至接近 40k 上限,表明模型正发展出更复杂的探索行为。
4.3 训练配置与收敛行为
- 基模型:Qwen3-32B(启用 thinking 模式)
- SFT 阶段:batch size=256,lr=1e⁻⁵,约 3,000 条轨迹
- RL 阶段:batch size=32,lr=2e⁻⁶,约 4,000 个问题,每问题 8 条 rollouts
- 上下文管理:W=5W=5W=5, S=3S=3S=3,最大轨迹长度 40k tokens,最大交互轮次 60
- 工具集:web_search、fetch(分页获取)、find(页内搜索)
训练动态显示(图4):
- 轨迹长度持续增长 → 模型学会延长有效交互
- 奖励稳步上升 → 策略质量提升
- 最终在 BrowseComp-en 上达 33.5% 准确率,较 SFT 提升 12.3 个百分点
该两阶段流程不仅高效利用了逆向构造的高难度数据,还通过动态上下文感知的 RL 优化,使模型真正掌握在有限上下文中进行百轮级深度探索的能力。
5 对计算机工程师的关键启示与可迁移实践
基于对《DeepMiner》全文的系统梳理,我们提炼出若干对计算机工程师(尤其是从事智能体、工具调用、长程推理系统研发的工程师)具有直接借鉴价值的核心观点、技术发现与工程实践。这些内容不仅揭示了当前深度搜索智能体的关键瓶颈,也提供了可复用的方法论和设计原则。
5.1 数据复杂度决定智能体上限:从“浅层检索”到“深度推理”的任务设计
原文依据:第1节、第2节、第4.4节(Data Efficiency)
核心观点:
当前主流数据集(如 HotpotQA、TriviaQA)虽然标称“多跳”,但其依赖结构化维基数据,允许模型通过浅层检索+拼接即可成功,无法激发真正的深度认知行为(如验证、回溯、子目标分解)。DeepMiner 通过逆向构造高难度问题,强制模型进行跨多源、多轮次的深度推理。
工程启示:
- 任务设计比模型规模更重要:DeepMiner-32B(32B)显著超越 DeepSeek-V3.1(671B),证明高质量任务可弥补规模差距。
- 避免“虚假多跳”:若问题答案可通过单一搜索即得,即使标为“多跳”,也无法训练深度能力。
- 构造原则:
- 问题需融合 ≥4 个独立可信来源的信息
- 通过故意模糊化(如将具体年份替换为“21 世纪初”,将名字替换为角色描述)提升推理难度
- 严格过滤:排除可通过搜索引擎直接定位答案的问题
实践建议:
在构建内部训练数据时,应模拟真实复杂信息需求场景,而非依赖现成问答数据集。可借鉴 DeepMiner 的三阶段流程(实体收集 → 多源问题生成 → 难度过滤)。
5.2 动态上下文管理:滑动窗口优于外部摘要
原文依据:第3.1节、第4.3节(Context Management Efficiency)
核心发现:
- 工具响应长度通常是助手响应的 5–10 倍,是上下文爆炸的主因。
- 外部摘要(如用另一模型压缩网页)会丢失细粒度信息,且无法端到端优化。
- 滑动窗口机制(保留最近 W 个工具输出,其余替换为占位符)在 32k 上下文中支持近 100 轮交互,性能远超 128k 下的传统方法。
技术优势:
- 信息保真:原始网页内容仍可通过工具重新获取,避免不可逆压缩
- 训练-测试一致:通过多序列构造法,确保模型在训练时就适应动态上下文
- 端到端兼容:无需额外组件,可直接集成到 RL 训练中
工程实践:
- 推荐参数:窗口大小 W=5W=5W=5,滑动步长 S=3S=3S=3
- 占位符设计:
[Previous tool output skipped. Re-run tool if needed.]明确提示可重执行 - 工具设计配合:Fetch 工具应支持分页读取,Find 工具支持页内搜索,避免一次性加载全文
5.3 两阶段训练:SFT 冷启动 + RL 精调是长程任务的有效范式
原文依据:第3.2–3.3节、第4.2节
关键观察:
- 纯 RL 在长程任务中探索效率低,易陷入局部最优
- SFT 提供高质量初始策略(21.2% 准确率),为 RL 奠定基础
- RL 带来显著提升(+12.3% on BrowseComp-en),证明其在优化策略连贯性、目标导向性方面的价值
可复用流程:
- SFT 阶段:用高性能模型生成轨迹,在生成时应用滑动窗口,确保轨迹天然适应上下文限制
- RL 阶段:采用 GRPO(Group Relative Policy Optimization),通过组内相对比较计算优势,避免绝对奖励稀疏问题
- 奖励设计:二元奖励(答对=1,答错=0)简单有效,无需复杂评分函数
工程师建议:
- 不要跳过 SFT,它能快速建立工具调用基础能力
- RL 训练时,需将轨迹按滑动窗口状态拆分为多个训练序列,并传播相同优势值,确保策略一致性
5.4 工具套件设计:支持细粒度信息获取是深度探索的前提
原文依据:附录 C(Enhanced Tool Suite)、第4.1节
现有问题:多数开源智能体使用单次 fetch,截断或摘要网页内容,导致关键信息丢失。
DeepMiner 工具设计:
- web_search:返回标题、URL、片段(标准)
- fetch:分页获取网页内容(Markdown),模拟人类滚动阅读,避免硬截断
- find:页内关键词搜索,定位相关信息段落,支持精细信息提取
价值:
这种设计使智能体能像人类一样“先扫读,再精读”,在长文档中高效定位证据,避免因信息缺失而推理失败。
可借鉴点:
- 工具应支持渐进式信息获取
- 避免一次性返回全文(浪费上下文)或硬截断(丢失信息)
- 提供“搜索-定位-提取”闭环能力
5.5 评估与调试:轨迹长度与奖励是有效训练信号
原文依据:图4(Training Dynamics)
观察:
在 RL 训练中,轨迹长度持续增长(从 18k → 40k tokens),同时训练奖励稳步上升(0.45 → 0.60),表明模型在学习更复杂的推理策略。
工程师启示:
- 轨迹长度是策略复杂度的代理指标:过短轨迹可能意味着过早终止或放弃
- 奖励应稳定上升:若奖励震荡或停滞,说明任务过于困难或奖励信号不够清晰
- 工具调用预算应充足:图5 显示,性能随工具调用次数增加而提升,100 次调用是当前上限
5.6 总结:构建深度智能体的核心原则
| 维度 | 传统做法 | DeepMiner 做法 | 工程收益 |
|---|---|---|---|
| 数据 | 使用现成多跳数据集 | 逆向构造高难度、多源、模糊化问题 | 激发深度认知行为 |
| 上下文 | 无管理或外部摘要 | 动态滑动窗口 + 占位符 | 支持百轮交互,32k 超 128k |
| 训练 | 纯 SFT 或纯 RL | SFT 冷启动 + GRPO 精调 | 快速收敛,策略连贯 |
| 工具 | 单次 fetch + 截断 | 分页 fetch + 页内 find | 信息保真,精细控制 |
| 奖励 | 复杂评分函数 | 二元匹配奖励 | 简单稳定,避免偏差 |
这些原则共同指向一个结论:深度智能体的能力不仅来自模型本身,更来自任务、上下文、工具、训练的系统性协同设计。对工程师而言,优化任一环节都可能带来显著收益,但只有整体对齐,才能实现“超越回合限制”的突破。
