当前位置：首页 > news >正文

DeepResearch深度搜索实现方法调研

news 2025/7/2 4:38:20

作者：人大+清华

https://github.com/sunnynexus/Search-o1 (Star 800）

优势：

检索触发机制：传统 RAG 是静态的、预先定义的；Search-o1 是动态的、由模型主动触发的，可以在一定程度上实现能力二。

https://github.com/zilliztech/deep-searcher

基本流程：

https://github.com/mshumer/OpenDeepResearcher

https://github.com/dzhng/deep-research

作者：伊利诺伊大学香槟分校+高丽大学

https://github.com/pat-jj/DeepRetrieval (Star 360)

query改写已被证实是检索流程中的关键步骤。当用户提交问题时，大型语言模型(LLM)通常会对其进行重新表述(称为增强查询)，然后再执行检索。DeepRetrieval采用创新方法，利用强化学习(RL)而非传统的监督式微调(SFT)来优化这一关键步骤。

DeepRetrieval的突出之处在于它能够通过"试错"方式直接学习，使用检索指标作为奖励，无需昂贵的监督数据。这种方法使模型能够针对实际性能指标进行优化，而不仅仅是模仿人工编写的查询。

训练策略使用 PPO。

数据集：PubMed、ClinicalTrials.gov…公开数据集

伊利诺伊大学香槟分校

https://github.com/PeterGriffinJin/Search-R1

将搜索引擎建模为环境的一部分模型可以在生成中插入 <search>query</search> 指令，系统则响应 <information>results</information>，最终答案用 <answer> 标签输出，推理过程包裹在 <think> 中。
支持多轮思考-检索循环模型可以识别信息缺口并主动发起下一轮搜索，而不是一次性拼接上下文。
基于强化学习策略学习训练采用 PPO （Proximal Policy Optimization）或 GRPO （Group Relative Policy Optimization）算法，奖励信号基于最终结果（如 Exact Match）而非过程监督。
避免优化干扰的技术细节引入 Retrieved Token Loss Masking，对搜索返回内容不反向传播，从而保持训练稳定。

从下图来看，它用 7B 模型就能超越 Search-o1 和 680B 参数的 R1？这种“小模型大能力”的背后，正是 RL 训练出的搜索策略弥补了知识覆盖和参数规模的不足。

数据集：在七个问答数据集上进行评估，包括一般问答（NQ、TriviaQA、PopQA）和多跳问答（HotpotQA、2WikiMultiHopQA、Musique、Bamboogle）。
基线比较：与多种方法进行比较，包括无检索的推理、检索增强生成（RAG）、工具调用方法（如IRCoT和Search-o1）、监督微调（SFT）和基于RL的微调（R1）。
模型和检索设置：使用Qwen-2.5-3B和Qwen-2.5-7B模型，以2018年维基百科转储作为知识源，E5作为检索器，每次检索返回3个段落。

奖励函数：

非强化学习方法从技术上来看技术路线都是一样的，即使用推理模型分析，结合联网搜索以及ReAct机制，根据用户输入扩展问题，再对每个问题进行多次联网查找，推理、再查找的过程，最终输出一个综合性的答案。这套方法也比较容易复现。
使用强化学习对整体进行进行端到端训练固然可以提升效果，用小模型代替大模型。但缺点也很明显，依赖于高质量的数据，会限制其应用范围，比如无法支持多种模型。
使用强化学习对个别流程进行针对性训练的是比较有可行性的，比如针对query生成专门训练。
当前的方法主要讨论的都是能力一、二，对能力三较少有针对性优化。