DeepResearch(上)
概述
OpenAI首先推出Deep Research Agent,深度研究智能体,简称DRA。
通过自主编排多步骤网络探索、定向检索和高阶综合,可将大量在线信息转换为分析师级别的、引用丰富的报告,将数小时的手动桌面研究压缩为几分钟。
作为新一代智能深度研究系统,通过融合多步骤推理、自适应检索、强化学习优化等核心技术,实现从传统一问一答
模式向主动探索-验证-总结
研究闭环的根本性转变,在保持高精度的同时将研究效率提升数倍。
关键技术
-
自适应多步骤推理技术
构建基于问题分解的递进式推理框架,能够将复杂研究问题自动拆解为多个关联子问题,通过分析-提问-验证
的迭代循环实现深度挖掘,突破传统检索系统的单次查询局限,支持多层的问题拆解深度和每层多并行子问题的广度控制,确保在避免无限递归的同时实现全面的信息覆盖。 -
智能检索增强机制技术
实现从被动响应到主动探索的检索模式升级,通过动态查询生成和多源信息融合技术,支持对文本、图像、PDF等多模态数据的智能抓取和解析。采用并行搜索策略,能同时处理多个查询请求,通过智能去重和相关性排序算法确保信息质量,支持单个查询检索多个高质量信息源的能力。 -
反思验证与知识缺口识别技术
构建自动反思机制,能够在每轮检索后评估信息充分性,主动识别知识缺口并生成针对性的后续查询,通过设定双重终止条件(深度和广度控制)避免无效循环,同时根据信息源质量动态调整搜索参数,确保研究的全面性和准确性。当系统检测到重复查询模式时会自动触发深度限制,当发现优质信源时会适当放宽广度限制。 -
RL学驱动的自优化技术
采用端到端强化学习训练框架,通过群体相对策略优化算法使模型能够在推理过程中自主决策何时启动检索、如何优化查询策略,使系统在保证输出质量的同时持续优化搜索效率,实现模型从简单指令遵循向复杂推理决策的能力跃升,支持长时间复杂任务的稳定处理。 -
记忆管理与多智能体协同技术
实现分层记忆管理机制,通过压缩中间步骤、利用外部结构化存储和扩展上下文窗口等策略,有效处理涉及数十万甚至百万标记的大规模研究任务。多智能体架构实现专业化分工,不同智能体分别负责信息收集、内容分析、逻辑推理和报告生成,通过标准化的消息传递协议实现高效协同,最终生成包含完整引用链和逻辑验证过程的专业级研究报告。
Deep Search和Deep Research
Deep Search:深度搜索,技术驱动的过程,专注于如何找到信息。
一种超越传统关键词匹配的、更先进的信息检索技术。利用AI、NLP、KG和ML来理解查询的深层意图和上下文,从而从海量数据中挖掘出最相关、最深层的信息。
Deep Research:深度研究,智力驱动的过程,专注于如何理解并创造知识。
一种系统性的、严谨的人类智力活动,旨在探索一个未知或半未知的领域,通过收集、批判性评估、综合和分析信息,来回答复杂问题、验证假设或创造新的知识和见解。
显然,Deep Research基于Deep Search。原则上,深度研究强调陌生领域、专业严谨、产生新见解等,如博士论文级别。但在实际应用中,Deep Research和Deep Search没有明显界限,都是基于搜索工具,解析内容,过滤汇总,产出报告。
搜索
汇总引擎、工具、API:
- Tavily:以付费API专门给LLM提供搜索服务
- DuckDuckGo:注重隐私和安全
- Brave:支持不雅内容过滤
- 博查:国内多模态AI搜索API服务商
- 谷歌搜索API
- arXiv API
- LinkUp:为AI应用打造的付费搜索API
- Firecrawl:开源AI爬虫工具,可高效抓取网页数据并转换为Markdown或结构化数据,支持LLM训练和RAG。参考AI爬虫汇总与实战
- SearXNG:开源免费的互联网元搜索引擎,聚合来自各种搜索服务和数据库的结果。
- Exa:跟Tavily类似,搜索功能更丰富:网页、论文、GitHub、维基百科等,境内也能使用。
Brave设置
方法论
论文。
深度研究智能体旨在通过动态推理、自适应长程规划、多跳信息检索、迭代工具使用和结构化分析报告生成,解决复杂的多轮信息研究任务。
与传统RAG和工具使用(TU)系统相比,DR智能体具有更强的自主性、持续推理能力、动态任务规划和实时环境交互能力,特别适用于复杂、动态且知识密集的研究场景。
技术体系围绕信息获取、工具集成、工作流设计和优化方法展开,包括:
-
信息获取策略:
- API-based检索:通过结构化API高效获取组织化数据,速度快、成本低,但受限于API覆盖范围,难以处理动态网页内容。
- Browser-based检索:模拟人类浏览行为(如点击、滚动、表单填写),提取动态或非结构化内容(如JS渲染页面),覆盖更全面,但延迟高、资源消耗大。
- 混合架构:结合上述两者优势。
-
工具集成框架:
- 代码解释器:支持脚本执行,用于数据处理、算法验证(如AI Scientist通过代码验证研究假设)。
- 数据分析:生成统计摘要、可视化图表,加速假设测试(如Copilot Researcher整合SQL查询与图表生成)。
- 多模态处理:整合文本、图像、音频等异质数据(如Manus支持GitHub、Google Maps等多平台交互)。
- MCP:标准化工具接口,提升系统扩展性和生态兼容性(如Anthropic的MCP简化工具调用流程)。
-
工作流架构:
- 静态工作流:依赖预定义任务pipeline(如AI Scientist的构思-实验-报告阶段),适用于结构化任务,但泛化能力有限。
- 动态工作流:通过LLM实时调整任务结构,支持自适应规划,分为三种规划策略:
- 规划优先(Planning-Only):直接基于初始查询生成计划,如Grok DeepSearch。
- 意图到规划(Intent-to-Planning):先澄清用户意图再规划,如OpenAI DR。
- 统一意图-规划(Unified Intent-Planning):生成初步计划并请求用户确认,如Gemini DR。
- 智能体结构:
- 单智能体:整合规划、工具调用和执行于一体(如Agent-R1),便于端到端强化学习优化。
- 多智能体:通过协调器分配任务给专业化智能体,如OWL的经理-执行者架构,提升复杂任务处理能力,但协调成本高。
-
优化方法:
- 参数化方法:
- 监督微调:通过检索-推理数据优化查询生成、报告结构(如Open-RAG增强检索相关性)。
- 强化学习:基于实时反馈优化检索策略,如GRPO算法提升策略收敛速度。
- 非参数化持续学习:通过外部记忆动态调整工具和工作流,无需更新模型权重(如AgentRxiv的协作案例共享)。
- 参数化方法:
评估基准
- 问答(QA)基准:从单跳事实查询(如TriviaQA)到多跳推理(如HotpotQA),最高难度为专家级科学问题(如Humanity’s Last Exam)。
- 任务执行基准:评估工具使用与环境交互能力,如GAIA(通用助理任务)、ML-Bench。
案例
- OpenAI DR:基于强化学习的o3模型,支持动态研究流程、多模态处理和工具链整合,擅长复杂任务的交互式澄清。
- Gemini DR:采用统一意图-规划策略,结合百万级上下文窗口与异步任务管理,提升多源信息合成效率。
- Perplexity DR:通过迭代检索和动态模型选择,优化报告的全面性与准确性。
- Grok DeepSearch:结合实时检索与多模态推理,支持分段式模块处理(如可信度评估、跨源验证)。
项目
列举一些开源或闭源产品(框架、项目)。
闭源:
- OpenAI Deep Research
- Perplexity
开源:
- DeerFlow
- Open Deep Research
- SurfSence
- MindSearch
- node-DeepResearch
- morphik
- Firesearch
- ZeroSearch
OpenAI Deep Research
官网
Perplexity
官网
支持多种当前最强(国外)模型,自动选择最优模型:
支持多种搜索来源
DeerFlow
字节开源(GitHub,16.9K Star,2.2K Fork),Deep Exploration and Efficient Research Flow缩写,官网。基于FastAPI+LangGraph,多智能体协作的架构模式。
能力
- LLM集成
- 通过LiteLLM支持集成大多数模型
- 支持开源模型如Qwen
- 兼容OpenAI的API接口
- 多层LLM系统适用于不同复杂度的任务
- 工具和MCP集成
- 搜索和检索:通过进行网络搜索;使用Jina进行爬取,高级内容提取
- MCP无缝集成:扩展私有域访问、知识图谱、网页浏览等能力;促进多样化研究工具和方法的集成
- 人机协作
- 人在环中:支持使用自然语言交互式修改研究计划;支持自动接受研究计划
- 报告后期编辑:支持类Notion的块编辑;允许AI优化,包括AI辅助润色、句子缩短和扩展;由tiptap提供支持
- 内容创作:播客和演示文稿生成
- AI驱动的播客脚本生成和音频合成
- 自动创建简单的PPT演示文稿
- 可定制模板以满足个性化内容需求
架构
模块化的多智能体系统架构,基于LangGraph构建,实现灵活的基于状态的工作流,其中组件通过定义良好的消息传递系统进行通信。
组件:
- 协调器:管理工作流生命周期的入口点
- 根据用户输入启动研究过程
- 在适当时候将任务委派给规划器
- 作为用户和系统之间的主要接口
- 规划器:负责任务分解和规划的战略组件
- 分析研究目标并创建结构化执行计划
- 确定是否有足够的上下文或是否需要更多研究
- 管理研究流程并决定何时生成最终报告
- 研究团队:执行计划的专业智能体集合:
- 研究员:使用网络搜索引擎、爬虫、MCP服务等工具进行网络搜索和信息收集。
- 编码员:使用Python REPL工具处理代码分析、执行和技术任务。
每个智能体都可以访问针对其角色优化的特定工具,并在LangGraph框架内运行
- 报告员:研究输出的最终阶段处理器
- 汇总研究团队的发现
- 处理和组织收集的信息
- 生成全面的研究报告
人在环中
DeerFlow包含一个人在环中机制,允许在执行研究计划前审查、编辑和批准:
- 计划审查:启用人在环中时,系统将在执行前向您展示生成的研究计划
- 提供反馈:
- 通过回复
[ACCEPTED]
接受计划 - 通过提供反馈编辑计划(例如,
[EDIT PLAN] 添加更多关于技术实现的步骤
) - 系统将整合您的反馈并生成修订后的计划
- 通过回复
- 自动接受:可启用自动接受以跳过审查过程:通过API在请求中设置
auto_accepted_plan: true
- API集成:使用API时,可通过
feedback
参数提供反馈:
{"messages": [{"role":"user","content":"什么是量子计算?"}],"thread_id": "my_thread_id","auto_accepted_plan": false,"feedback": "[EDIT PLAN]包含更多关于量子算法的内容"
}
Open Deep Research
LangChain社区推出的开源(GitHub,8.6K Star,1.2K Fork)深度研究项目。
SurfSence
官网,开源(GitHub,7.6K Star,576 Fork)高度可定制的AI研究与知识管理助手。旨在提供类似NotebookLM、Perplexity和Glean的替代方案,能够整合外部信息源与用户个人知识库,并支持隐私保护和数据自主。
功能
- 多源信息整合:连接到搜索引擎,Linear等多样化平台,实现信息的自动抓取和整合
- 个人知识库构建与管理:允许用户保存网页、上传文档和文件,并构建可进行自然语言查询的私有、可搜索知识库
- AI辅助研究与分析:提供AI驱动的搜索、信息管理和与文档交互聊天的能力,帮助用户高效地从海量数据中提取洞察、生成播客或进行深度分析
- 数据隐私与自主:支持云端和本地AI模型部署选项,确保用户数据的安全与隐私,赋予用户对自身数据完全的控制权和所有权
技术原理
基于AI研究代理范式,使用自定义的GPT-Researcher代理。通过集成多种外部服务的API,实现对不同数据源的连接和信息流转。在处理用户知识库时,系统运用NLP技术,使用户能通过日常语言进行查询和交互。为提供高度的隐私保护,支持本地AI模型部署,允许敏感数据在用户本地环境中处理,与传统的云端处理模式并行。
应用场景
- 学术与市场研究:研究人员和分析师可利用其高效收集、整合多学科信息,进行文献回顾和市场趋势分析
- 个人知识管理:个人用户可将其作为私有的第二大脑,管理所有数字笔记、文档和网络信息,并随时进行回顾和查询
- 内容创作:内容创作者可快速从整合的知识库中获取灵感和资料,甚至直接生成内容片段
- 团队协作与知识共享:企业或团队可部署SurfSense,通过集成内部工具,促进团队知识的集中管理和高效检索,提升协作效率
- 隐私敏感型工作:对数据隐私和合规性有严格要求的行业或个人,可利用其本地部署能力,确保敏感信息不出本地环境
MindSearch
论文,开源(GitHub,6.6K Star,666 Fork)AI搜索引擎框架,性能与Perplexity.ai Pro相当。用户可轻松部署以构建自己的搜索引擎。具备解决各类问题、深度知识探索、提供透明解决方案路径、多种用户界面及动态图构建过程等特性。
功能
- 问题解答:通过搜索解决生活中的各种问题
- 深度探索:浏览数百网页,提供广泛、深层次答案
- 透明路径:提供思考路径、搜索关键词等完整内容,提高回复可信度和可用性
- 多界面支持:提供React、Gradio、Streamlit等多种用户界面
- 动态图构建:将用户查询分解为子问题节点,根据搜索结果扩展图
技术原理
文档未详细提及技术原理相关内容,推测其通过将用户查询分解为子问题节点构建动态图,结合搜索引擎获取网页信息,利用优化后的LLM进行处理和回复生成。
应用场景
- 搜索引擎开发:开发者可基于该框架构建自己的搜索引擎
node-DeepResearch
官网,Jina AI推出的一个开源(GitHub,4.8K Star,448 Fork)高级AI研究代理系统,旨在模拟OpenAI的Deep Research系统,提供迭代式的网络研究能力。项目最初以Node.js/TS实现,随后有社区开发者将其移植到Python语言(python-node-deepresearch),使得该研究助手能够通过搜索、网络抓取和LLM对任何主题进行深入且迭代的研究。
功能
- 迭代式深度研究:能够持续地搜索、阅读网页并进行推理,直到找到答案或达到预设限制
- 多模态信息整合:结合搜索引擎、网页解析器(如Jina Reader)和LLM进行信息处理和分析
- 自动化问答与合成:自动处理复杂查询,通过循环过程迭代地搜索、阅读和综合答案
- 模块化架构:设计上采用模块化,易于扩展和维护
- 多语言支持:提供Node.js/TS和Python两种实现版本
技术原理:代理(Agentic)工作流,模仿人类研究员的思考和行动模式。主要依赖以下组件和机制:
- LLM:作为核心推理引擎,用于理解查询、生成搜索策略、提炼信息和综合答案
- 网页爬取与解析: 采用如Jina Reader等工具对网页内容进行高效、准确的抓取和解析,提取有效信息
- 搜索引擎接口:集成搜索引擎,实现对互联网信息的广泛检索
- 迭代循环与反馈机制:while-loop,不断地执行
搜索-阅读-推理-合成
循环,并根据当前信息调整后续步骤,直到满足查询要求或达到预设条件 - 状态管理与记忆:代理在研究过程中会维护一个内部状态,记录已获取的信息和推理进展,避免重复劳动并确保逻辑连贯性
应用场景
- 学术研究:帮助学者快速收集、整理和分析特定领域的文献和信息
- 市场调研:自动进行行业分析、竞品研究和市场趋势洞察
- 内容创作:为新闻撰稿人、内容创作者提供背景资料和事实核查支持
- 商业智能:辅助企业进行决策支持,快速获取关键业务信息
- 个人学习:作为智能学习助手,帮助用户深入理解复杂概念和主题
morphik
官网,开源(GitHub,3.2K Star,260 Fork),一套面向视觉丰富文档和多模态数据的AI原生工具集,旨在让开发者轻松将复杂数据上下文集成到AI应用中。具备多模态搜索、知识图谱构建、快速元数据提取等功能,提供免费层级且开源,有Python SDK和REST API,也可通过控制台操作。
功能
- 多模态搜索:利用ColPali等技术理解文档视觉内容,通过单一端点搜索图像、PDF、视频等
- 知识图谱构建:一行代码构建特定领域知识图谱,可使用预设或自定义系统提示
- 元数据提取:从文档中快速提取包括边界框、标签、分类等元数据
- 集成功能:与Google Suite、Slack、Confluence等现有工具和工作流集成
- 缓存增强生成:创建文档持久KV缓存以加速生成
技术原理
运用ColPali技术构建多模态搜索,直接将输入页面嵌入存储,避免因解析或处理技术不完善导致的上下文丢失。在元数据提取方面,借助相关算法实现对文档的边界框、标签、分类等信息的提取。
应用场景
- 技术和特定领域搜索:在专业技术文档、特定领域资料中进行精准搜索
- 企业知识管理:连接企业各种数据源,对复杂图表、原理图和数据表进行完美搜索
- AI应用开发:为开发者提供工具,将复杂数据上下文集成到AI应用中
Firesearch
官网,开源(GitHub,360 Star,70 Fork)。由Firecrawl和LangGraph驱动的AI深度研究工具,利用Firecrawl进行多源网页提取Markdown内容,借助OpenAI GPT-4o进行搜索规划和后续带引用的综合报告生成。将复杂查询分解为多个子问题(聚焦搜索),验证来源是否能解答问题,对未解答问题使用替代搜索词重试,支持修改配置文件自定义搜索行为(如设置最大搜索查询数、每个搜索查询的最大来源数)。
功能
- 智能搜索:将复杂查询分解为多个聚焦搜索
- 答案验证:验证来源是否包含实际答案,要求置信度达0.7以上
- 自动重试:对未解答的问题使用替代搜索词重试
- 实时进度:搜索完成时实时更新
- 完整引用:每个事实都链接到其来源
- 上下文记忆:后续问题保持对话上下文
应用场景
- 学术研究:可用于查找学术资料,获取相关研究成果
- 产品对比:对比不同产品的特点、价格等信息
- 信息调研:了解公司的创始人、产品发布时间等信息
ZeroSearch
论文,阿里通义Lab开源(GitHub,1.1K Star,105 Fork)的RL框架,可在训练期间通过模拟搜索来激励LLM使用真实搜索引擎的能力。
从轻量级的监督微调开始,将LLM转化为一个检索模块,使其能够根据查询生成相关和噪声文档。在RL训练过程中,采用基于课程式训练策略,逐步降低生成文档的质量,通过让模型逐渐适应更具挑战性的检索场景,逐步激发其推理能力。优于基于真实搜索引擎的模型,且零API成本,能适配不同LLMs及多种强化学习算法。
训练模板:采用多轮交互模板,引导策略模型进行迭代推理和信息检索,直到得出最终答案。模板分三阶段:内部推理(<think>...</think>
)、搜索查询(<search>...</search>
)和答案提供(<answer>...</answer>
)。
搜索模拟微调:通过收集与真实搜索引擎交互的轨迹,并对其进行标注(正确答案为正),然后提取查询-文档对进行微调,使LLM能够生成有用或噪声文档。
课程式训练策略:在训练过程中,逐步增加生成文档的噪声概率,使策略模型逐渐适应更具挑战性的检索场景。
奖励设计:采用基于F1分数的奖励函数,平衡精确率和召回率,避免模型通过生成过长答案来增加正确答案的出现概率。
训练算法:兼容多种强化学习算法,如PPO、GRPO和Reinforce++,并通过损失掩码机制稳定训练过程。
功能
- 把LLM转化为能生成相关和噪声文档的检索模块
- 引入课程滚动机制,逐步激发模型推理能力
- 支持REINFORCE、GPRO和PPO三种RL算法
技术原理
通过监督微调,将LLM转变为检索模块,以应对查询生成文档。采用课程滚动机制,让模型面对更具挑战性的检索场景,逐步提升推理能力。使用模拟搜索替代真实搜索进行训练。
应用场景
在需要利用大语言模型进行信息检索和推理的场景中使用,如问答系统、知识图谱构建等,可在不产生API成本的情况下获得较好的性能。
Bench
深度研究基准测试(评估框架)Leaderboard。
DeepResearch Bench
论文,GitHub,体验地址。
论文核心即上图,数据集和两个框架。
数据集用于评估DRA能力,由100个博士级研究任务组成,每个任务都由来自22个不同领域的领域专家精心制作。
收集包含96147个原始用户查询的内部数据集,来源于用户与支持网络搜索功能的LLM聊天机器人的交互记录。使用DeepSeek-V3-0324对数据进行过滤,筛选出44019个符合深度研究任务定义的查询。采用WebOrganizer提出的主题分类体系,选定22个不同主题领域作为分类标准。按比例压缩,得到包含100个任务的数据集,中文和英文任务各50个。
提出两种与人类判断高度一致的新颖评估方法,用于全面评估DRA生成最终报告的质量以及其有效收集网络信息的能力:RACE、FACT。
RACE:a Reference-based Adaptive Criteria-driven Evaluation framework with Dynamic Weighting,基于参考标准和自适应准则的动态加权评估框架,专门用于评估报告生成质量。采用LLM-as-a-Judge方法,动态生成针对特定任务的权重和评估标准,采用基于参考标准的评分方法,将待评估报告与高质量参考报告进行对比,最后计算相对分数来评估目标报告的质量。
FACT:a Framework for Factual Abundance and Citation Trustworthiness,事实丰富性和引用可信性评估框架,专注于评估信息检索和引用准确性。
通过以下流程对DRA进行评估:
- 陈述-URL对提取与去重处理
研究者使用评判LLM从DRA生成的报告中提取独立的事实陈述以及对应的引用源URL。随后,评判LLM对这些陈述-URL对进行检查,识别出多个陈述引用同一URL且描述完全相同事实的情况。对于此类情况,系统仅保留一个代表性的陈述-URL对,确保每个独特的事实主张只出现一次。
- 支持性判断
每个独特的陈述-URL对都需经过支持性评估。研究者使用Jina Reader API获取网页的文本内容,然后由评判LLM评估这些内容是否为相应陈述提供充分的证据支持。
为每个陈述-URL对产生二分类判断结果(支持或不支持),从而确定引用是否能够有效支撑相关主张。
- 引用指标计算:基于上述支持性判断结果,计算两个核心评估指标
- 引用准确性(C. Acc.)用于衡量智能体引用的精确度,反映其使用合适来源准确支撑陈述的能力。
- 每任务平均有效引用数(E. Cit.)则量化智能体在每个任务中检索并呈现的有价值且可验证信息的平均数量。
参考
- DeepResearch Bench