当前位置: 首页 > news >正文

阿里云 AI 搜索 DeepSearch 技术实践

在大模型(LLM)技术迅猛发展的背景下,如何高效、精准地将海量知识与模型能力结合,成为企业智能化升级的关键挑战。

阿里云 OpenSearch 自 2023 年推出面向大模型的 LLM 版以来,持续深耕检索增强生成(RAG, Retrieval-Augmented Generation)领域,历经两年的迭代探索,现已完成从 RAG 1.0 到 RAG 2.0 的重大升级。这一演进的核心成果,便是我们今天重点介绍的技术 —— DeepSearch(深度搜索)


一、从 RAG 1.0 到 RAG 2.0

首先需要简单介绍下 OpenSearch LLM 版(下面简称 LLM 版)的主要功能。

LLM 版的核心链路如下:

OpenSearch LLM 版的核心链路由两大模块构成:

  • 离线数据处理:包括文件解析、文档切片、向量化与索引构建;
  • 在线问答流程:涵盖 query 前处理、数据召回、后处理、Prompt 组装与大模型生成。

本次聚焦于在线问答阶段的技术演进,这是决定最终回答质量的关键环节。在此过程中,LLM 版经历了三次关键迭代:

第一次迭代: RAG 1.0:标准单次检索模式

最基础的 RAG 架构,通过一次检索 + 一次阅读 + 一次推理完成问答。

  • 优点:响应速度快,适用于简单事实类问题;
  • 缺点:面对需要多步推理或跨文档关联的复杂问题时,信息召回不全,难以形成完整答案。

第二次迭代:RAG 1.5:基于 ReAct 的单智能体模式(过渡方案)

引入 ReAct(Reasoning + Acting)框架,实现自适应检索,支持多轮交互。

  • 优点:可动态调整检索策略,提升复杂问题解答率;
  • 缺点:
    • 推理与生成耦合,难以灵活定制 Prompt;
    • Agent 调优难度高,泛化能力受限。
    • 随着推理链加深,上下文迅速膨胀,影响生成效率与稳定性;

第三次迭代:RAG 2.0:基于 Plan 的多智能体系统 —— DeepSearch

这是当前 OpenSearch LLM 版的核心架构,也是我们定义的 RAG 2.0。其核心思想是:通过多个专业化 Agent 协同工作,实现“规划—搜索—阅读—反思”的闭环迭代,持续逼近最优解

  • 优势:
    • 显著提升对多跳问题、对比分析类问题的解决能力;
    • 架构可扩展性强,便于未来接入更多工具与模态。
    • 支持更复杂的逻辑推理与知识整合;
  • 挑战:
    • 系统复杂度上升;
    • 回答延迟相对增加,需在效果与性能间做权衡。

二、DeepSearch 架构详解

DeepSearch 的整体架构如下图所示,采用 Multi-Agent + 分层控制 的设计理念,LLM 版 DeepSearch 的主要思路是通过迭代式【搜索 + 阅读 + 推理】循环,持续探索直至找到最优解的过程。

如上图所示,DeepSearch 主要由以下几个子 Agent 组成:

1. 问题规划 Agent ——系统分析的“大脑”

作为 DeepSearch 的主循环,主要负责迭代式推理与行动,不断地进行问题规划拆解->信息搜索->信息总结阅读->逻辑推理,直到满足预设的答案标准或达到资源预算上限。

其核心设计包括:

  • 全局计划生成:针对用户问题生成高层次、可执行的推理路径(Plan),指导后续动作。
  • 显式终止机制:通过预设 (final_answer)工具明确结束条件,避免模型“隐式判断”带来的不确定性。
  • 全局 memory 更新:每轮迭代后汇总已有信息,进行反思并更新计划,确保推理路径的合理性。
  • 深度激发机制:防止模型“偷懒”(如两轮无果即放弃),通过提示明确告知“问题必有解”,激励深层探索。
  • 操作约束机制:限制重复使用相同工具或参数,防止陷入无效循环。
  • 反思重试机制:当回答失败时,自动分析错误原因并修正上下文,避免重复犯错。
  • 结构化输出规范:强制模型输出结构化指令,提升系统稳定性和可解析性。

这些机制共同保障了 DeepSearch 在复杂任务中的稳定性与准确性。

2. 澄清 Agent —— 用户意图的“翻译官”

面对模糊或歧义性问题,直接迭代搜索会导致回答冗长且与问题关联性较差。为此,澄清 Agent 主要负责针对客户问题进行意图澄清,确保搜索信息更加精确,提升客户产品体验。

例如,用户提问:“帮我看看那个项目的情况。”
→ 澄清 Agent 会追问:“您指的是哪个项目?是否指上周评审的‘智能客服升级’项目?”

由于 LLM 版本身涉及到用户领域知识库,因此该 Agent 强依赖于客户领域知识库,能够结合上下文精准识别语义,并显著提升后续搜索的准确率与用户体验。

3. 搜索 Agent —— 信息获取的“侦察兵”

搜索 Agent 是 DeepSearch 中有效信息采集的核心组件,分为两大功能模块:信息检索与信息筛选。

(1)信息检索

支持三种数据源混合检索:

  • LLM 版知识库:经过完整离线处理(解析、切片、向量化),召回精度最高;
  • 用户外挂 ES 知识库:客户已有数据,无需经过 LLM 版的离线流程,可快速接入;
  • 联网数据:结合公开互联网资源,补充私有知识盲区。
(2)信息筛选

对召回结果进行去噪与有效信息精简:

  • 过滤无关片段;
  • 使用 LLM 提取关键信息;
  • 返回精简、结构化的上下文给 Planner Agent,降低推理负担。

得益于 OpenSearch 在搜索领域的长期积累,保证了信息来源的广度和精度,搜索 Agent 集成了以下能力:

  • 文本检索、向量检索、混合检索(基于自研向量化模型):依托 OpenSearch 自研的向量化模型,OpenSearch 向量引擎和丰富的后处理,确保每一轮的检索能达到更好的效果;
  • 外接知识库:为了支持客户更快速的接入,我们允许客户使用已有的知识库进行问答,目前支持接入用户已有的ES。
  • NL2SQL:提升结构化数据库的问答能力;
  • Graph 查询:辅助关系推理;
  • 联网搜索的前后处理优化:提升内容可信度与相关性。

4. 总结 Agent —— 最终答案的“编辑者”

当问题规划触发 inal_answer 工具或者达到迭代 max_steps,触发总结 Agent 生成最终回答。

其能力特点包括:

  • 支持多种大模型:内置微调后的 Qwen、开源 Qwen、DeepSeek 系列,同时支持用户接入百炼平台或其他第三方模型;
  • 多格式优化:针对总结 Agent 的 prompt 进行了专门的优化,提升更丰富的总结能力,包括图片、表格、图表等。
  • 语言输出优化:同时根据中文和英文场景进行了专门的优化,提升了表达自然度;
  • 自定义 Prompt 支持:满足企业个性化表达需求。

此外,系统还会识别闲聊类请求,避免不必要的资源消耗,提升整体服务效率。


三、工程实现:构建稳定高效的多智能体系统

为支撑 DeepSearch 的复杂架构,通过对比和调研多个内部和外部的多智能体开源框架,并结合 LLM 版在RAG领域的实践经验,最终实现了适合LLM版现状的多智能体系统。整体架构如下图所示:

系统架构概览

1. Agent 注册机制

统一注册多智能体、单智能体、知识库、工具等模块,明确功能边界,提升复用性和可维护性。

2. 智能体协作流程

  • 问题规划 Agent 主导,负责发起任务和调度;
  • 其他子 Agent(如搜索、澄清、总结)负责执行具体动作,并与各模块交互。

3. 独立工具服务层

  • 工具(如搜索、联网、NL2SQL)被抽象为独立服务,接口通用、易于扩展,支持多种场景复用。

4. 多模型支持与优化

  • 内置微调 Qwen、原生 Qwen、DeepSeek 等多种大模型;
  • 微调模型经过推理加速,响应更快;
  • 严格控制不同模型的上下文长度,保障稳定性。

5. Prompt 与输出优化

  • 针对 DeepSearch 场景优化 Prompt,支持中英文;
  • 输出支持文本、表格、图表、图片等多种格式;
  • 支持用户自定义 Prompt,满足个性化需求。

6. 多源知识融合

  • 支持混合使用:LLM 自建知识库、用户已有 ES 知识库、联网数据;
  • LLM 自建库因完整处理流程效果更优,ES 外接库缺少后处理,效果略弱。

7. 自动化评测能力

  • 提供评测服务,用户可在实际场景中对比不同方法效果,选择最优配置。

我们结合 OpenSearch 的实际场景做了深度定制,打造出更适合企业级应用的多智能体运行环境。


四、效果验证:DeepSearch 的真实表现

1. 效果测试:应用场景示例

1.1. 场景一:基于内部知识库的多跳推理

问题:

“根据《三国演义》,如何评价孙权、曹操和刘备?他们的优缺点分别是什么?”

推理过程:

结果:

1.2. 场景二:联网场景下的效果

问题

“opensearch 有哪些版本?哪个版本适合大数据场景?哪个版本适合搭建问答机器人?哪个版本适合在电商场景使用?分别描述下具体原因。”

推理过程:

结果:

可以看到,不管是内部知识库场景,还是混合联网搜索的场景,LLM版的DeepSearch可以解决多跳问题、复杂对比类问题。

2. 效果评估:

在多个公开数据集上进行了端到端测试,以 检索召回率(full hit) 为指标,评估不同架构的表现:

数据集

方法

平均搜索深度

召回率

hotpotQA_2hop (100条)

单次召回

1

42%

单智能体 ReAct

3.02

71%

多智能体 DeepSearch

4.77

86%

musique_2hop

单次召回

1

16%

ReAct

3.46

66%

DeepSearch

6.35

83%

musique_3hop

单次召回

1

2%

ReAct

4.23

37%

DeepSearch

9.14

59%

musique_4hop

单次召回

1

0%

ReAct

4.44

8%

DeepSearch

8.91

20%

crud_2&3hop(中文86条)

单次召回

1

65%

ReAct

2.45

73%

DeepSearch

4.29

86%

结论:随着问题复杂度上升,DeepSearch 的优势愈发明显,尤其在 3 跳以上问题中,远超传统方法。

3. 3. 在 xBench-DeepSearch 榜单上的表现

使用 DeepSearch 框架仅调用 search 工具测试 xBench-DeepSearch 数据集,最优效果达到了 63% (5轮均值),后续加上visit工具应该能达到更优效果。

榜单地址:xbench-DeepSearch-Leaderboard


七、总结

阿里云 OpenSearch LLM 版历经两年打磨,完成了从 RAG 1.0 到 RAG 2.0 的关键跨越。以 DeepSearch 为代表的多智能体深度搜索架构,不仅解决了传统 RAG 在复杂问题上的局限,更在企业知识管理、智能客服、技术文档问答等场景中展现出强大潜力。

这不仅是技术的升级,更是思维方式的转变——从“检索即回答”到“思考再回答”。未来,我们将继续深耕 RAG 与 Agent 技术,推动 AI 搜索向更智能、更可靠、更通用的方向发展,助力企业真正实现“知识自由”。

AI 搜索不止于搜索,而在于理解与创造

了解更多:OpenSearch LLM智能问答版_对话式搜索_大模型_阿里云

http://www.dtcms.com/a/342707.html

相关文章:

  • 网络流量分析——基础知识(二)(Tcpdump 基础知识)
  • 21.web api 12
  • Mybatis执行SQL流程(六)之Executor执行器
  • ubuntu配置Zotero+翻译插件+坚果云同步
  • 30、ICS/OT 攻击溯源 (电力系统) 模拟组件 - /安全与维护组件/ics-attack-forensics
  • 学习 k 均值聚类算法的心得
  • 记录一次el-table+sortablejs的拖拽bug
  • UTF-8 编码
  • 基于IPO智能粒子优化的IIR滤波器参数识别算法matlab仿真
  • 250821-RHEL9.4上Docker及Docker-Compose的离线安装
  • 大数据仓库分层
  • windows 下控制台只能输入或输入输出的问题
  • Java -- 互斥锁--死锁--释放锁
  • 机器学习两大核心算法:集成学习与 K-Means 聚类详解
  • 机器学习经典算法总结:K-Means聚类与集成学习(Bagging, Boosting, Stacking)
  • 机器学习核心算法笔记:集成学习与聚类算法
  • QT6(QSpinBox和QDoubleSpinBox)
  • java项目数据脱敏工具类实现
  • 【离线安装】CentOS Linux 7 上离线部署Oracle 19c(已成功安装2次)
  • 【数据可视化-96】使用 Pyecharts 绘制主题河流图(ThemeRiver):步骤与数据组织形式
  • 如何使用 DeepSeek 助力工作​
  • C# 13 与 .NET 9 跨平台开发实战(第一章:开发环境搭建与.NET概述-下篇)
  • 阿里云的centos8 服务器安装MySQL 8.0
  • 【LeetCode 415】—字符串相加算法详解
  • Java学习历程14——制作一款五子棋游戏(4)
  • R 语言科研配色 --- 第 85 期 (附免费下载的配色绘图PPT)
  • 全屋WiFi强电款WiFi6 86面板一站式测试解决方案
  • leetcode 904 水果成篮
  • 从零开始理解 K 均值聚类:原理、实现与应用
  • Grafana侧重可视化,那多数据源告警呢?