当前位置：首页 > news >正文

万字长文深度解析：AI搜索范式背后的四大核心模块

news 2025/7/16 13:07:50

〔更多精彩AI内容，尽在 「魔方AI空间」 ，引领AIGC科技时代〕

本文作者：猫先生

写在前面

【从零走向AGI】旨在深入了解通用人工智能（AGI）的发展路径，从最基础的概念起，逐步构建完整的知识体系。

项目地址：https://github.com/AI-mzq/From-Zero-to-AGI.git

本文介绍一种新的AI搜索范式，旨在解决传统信息检索系统在处理复杂、多步骤信息需求时的局限性。该范式通过动态模块化多智能体架构，模拟和增强人类的信息处理和决策过程。

一、引言

随着数据量的不断增加，信息检索（IR）系统需要更强大的能力来满足用户的信息需求。传统的基于关键词匹配的检索技术已经不能满足复杂的信息需求，而大语言模型（LLMs）的出现为解决这一问题提供了新的可能性。

词汇信息检索技术主要依赖于关键词匹配技术，包括向量空间模型、概率框架和传统语言模型。这些方法将文档和查询表示为词袋，基于术语的完全或部分重叠来估计相关性。该技术在精确匹配术语方面有效，但难以处理语义不匹配和词汇变化——例如，无法关联同义词表达或语境细微差别。

机器学习范式：学习排名（LTR）方法源于对更相关和更高质量的搜索结果的追求，推动了机器学习在排名问题上的应用。LTR技术利用特征工程——结合包括文本匹配分数、文档结构元数据、权威指标和用户行为信号（例如，点击率）——与监督式机器学习相结合来优化相关性排名。

虽然LTR技术让搜索结果更相关，但它输出的只是排序后的文档列表。用户仍需手动点击文档查找具体信息。比如搜“最近的电影院”，它会按距离排序，但用户还得自己查找每家电影院的影厅数量、座位情况和上映电影等信息。这说明LTR技术在排名上表现不错，但在直接满足用户具体信息需求方面还有很大提升空间。

大语言模型（LLMs）的出现使信息检索系统能够弥合这一差距，推动了信息检索系统从文档检索向直接生成上下文化答案的转变，但现有的RAG系统仍存在局限性。它们主要作为一次性答案生成器，难以处理复杂查询，如涉及创新、情感、多工具协调或深度推理的问题。其输出质量依赖于文档检索阶段，缺乏对不完美检索的鲁棒性和复杂推理能力。例如，“汉武帝和尤利乌斯·凯撒谁年纪更大，相差多少年？”这类问题需要多步骤推理，包括检索核实、解决冲突、计算差异和综合比较，而现有系统难以完成这些任务。

新一代AI搜索范式：这是一种革命性的信息检索范式。由大语言模型驱动的协作式多智能体框架，能够在用户代表下进行推理、规划和执行复杂的解决问题策略。

这种AI搜索范式协调多个专业智能体，每个智能体负责信息寻求过程中的不同阶段，共同提供准确且富含上下文的答案。

本文主要贡献在于提供了一个结构化和详细的蓝图，汇集了来自工业界和学术界的最佳技术，概述了一个不断发展的设计范式，可作为未来AI驱动搜索研究和开发的指南。

二、系统概述

如图1所示，AI搜索范式被实现为一个多智能体协作系统。根据其指定的功能角色，该系统包括四个专门的智能体：Master、Planner、Executor和Writer。分配给每个代理的具体任务如下所述：

1、Master Agent（主控智能体）

Master模块是整个AI搜索范式的“大脑”，负责分析用户查询的复杂性，并协调其他模块的工作。它能够动态评估查询的难度，并根据任务的复杂性分配任务给其他模块。

功能：
- 查询复杂性评估：判断用户查询是简单事实查询还是复杂多阶段推理任务。
- 任务分配与协调：根据查询的复杂性，将任务分配给Planner、Executor和Writer模块，并协调它们之间的协作。
- 动态调整：根据实时反馈和任务进展，动态调整其他模块的工作流程。

2、Planner Agent（任务规划智能体）

Planner模块负责将复杂的查询分解为可管理的子任务，并制定执行计划。它通过有向无环图（DAG）来表示任务的执行顺序和依赖关系。

功能：
- 任务分解：将复杂的查询分解为多个子任务，确保每个子任务都可以独立执行。
- 动态能力边界调整：根据任务的复杂性，动态调整LLM（大型语言模型）的能力边界，选择合适的工具和方法。
- 工具集成：通过MCP（Model-Context Protocol）平台选择合适的工具，并进行工具API文档的细化和工具聚类。
- 任务规划优化：使用强化学习策略优化任务规划过程，提高任务分解和执行计划的效率。

3、Executor Agent（任务执行智能体）

Executor模块负责具体任务的执行，调用外部工具或资源来完成子任务，并评估执行结果。

功能：
- 任务执行：根据Planner制定的计划，调用外部工具或资源执行具体任务。
- 轻量级系统优化：通过轻量级检索和排名系统，减少计算开销，提高执行效率。
- LLM偏好对齐：通过标签化、参考选择和生成奖励等机制，确保LLM的输出与用户需求一致。
- 结果评估：对执行结果进行评估，确保任务的准确性和可靠性。

4、Writer Agent（内容生成智能体）

Writer模块负责综合各个模块的输出，生成最终的用户答案。它通过检索增强生成（RAG）系统，结合检索到的信息生成高质量的回答。

功能：
- 内容综合：将Executor模块执行任务的结果进行整合，生成连贯、准确的回答。
- 鲁棒性优化：通过对抗训练和多代理训练，提高生成器的鲁棒性，确保生成内容的质量。
- 任务对齐：通过多视角偏好优化，确保生成器的输出与用户需求和任务目标一致。
- 用户反馈优化：利用用户反馈和强化学习，进一步优化生成内容的质量。

这四个模块（Master、Planner、Executor和Writer）通过动态协作，实现了从复杂查询分析、任务分解、执行到最终内容生成的全流程优化。这种多智能体架构使得AI搜索范式能够灵活应对从简单事实查询到复杂多阶段推理任务的各种信息需求，显著提高了搜索系统的智能化水平和用户体验。

三、任务规划器

作为AI搜索系统中的核心推理组件，规划器负责将复杂查询分解为结构化子任务，并通过适当的工具进行协调执行。与依赖静态检索和固定响应生成的传统系统不同，规划器支持动态任务规划、有效管理多个工具以及适应性决策。

在本节中，将在AI搜索范式的更广泛背景下，详细阐述其动机、功能设计和优化策略。

3.1 背景

在处理需要多步骤子任务执行和多个工具协同调用的复杂查询时，传统的RAG系统在有效的任务规划和动态多工具协调方面往往表现不佳。因此，对单步任务执行或固定工具使用的依赖常常导致信息检索不完整或响应不准确。

在本节中，我们将使用下面这个例子来提供对最近的RAG系统和 AI 搜索系统如何处理同一问题的比较分析。

示例：考虑一个复杂的查询：“汉武帝和凯撒大帝谁年纪更大，大多少岁？”。

在这种情况下，主控Master将查询委托给规划器，规划器负责规划和将其分解为三个特定的子任务，每个子任务与候选集中的特定工具相关联：

子任务1：搜索汉武帝的出生日期。使用网络搜索工具。
子任务2：搜索凯撒大帝的出生日期。使用网络搜索工具。
子任务3：计算两个出生日期之间的差异。使用编程工具。

这些子任务根据它们的执行依赖关系被结构化到一个有向无环图（DAG）中，并由执行器依次执行。一旦收集到所有结果，编写器会将它们综合成一个连贯且符合上下文的准确回应：“汉武皇帝（公元前156年-公元前87年）活了大约69年，而尤利乌斯·凯撒（公元前100年-公元前44年）活了大约56年。因此，汉武皇帝年纪大约大了56岁。”

图2 RAG框架比较。**左：Vanilla RAG进行一次检索**，然后直接生成答案。**中：高级RAG方法**，如ReAct和RQ-RAG，涉及推理动作循环或顺序子查询执行。右：AI搜索范式**引入了一个多智能体**系统，其中Master引导Planner根据输入查询制定计划，同时不断评估子任务结果的执行状态和完整性，并在必要时进行反思和重新规划。Planner负责构建子任务的DAG并动态选择合适的工具，从而实现结构化和自适应的多步执行。执行者执行特定使用这些工具执行子任务，最后，Writer生成最终答案。

传统的RAG方法首先将查询提交给检索器以获取相关文档，如图2左所示。这些文档与查询一起作为提示，供大语言模型生成答案。实际上，由于检索不完整以及未能捕获汉武皇帝和凯撒皇帝的必要出生日期，这种方法已经产生了错误和不完整的结果。这一缺陷主要源于缺乏先验推理的检索过程，因为查询只提到了相关名称而没有指定需要出生日期，导致语言模型在没有适当事实支持的情况下进行推断。

如图2中所示的高级RAG方法（Re-Act和RQ-RAG）引入了一个结构化的循环，在思考、行动和观察阶段之间交替进行。在这样的框架中，模型计划后续推理步骤，检索相关信息，并迭代地整合结果。在应用于当前案例时，一个类似ReAct的代理会首先考虑检索出生日期，然后对两位皇帝都进行文档检索，并据此更新其内部状态。然而，尽管有这些增强功能，ReAct仅依赖上下文记忆排除了真正调用外部工具的可能性；因此，即使代理正确地判断出哪位皇帝年纪更大，它也无法精确计算年龄差异，因为缺乏专门的计算器工具和结构化数值推理。

任务规划器的必要性。

为了克服这些限制，一个专用的规划器对于复杂查询的解决是不可或缺的。与之前完全依赖检索或上下文分解的RAG系统不同，规划器明确地将查询分解为细粒度的子任务，通过有向无环图（DAG）确定它们的逻辑依赖性，并动态选择适合执行任务的工具，而不仅仅是简单的检索，如图2右侧所示。

此外，规划器能够进行重新规划；如果任何中间结果偏离预期目标，规划器将在主控的指导下相应地调整任务计划。这些能力从根本上扩展了检索增强系统的范围，将被动的“检索后生成”流程转变为“推理、计划、执行和重新规划”的主动式AI搜索系统。具体来说，规划器必须决定什么可以被规划，应该调用哪些工具，以及如何随时间优化自身的行为。

3.2 任务领域和MCP抽象层

早期工具增强的大语言模型系统依赖于“function-calling”JSON模式，例如由 OpenAI 引入并由许多框架迅速模仿的模式如LangChain。这些临时拼凑的合约虽然简单，却存在三个根本缺陷：其一，它们仅与单一服务提供商绑定；其二，缺乏机器可验证的类型化保障机制；其三，导致独立主体无法跨组织边界共享工具，也无法对成本、延迟或安全性等关键指标进行协同评估

模型-上下文协议（MCP）是一种基于HTTP+JSON-RPC的统一接口协议，用于解决系统碎片化问题。通过以下四个要素实现：

1、清单：列出端点的名称、语义角色、成本和延迟限制。

2、输入/输出模式：定义工具调用的格式，支持大型语言模型的函数调用。

3、能力握手：帮助客户端发现可用工具。

4、执行合约：确保调用的幂等性和可审计性。

客户端（如大语言模型）可以通过该协议安全地发现、调用和监控服务器暴露的工具和数据。

3.3 动态能力边界

AI搜索系统通过结合大语言模型（LLM）和工具（如网络搜索、计算器等）来扩展能力边界，从而提升处理用户查询的能力。传统LLM仅能进行文本输入输出，而工具集成使其具备动态获取信息和执行复杂任务的能力。系统通过构建有向无环图（DAG）为用户查询生成定制计划，每个节点代表一个子任务（工具调用），实现高效处理。

然而，随着时间推移，可用的工具API组合以几何级数增长，最终超出了静态能力边界的表示容量。为了应对上述挑战，AI搜索范式在任务规划阶段引入了一个名为动态能力边界的新概念。

如图3所示，AI 搜索系统利用大语言模型处理输入查询，并在短时间内选择一组潜在的工具子集。给定选定的工具子集，AI搜索系统将其与大语言模型的推理能力和内化知识结合起来，构成新的动态能力边界。

3.3.1 工具API文档的精细化

在AI搜索范式中，工具API文档的精细化是确保系统能够高效、准确地利用外部工具的关键步骤。这一部分详细介绍了如何通过迭代优化的方法（DRAFT）来提升工具文档的质量，使其更好地适应大型语言模型（LLM）的需求。

工具文档的重要性：工具文档是大语言模型（LLM）与外部工具交互的基础。传统的工具文档通常为人类开发者编写，存在歧义、冗余或信息缺失等问题，这可能阻碍LLM准确理解和调用工具。

DRAFT框架：为解决这些问题，提出了DRAFT（Draft, Refine, and Rewrite）框架，通过模拟人类与工具的交互过程，逐步优化工具文档，使其更加清晰、准确且易于LLM理解。

DRAFT框架的三个阶段

1、经验收集（Experience Gathering）

目标：通过模拟工具使用场景，收集实际交互数据，发现现有文档中的问题。
方法：
- 使用一个探索器（Explorer）生成多样化的工具使用实例。
- 通过计算新生成查询与已有查询的余弦相似度，确保查询的多样性（相似度阈值为ϕ）。
- 探索器会生成包含查询及其参数的实例，并调用工具获取结果。
作用：全面覆盖工具的各种功能和边缘情况，揭示文档中的潜在问题。

2、从经验中学习（Learning from Experience）

目标：分析收集到的交互数据，识别文档中的歧义和不准确之处。
方法：
- 使用一个分析器（Analyzer）处理探索实例、工具响应、当前文档和修订历史。
- 分析器会生成针对性的修订建议，旨在纠正不准确之处、澄清歧义并消除冗余。
作用：通过实际工具使用数据，提供具体的修订方向，确保文档与工具的实际行为一致。

3、文档重写（Documentation Rewriting）

目标：根据分析器的建议，重写工具文档，使其更加清晰、准确且易于LLM理解。
方法：
- 重写器（Rewriter）整合探索实例、工具输出、修订建议和重写历史。
- 重写器生成新的文档版本，并提出进一步探索的方向。
作用：通过持续迭代，逐步优化文档，使其更好地适应LLM的需求。

迭代终止机制

工具适应性终止机制：通过计算连续版本之间的变化量（Δ），结合BLEU分数和余弦相似度，决定是否停止迭代。
条件：当变化量Δ超过预定义的阈值τ时，认为文档已经足够精炼，停止进一步修改。

DRAFT的优势

自动化与反馈驱动：DRAFT通过自动化的方式，利用LLM与工具的交互反馈，持续优化文档，减少了人工干预。
可扩展性：通过自然语言提示和响应进行操作，便于人工审查和调整，确保系统的灵活性和可扩展性。
提升文档质量：通过迭代优化，确保文档清晰、准确且与工具的实际行为一致，从而提升LLM调用工具的效率和准确性。

工具API文档的精细化是AI搜索范式中的一个重要环节。通过DRAFT框架，系统能够自动发现和修正文档中的问题，逐步优化文档内容，使其更适合LLM的理解和调用。这一过程不仅提高了工具调用的准确性，还增强了系统的整体性能和用户体验。

3.3.2 在MCP中的工具聚类

在AI搜索范式中，为了提高工具调用的效率和系统的鲁棒性，提出了在模型-上下文协议（MCP）中对工具进行聚类的方法。通过聚类，将功能相似的工具分组，以便在工具调用失败时能够快速切换到功能相似的备选工具。

现有的工具API分类过于宽泛，无法反映特定任务的功能特性。这导致功能不同的工具可能被归为一组，而功能相似的工具却未被分到一起，增加了任务执行的复杂性并降低了系统的可靠性。

通过自动化聚类方法，将功能相似的工具分组，形成工具包，以提高系统在工具调用失败时的鲁棒性，并简化工具选择过程。

3.3.3 面向查询的工具检索

在AI搜索范式中，提出了一种面向查询的工具检索方法（COLT），通过结合语义学习和协作学习，高效地检索与用户查询最相关的工具集，确保检索结果的完整性和准确性。

传统的基于大语言模型（LLM）的工具检索方法主要关注查询与单个工具之间的语义匹配，忽略了复杂查询中多个工具的协作需求，导致检索结果不完整或次优。

复杂查询往往需要多个工具协同工作来完成，例如计算涉及多个步骤的问题时，需要同时检索多个相关工具。

为了应对上述挑战，人工智能搜索系统采用了由产品生命周期管理增强的检索方法COLT，该方法整合了工具功能的语义和协作维度。接下来，将详细介绍所提出的工具检索方法。

语义学习：COLT首先通过密集检索关注语义表示学习。

使用基于预训练语言模型的双编码器架构，将查询和工具描述编码为密集向量嵌入。
通过计算查询嵌入与工具嵌入之间的余弦相似度，评估它们的语义相关性。
使用InfoNCE损失函数进行训练，优化模型以区分相关和不相关的工具。

协作学习：为了超越简单的语义相似性并支持以完整性为导向的工具检索，对工具间的协作关系进行建模至关重要。

将查询的真实工具集视为一个“场景”，即完成任务所需的工具集合。
构建三个双部图：查询-场景图、查询-工具图和场景-工具图，捕捉工具之间的协作关系。
使用双视图图协作学习框架，结合直接查询-工具相关性和场景内工具的高阶交互，提高检索的完整性。
引入跨视图对比损失和列表级多标签损失，确保从完整真实值集中平衡检索，避免过分依赖单个工具。

3.4 基于DAG的任务规划

传统方法在处理复杂查询时，往往无法有效分解任务或协调多个工具的调用，导致信息检索不完整或响应不准确。

任务规划的需求：需要一种能够动态分解任务、管理工具调用并适应复杂推理需求的任务规划器。

在AI搜索范式中，提出了一种基于有向无环图（DAG）的任务规划方法，将复杂查询分解为结构化的子任务，并通过动态任务图进行协调执行，以实现高效、准确的多步骤推理。

3.5 主节点引导的再行动

复杂查询的执行过程中，子任务可能会因各种原因失败，如工具调用错误、数据不完整或逻辑错误。

动态调整的需求：需要一种机制来实时监控任务执行状态，并在发现问题时动态调整任务计划，以确保最终结果的准确性和完整性。

在AI搜索范式中，主节点（Master）负责实时监控子任务的执行状态，并根据中间结果进行反思、重新规划和再行动，以确保任务的最终成功。

3.6 采用强化学习（RL）策略优化规划器

规划器负责将复杂查询分解为子任务，并生成任务图（DAG）。然而，高质量的监督数据稀缺，且规划器需要与其他代理协同工作，单纯优化规划器可能无法提升整个系统的性能。

强化学习的优势：强化学习能够通过与环境的交互，动态调整策略，以最大化长期奖励，适合优化多代理协作中的规划器。

采用强化学习策略优化规划器，通过设计综合奖励函数和使用GRPO算法，能够动态调整规划策略，提升规划器在复杂任务中的决策能力和整体性能，同时增强多代理系统的协同效果。

四、任务执行器

根据规划器生成的精心设计的任务计划，AI搜索范式包含一个名为执行器的任务执行模块，负责根据规定的计划调用适当的工具并执行特定的子任务，以产生最终答案生成所需的结果。其中网络搜索功能作为关键组件，用于补充模型知识并提供及时权威的查询响应以满足用户满意度。

4.1 背景

在AI搜索范式中，任务执行器（Executor）负责根据规划器（Planner）生成的任务计划，调用外部工具并执行具体子任务，以获取执行结果。这一部分介绍了任务执行器的背景，包括传统检索系统与现代基于大型语言模型（LLM）的检索系统的演变，以及AI搜索范式在任务执行策略上的转变。

图5 任务执行器范式转变。左：基于PLM的传统网络搜索任务执行器，它主要通过将网络搜索任务转换为排名问题并将结果与用户偏好对齐来解决单个查询。右：AI搜索任务执行的范式转变。AI搜索系统通过将传统的排名问题重新定义为回忆问题来处理多个查询，将目标从调整用户偏好转变为调整LLM偏好。

传统检索系统

关键词匹配：早期检索系统依赖关键词匹配技术，如向量空间模型、概率框架等，将文档和查询表示为词袋，基于术语重叠估计相关性。
局限性：难以处理语义不匹配和词汇变化，无法关联同义词或语境细微差别。

基于LLM的检索系统

语义理解：随着大型语言模型（LLM）的发展，检索系统能够进行更深层次的语义理解，直接生成与用户查询相关的答案，而不仅仅是返回文档列表。
局限性：现有的检索增强生成（RAG）系统在处理复杂信息需求时存在困难，缺乏动态工具调用和复杂推理能力。

AI搜索范式的转变

任务执行器的角色：在AI搜索范式中，任务执行器不仅执行简单的查询，还能处理复杂的多步骤任务，通过调用外部工具（如网络搜索、计算器等）获取信息。
目标：从传统的文档检索转向直接生成精确、上下文化的答案，提升用户体验。

接下来，重点考虑三个核心视角：LLM偏好对齐，确保系统的目标与大语言模型一致；轻量级系统，旨在处理多个复杂查询；以及LLM增强特性，通过LLM增强特性提升检索过程。

4.2 LLM偏好对齐

传统的检索和排名系统主要依赖手动定义的偏好和启发式规则，这些方法往往无法充分利用大语言模型对复杂语义的深入理解及其精细偏好。鉴于大语言模型在理解复杂语义、处理多模态数据以及执行复杂推理方面展现出显著优势，目标已从仅仅与启发式引导的偏好对齐转变为与大语言模型和人类共同进化的偏好对齐。

这一转变使检索系统能够更好地促进高质量答案的生成，通过引导选择大语言模型偏好的文档。最终，与大语言模型的偏好对齐能够实现更智能、自主且有效的检索策略，从而提升问答系统的整体性能。

为实现这一目标，人工智能搜索系统从三个角度构建数据：LLM标注、参考选择、生成奖励。

4.2.1 LLM标注

在AI搜索范式中，利用大型语言模型（LLM）进行标注，以生成高质量的训练数据，提升任务执行器的性能。

传统标注的局限性：传统的人工标注方法耗时且成本高，同时存在主观偏见和标注者间差异。
LLM的优势：LLM能够高效、一致地标注大规模数据，适应复杂语义和多模态数据，减少人工干预。

LLM标注方法

1、RankGPT：

滑动窗口策略：将排名任务分解为多个小窗口，逐步对文档进行排序，避免超出LLM的上下文窗口限制。
迭代过程：通过多次迭代，确保每篇文档在重叠窗口中被多次比较，提高排序质量。

2、TourRank：

锦标赛结构：将文档分组，通过多轮比赛逐步筛选出最相关的文档。
积分系统：每轮比赛为文档分配积分，最终汇总积分确定排名，提高排名的稳定性和准确性。

优势

高效性：LLM能够快速处理大规模数据，显著减少标注时间和成本。
一致性：LLM生成的标注具有高度一致性，减少人工标注的主观偏见。
适应性：LLM能够适应不同领域的复杂语义和多模态数据，提高标注的灵活性。

利用大语言模型进行标注，通过RankGPT的滑动窗口策略和TourRank的锦标赛结构，能够高效、一致地标注大规模数据，提升任务执行器的性能，同时减少人工干预，提高系统的整体效率和准确性。

4.2.2 参考选择

参考文献为LLM提供了必要的上下文信息，帮助生成准确且有根据的答案。

传统方法的局限性：传统方法依赖手动选择或简单检索，可能无法满足复杂查询的需求，导致生成的答案缺乏深度或准确性。

通过精心选择高质量的参考文献，并结合动态调整机制，AI搜索范式能够显著提升LLM生成答案的准确性和可信度，同时增强系统的适应性和性能。

4.2.3 生成奖励

传统检索系统主要依赖监督学习优化相关性，缺乏动态调整能力，难以适应复杂多变的用户需求。

生成奖励的优势：利用LLM生成的答案作为直接反馈，通过强化学习动态优化检索和排名，提升系统对用户查询的响应质量。

通过引入生成奖励机制，AI搜索范式能够利用LLM生成的答案作为直接反馈，通过强化学习动态优化检索和排名过程，显著提升系统对用户查询的响应质量和相关性，同时减少对人工标注数据的依赖。

4.3 轻量级系统

传统检索系统在处理复杂多轮查询时，存在计算开销大、延迟高和架构复杂的问题。

轻量级系统的需求：需要一种更高效、更灵活的检索系统，以适应现代用户对快速、准确信息检索的需求。

4.3.1 轻量级检索：

基于LLM的检索：直接利用大语言模型（LLM）生成查询和文档的嵌入，进行语义匹配，减少对传统倒排索引的依赖。
多模态支持：支持文本、图像等多模态输入，生成统一的嵌入表示，提升检索的准确性和覆盖范围。

4.3.2 轻量级排序：

基于LLM的排序：使用LLM生成的嵌入结合神经网络融合层，考虑权威性、时效性等外部特征，生成最终的排序分数。
端到端优化：通过LLM直接处理所有特征，进行统一的排序优化，提升整体性能。

轻量级系统通过基于LLM的检索和排序，实现了高效、灵活且准确的信息检索，显著降低了计算成本和延迟，提升了用户体验。

4.4 LLM 增强特征

传统特征工程依赖手工制定规则和浅层模型，覆盖范围有限，准确性低，且难以维护。

LLM的优势：LLM能够生成丰富的语义表示，捕捉用户意图和内容相关性，提升检索精度。

语义特征提取：

深度语义理解：LLM直接处理用户查询和文档文本，生成更丰富的文本表示。
多模态处理：结合视觉语言模型（VLM），处理文本、图像和视频等多模态信息，扩大相关性信号的范围。

特征增强：

权威性评估：通过LLM推断文档的权威性，提升检索结果的质量。
时效性评估：利用LLM理解文档的时效性，确保检索结果的时效性。
上下文相关性：LLM能够捕捉查询和文档之间的上下文相关性，提升检索的准确性。

通过LLM增强特征，AI搜索范式能够利用LLM的深度语义理解和多模态处理能力，显著提升检索系统的性能，扩大覆盖范围，提高准确性和适应性。

五、基于LLM的生成

在前两个阶段，AI搜索范式侧重于任务规划器与任务执行器的设计与优化。鉴于执行器检索到的执行结果和相关文档，在AI搜索系统内设计一个编写器代理以产生最终准确的答案至关重要。

然而，LLM在生成答案时可能受到检索到的噪声文档的影响，导致生成结果不准确或不完整。

对齐需求：需要确保LLM生成的答案符合用户偏好，遵循“有帮助、无害、诚实”的三H标准。

为了解决这个问题，AI搜索系统提出了一种多智能体方法ATM中的对抗性调整，该方法利用结合对抗性调整的多智能体系统来增强生成器的鲁棒性。图11展示了ATM的概览。

5.1 鲁棒的RAG系统

1、对抗性训练：

攻击者与生成器：攻击者通过扰动文档（如制造虚假知识或打乱文档顺序）来测试生成器的鲁棒性。
目标：生成器需在对抗性条件下生成准确答案，提升对噪声的抵抗力。

2、多智能体训练：

初始训练：生成器通过多种监督微调任务获得基本能力。
对抗性调整：攻击者和生成器交替训练，逐步提升生成器的鲁棒性。

5.2 RAG任务对齐

1、PA-RAG优化目标：

回应信息性：确保生成器充分利用有价值文档，生成完整的答案。
响应鲁棒性：生成器对噪声文档具有弹性，保持响应的准确性和连贯性。
引用质量：生成器准确引用相关文档，避免无关引用。

2、PA-RAG方法论：

指令微调：赋予生成器基本的RAG能力，包括利用和引用文档。
偏好优化：通过多视角偏好优化，提升生成器的响应信息性、鲁棒性和引用质量。

图12 PA-RAG的示意图，通过多视角偏好优化实现LLM和RAG要求之间的全面对齐

5.3 利用用户反馈进行优化

RLHB方法：结合人类行为的强化学习，通过用户反馈直接对齐LLM与在线用户行为，无需大量人工标注。

5.4 多智能体联合优化

MMOA-RAG算法：通过多智能体强化学习（MARL），对齐规划器、执行器和编写器的目标，提升整个系统的性能。

图13 MMOA-RAG图示，它利用多智能体PPO算法将所有模块的单独目标与最大化生成答案的质量和准确性的共同目标对齐

通过对抗性训练、多智能体训练、PA-RAG优化、用户反馈优化和多智能体联合优化等技术，AI搜索范式能够显著提升基于LLM的生成系统的鲁棒性和对齐性，确保生成的答案准确、上下文相关且符合用户偏好。

六、轻量化LLM生成

LLM通常具有庞大的参数量，导致推理过程计算复杂、延迟高，难以满足实时性要求。

轻量化需求：需要在不显著降低性能的前提下，减少LLM的计算和存储需求，提升推理效率。

通过算法和基础设施层面的优化，AI搜索范式实现了LLM的轻量化，显著降低了推理成本，提升了推理效率，同时保持了模型的性能，满足了实时性要求。

七、评估

在AI搜索范式中，通过人类评估、在线A/B测试和案例研究，全面评估系统的性能和用户体验。

7.1 人类评估

评估方法：采用并排比较的方式，由专业注释员对AI搜索系统和传统系统的结果进行评分。
评估指标：使用归一化赢率（NWR）量化评估结果，衡量AI搜索系统相对于传统系统的改进。
结果：AI搜索系统在复杂查询上表现显著优于传统系统，相对提升达到13%。

7.2 在线A/B测试

测试环境：在百度搜索平台上进行A/B测试，使用真实用户流量。
评估指标：关注用户参与度相关的指标，如变化查询率（CQR）、页面浏览量（PV）、日活跃用户数（DAU）和停留时间。
结果：AI搜索系统在所有指标上均优于传统系统，CQR下降1.45%，PV增加1.04%，DAU增加1.85%，停留时间增加0.52%。

7.3 案例研究

简单查询：AI搜索系统和传统系统都能快速给出正确答案，如“泰山有多高？”。
复杂查询：AI搜索系统通过多步骤推理和工具调用，成功解决了传统系统无法直接回答的问题，如“汉武帝和凯撒大帝谁年纪更大，大多少岁？”。

图15 AI搜索系统与传统搜索系统的在线案例比较。

通过人类评估、在线A/B测试和案例研究，AI搜索系统在提供准确、上下文相关答案和增强用户参与度方面表现出色，显著优于传统搜索系统。

写在最后

本文提出一种新颖的AI搜索范式，通过模块化的多智能体架构和动态任务规划，显著提升复杂信息检索的效率和准确性，实验结果验证了其在增强用户体验方面的有效性，为未来AI驱动的搜索系统研究奠定了基础。

参考：

《Towards AI Search Paradigm》

技术交流

加入「AIGCmagic社区」群聊，一起交流讨论，涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶、具身智能、Agent等多个不同方向，可私信或添加微信号：【m_aigc2022】，备注不同方向邀请入群！！

更多精彩内容，尽在「魔方AI空间」，关注了解全栈式AIGC内容！！

欢迎加入「AIGCmagic社区知识星球」，2025年惊喜特价，扫码领取优惠价格！！

写在前面