当前位置：首页 > news >正文

【连载10】基础智能体的进展与挑战综述-自我进化

news 2025/7/3 9:01:27

基础智能体的进展与挑战综述

从类脑智能到具备可进化性、协作性和安全性的系统

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

9. 自我进化的优化空间和维度

自主智能体的优化是一项涵盖多个抽象层次的复杂挑战。在本节中，我们首先将提示词优化确立为基础层，在此之上衍生出三种不同的优化分支：智能体工作流优化、工具优化以及全面的自主智能体优化。

9.1 智能体优化概述

现有基于LLM的智能体优化可被构建为一个两层结构。在基础层是提示词优化，其重点在于增强语言模型节点的基本交互模式。在此基础之上，出现了三个并行的优化分支：

(1) 工作流级别优化，聚焦于多个LLM节点之间的协调与交互模式；

(2) 工具优化，即智能体通过开发与改进工具以适应新任务并利用历史数据进行演化；

(3) 全面的自主智能体优化，旨在从多个维度整体提升智能体能力。

类似于AutoML中的优化范式，智能体优化也可以分为单目标优化与多目标优化。目前的智能体优化主要集中于三个典型指标：性能、推理成本与响应延迟。性能衡量智能体完成分配任务的有效性，推理成本量化智能体运行所需的计算资源，响应延迟表示智能体响应并完成任务所需的时间。这些优化目标会根据具体的优化方式而有所不同。例如，在提示词级别的优化中，提示长度等约束也可能成为关键目标。这种多维度的优化目标反映了智能体系统的复杂性以及在多个竞争性需求之间取得平衡的必要性。

9.2 提示词优化

提示词优化在基于LLM的智能体优化中具有最关键的地位。在优化智能体时，除了模型级别的优化之外，针对特定任务或特定模型的提示词优化会直接影响智能体的性能、响应延迟与成本。设定一个任务，其中表示输入查询，为可选的标准答案，提示词优化的目标是在该任务下生成一个最优的任务特定提示词，以最大化整体性能。

其中，表示可能提示词的空间，表示执行函数，表示评估函数。该优化过程通常通过三个基本函数实现：、和。优化函数根据优化信号对现有提示词进行改进，执行函数调用当前提示词以获得输出，评估函数评估当前输出并生成评估信号和优化信号。评估信号用于选择有效提示词，而优化信号则用于辅助优化函数执行优化操作。

9.2.1 评估函数

在提示词优化的核心是评估函数，它是提取优化信号并引导提示词进化路径的基石。该函数在评估来源、评估方法与信号生成之间建立复杂的互动关系，构建一个反馈循环以实现持续改进。评估函数以评估来源为输入，利用不同评估方法生成多种类型的信号，进而指导优化过程。我们在此从评估来源、评估方法与信号类型三个维度出发，为提示词优化建立基础。

评估来源

主要包括LLM生成的输出与任务特定的标准答案。现有工作如[730, 774, 728, 775, 732, 300]多通过与的对比作为评估依据。一些方法[776, 721, 777]仅使用作为评估来源。例如，PROMST[721]通过将与人工规则进行

比较来评估提示词效果；SPO[778]采用不同提示词输出之间的成对比较来判断相对效果。

评估方法

评估方法可大致分为三类：基准测试、LLM-as-a-Judge与人类反馈。

基准测试是提示词优化中最常见的评估方式[730, 774, 721, 732, 300]，它依赖预定义的指标或规则，提供数值形式的反馈作为评估信号。尽管自动化程度高，但其效果最终取决于基准设计是否贴合人类偏好。

LLM-as-a-Judge的提出显著提升了自动评估与偏好对齐能力。该方法[589]利用LLM对人类偏好的天然对齐性及精心设计的评判标准，可基于任务描述与提示词输出评估完成质量，并生成可反思的文本梯度反馈。代表性实现包括 ProteGi[779]、TextGrad[728]、Semantic Search[775]与 Revolve[780]。此外，LLM-as-a-Judge 能通过特定评分机制对和进行对比评估[724]。该方法的有效性依赖于评判提示的设计及底层模型对人类偏好的对齐程度。作为特化扩展，Agent-as-a-Judge[781]引入专用智能体对复杂任务进行过程评估，在显著降低评估成本的同时维持高度人类偏好对齐。

人类反馈是评估过程中智能融合程度最高的方式。由于人类仍是提示词有效性的最终裁判者，直接的人类反馈可以迅速且大幅度提升提示质量。然而，该方法引入了大量资源开销。APOHF[777]表明，引入人类反馈可在资源消耗极小的前提下实现稳健的提示词优化，尤其在开放式任务如用户指令、文本生成提示词优化与创意写作方面表现优异。不过，这种对人工干预的依赖与自动进化目标在一定程度上存在冲突。

信号类型

评估方法生成的反馈通常有三种形式，用于满足不同的优化需求。数值反馈[730, 774, 721, 732, 300]通过标量指标量化性能，适用于规则、标准答案、人类评估与LLM评估，尽管适用范围广，但需大量样本以获得统计可靠性，可能忽视对单个实例具有指导意义的细节。文本反馈[728, 775, 780]通过分析与具体建议提供详细的实例级指导，这种方法依赖人类专家或高级LLM参与，可通过显式建议优化提示设计，但其对智能源的依赖限制了可扩展性。排序反馈[778]则通过整体或成对比较建立相对质量排序，避免了对绝对质量度量的依赖，尤其在无法定义绝对评价标准或优化侧重相对提升时尤为有效。

9.2.2 优化函数

优化函数的设计在提示词优化的每一次迭代中对生成提示的质量具有决定性影响。通过有效的信号引导，提示词自我演化可实现更快的收敛。当前优化方法主要依赖两种信号：用于识别最有效提示词的评估信号，以及提供改进方向的优化信号。

基于评估信号优化

当采用评估信号优化时，流程从评估中选取效果最佳的提示开始。一些方法并不直接从历史错误中学习，而是采用启发式探索与优化策略。SPO[778]通过当前表现最佳的提示词输出进行迭代改进，利用语言模型的内在对齐能力满足任务需求。Evoprompt[723]采用进化算法，以LLM作为进化操作器进行启发式提示组合。PromptBreeder[732]更进一步，通过比较变异提示的得分差异，同时使用LLM对元提示与提示词进行修改，推动优化。

基于优化信号优化

与仅依赖评估信号、通过大量试错在庞大搜索空间中寻找最优解的方法不同，另一类方法直接利用显式优化信号提升优化效率。现有方法展示了多种利用优化信号的策略。OPRO[730]从高质量提示方案中提取通用模式以指导后续优化。ProTegi[779]利用语言模型分析失败案例并预测错误原因，将其作为优化依据。TextGrad[728]更进一步，将提示反思转化为“文本梯度”，将此类引导作用用于智能体系统中的多个提示词优化。Revolve[780]通过模拟二阶优化进一步增强优化能力，在原有一阶反馈机制基础上建模连续提示与响应之间关系的变化，使系统能根据梯度变化进行调整，避免陷入局部最优，推动复杂任务中更具前瞻性的改进。

9.2.3 评估指标

提示词优化方法的有效性可从多个维度进行评估。封闭任务的性能指标[782, 778, 730]是衡量提示本身性能的最直接标准，包括pass@1、准确率、F1分数与ROUGE-L等。这些指标可用于评估优化过程的稳定性、有效性与收敛速度。另一个关键维度是效率指标[778]。部分方法虽优化效果卓越，但对计算资源、样本量与数据规模要求极高；而另一些方法虽性能中等，但资源需求较低，体现了性能与效率之间在智能体演化中的权衡。第三个维度聚焦于定性指标，用于评估智能体行为的具体特性：一致性[776]衡量多次运行结果的稳定性，公平性[783]衡量缓解语言模型偏见的能力，置信度[784, 785]则量化智能体对自身预测的确信程度。当这些行为属性被视为独立目标时，提示词优化框架也会提供相应的指标进行评估。

9.3 工作流优化

尽管提示词级优化在提升单个LLM能力方面已展现出良好成效，但现代AI系统通常需要多个LLM组件的协调协作来处理复杂任务，这就需要一个更全面的优化域——智能体工作流空间。智能体工作流的核心由调用LLM的节点组成，每个节点代表一个专门用于特定子任务的LLM组件，构成更大系统中的一部分。尽管这种架构与多智能体系统具有一定相似性，但必须将智能体工作流与完全自主的多智能体场景区分开来。在智能体工作流中，各节点根据预定义的协议与优化目标进行操作，而不具备自主决策能力。许多知名系统，如MetaGPT[626]、AlphaCodium[786]，都可归类于该框架。此外，智能体工作流也可作为更大规模自主智能体系统中的可执行组件，因此其优化对于推进特定任务完成能力和整体智能体系统能力都至关重要。

依据GPTSwarm[651]与AFLOW[773]提出的形式化框架，本节首先确立了智能体工作流的形式定义及其优化目标，随后分析智能体工作流的核心组成部分——节点与边——讨论其对应的搜索空间，并回顾现有文献中的表示方法。

9.3.1 工作流形式化

一个智能体工作流可被形式化表示为：

其中，表示由调用LLM的节点组成的集合，其中表示可用语言模型集合，表示温度参数，表示提示词空间，表示输出格式空间。表示不同LLM调用节点之间的边。该形式化定义同时封装了定义智能体工作流行为的结构组件与运行参数。给定一个任务和评估指标，工作流优化的目标是寻找最优工作流，以最大化性能表现：

其中，表示工作流的搜索空间，通常衡量多个维度，包括任务完成质量、计算效率与执行延迟等。该优化目标反映了部署智能体工作流过程中的实际挑战，即在有效性与资源约束之间寻找平衡。

9.3.2 工作流边的优化

边空间定义了智能体工作流的表示形式。目前的研究主要采用三种不同的表示范式：基于图、基于神经网络和基于代码的结构。每种范式各有优劣，并对优化过程提出了特定约束。

图结构表示

图结构表示能够表达节点之间的层级、顺序与并行关系。这种方法天然支持复杂的分支模式，并便于工作流拓扑的可视化，尤其适用于需要显式结构操作的场景。例如，GPTSwarm[651]展示了基于图结构的工作流表示在通过拓扑感知优化协调多个LLM组件方面的有效性。

神经网络结构

神经网络结构提供了另一种强大的表示范式，擅长建模节点之间的非线性关系。Dylan[725]表明，基于神经网络的工作流可通过可学习参数展现自适应行为，特别适用于需根据输入与反馈进行动态调整的任务。

代码结构表示

代码结构表示在当前方法中具备最强的表达能力。AFLOW[773]和 ADAS[741]表明，将工作流表示为可执行代码可支持线性序列、条件逻辑、循环结构，并能整合图与神经网络结构。这种方法不仅能实现对工作流执行的精确控制，还可充分利用LLM的代码生成能力。

边空间的表示选择会显著影响搜索空间的维度与可应用的优化算法。例如，[728]在保持工作流拓扑不变的情况下，专注于提示词优化，从而能使用基于文本反馈的优化技术；而[651]则开发了强化学习算法，用于联合优化节点提示词与整体拓扑；[773]利用基于代码的表示，使语言模型能够直接优化工作流；近期研究如[787]和[788]则提出了面向问题的拓扑结构优化方法。

9.3.3 工作流节点的优化

节点空间包含影响节点行为与性能的四个关键维度：输出格式空间、温度参数、提示词空间与模型空间。输出格式通过结构化LLM输出对性能产生显著影响，如XML与JSON格式可实现对响应结构的精确控制；温度参数控制输出的随机性，影响响应的稳定性与创造性之间的权衡；提示词空间继承自提示词优化领域，决定了与LLM交互的核心模式；模型空间表示可用的LLM集合，不同模型具有不同能力与计算开销。

针对单个节点的优化，已有研究主要聚焦于上述空间的某一维度。例如，[773]仅聚焦提示词优化，[741]将搜索空间扩展至提示词与温度参数，[789]则固定提示词，探索不同节点间的模型选择。尽管输出格式优化对于性能同样关键，但目前相关研究仍相对有限[790]。

相较于边空间优化，节点空间优化因智能体工作流中节点数量较多而面临独特的可扩展性挑战。随着节点数量增加，搜索空间维度呈乘法增长，因此需要高效的优化策略以在控制计算成本的同时有效应对复杂性问题。

9.4 工具优化

与传统单轮使用的大语言模型不同，智能体具备多轮规划能力，并可通过多种工具与外部世界交互。这些独特属性使得工具使用的优化成为提升智能体整体性能与适应性的关键组成部分。工具优化旨在系统性地评估与改进智能体在工具选择、调用与集成方面的策略，以实现更高的效率与更低的延迟。在这一背景下，关键性能指标包括决策准确性、检索效率、选择精度、任务规划能力以及风险管理能力。在这一优化过程中，两个互补的策略占据核心地位：工具学习与工具创造。

9.4.1 工具学习

与基于提示的方法不同，后者依赖于冻结的基础模型进行上下文学习，而训练类方法则通过监督优化支持LLM智能体的模型。借鉴发展心理学的研究，工具学习可分为两个主要路径：示范学习与反馈学习[714]。另一种发挥LLM（智能体）工具使用能力的方法是通过提示工程或上下文学习方法来增强推理能力。

示范学习

示范学习旨在通过模仿学习使模型学习专家行为。例如，行为克隆技术通过监督方式让模型学习工具使用策略，即复制人类标注的工具使用行为。形式上，给定一个数据集，其中为用户查询，为对应的人类示范行为，控制器的参数 θ 被优化如下：

其中，表示在时间步时针对查询的人类标注，是该查询所对应的总时间步数。

反馈学习

反馈学习则利用强化学习，使模型能够根据来自环境或人类反馈的奖励进行适应性优化。控制器参数 θ 的优化目标为：

其中，表示基于动作序列的奖励函数。

将工具学习集成进优化框架能够增强系统在多样任务与环境下对工具使用的泛化能力。通过结合基于示范的学习与基于反馈的学习，模型可以迭代优化其工具调用策略、选择策略与执行精度。

工具使用的优化推理策略

为了提升上述性能指标以增强LLM智能体能力，需要结合高级检索模型、精细化的推理策略与自适应学习机制。推理策略如链式思维（Chain-of-Thought, CoT）[46]、思维树（Tree-of-Thought）[72]以及深度优先搜索决策树（Depth-First Search Decision Trees, DFS-DT）[690]，可促进更复杂的工具使用决策过程。通过对模型理解工具的能力进行微调，包括参数解释与动作执行，可实现更精确且高效的工具交互。此外，通过学习模型的输出结果，能够提升后处理与分析能力，进一步优化工具使用的效果。

9.4.2 新工具的创造

除了对现有工具的优化外，基于对任务与工具使用的深刻理解动态创建新工具的能力[703, 702, 772]，可以显著增强LLM智能体框架的适应性与效率。近期研究提出了几种互补的方法。ToolMakers[702]提出一个闭环框架，其工具生成智能体迭代执行三个阶段：(1) 通过示例编程方式基于三个演示生成Python函数；(2) 通过自动化单元测试（3个验证样本）并对测试用例进行自调试以验证功能；(3) 将验证通过的工具封装为可用于下游任务的使用演示。该严格流程在实现全自动化的同时保障了可靠性。CREATOR[703]采用四阶段生命周期：通过抽象推理创建任务特定工具，制定工具调用决策计划，执行生成的程序，并通过迭代工具精炼进行纠正——强调工具多样性、抽象/具体推理的分离以及错误恢复机制。相较之下，CRAFT[772]采用离线范式，通过GPT-4提示、验证与去重，将领域特定数据提炼为可重用的原子工具（如颜色检测）。其无需训练的方法将人类可读的代码片段与组合式问题求解结合，实现可解释的工具链，同时避免了模型微调，尤其适合将复杂任务分解为模块化步骤。

这些互补方法的整合带来了丰富的研究机遇。混合系统可将CRAFT的预构建工具库与ToolMakers的按需生成方法融合，通过功能缓存平衡效率与适应性。未来框架可能实现多层工具层次结构，其中CRAFT的原子操作作为ToolMakers复合工具的基础，而CREATOR风格的纠错机制处理边缘情况。自监督工具评估指标与跨领域泛化能力的进步也将进一步自动化工具生命周期。值得注意的是，工具粒度（原子 vs. 复合）与可重用性模式之间的交互关系有待系统研究——精细化工具便于灵活组合，但也增加了协调复杂度。随着智能体的演化，可能出现任务与工具的双向协同适应机制，即工具重塑任务表示，而新任务反过来推动工具创新，最终实现自我改进的AI系统。

9.4.3 工具效果评估

以下评估指标与基准为量化智能体工具使用能力提供了全面基础。通过评估工具调用、选择准确率、检索效率与复杂任务规划等方面，这些基准不仅衡量当前性能，也为优化工具使用设定了明确的目标。这些指标对于指导智能体系统的即时性能提升与长期策略改进至关重要。

工具评估基准

近年来的LLM-as-Agent研究催生了多样的评估工具使用能力的基准与框架。早期工作如Gorilla[727]与API-Bank[791]构建了大规模数据集与评估方法，用于测试LLM与外部API的交互，揭示了如参数准确性与幻觉等问题。随后，T-Bench[792]与ToolBench[690]引入更广泛的任务集合，强调系统化数据生成对工具操作评估的重要性。StableToolBench[793]更进一步，指出现实API不稳定问题，提出使用虚拟API服务器以实现更一致的评估。ToolAlpaca[794]探讨在较小语言模型中以最小领域训练实现通用工具使用的可行性。ToolEmu[795]则在仿真沙箱环境中评估增强工具的语言模型智能体的安全性与风险。MetaTool[796]提出新基准，关注LLM是否知道何时使用工具以及是否能正确选择工具，其ToolE数据集覆盖单工具与多工具使用情境，推动对工具使用意识与选择精度的研究。ToolEyes[797]进一步推进评估，在大规模工具库中考察现实场景下的多步推理能力。最后，τ-bench[798]引入人类参与视角，强调智能体对动态用户交互与策略合规性的处理。这些基准与框架共同表明，工具增强型LLM研究正从孤立的推理任务转向对现实智能体能力的全面评估。

工具调用评估指标

判断是否调用外部工具是一个关键步骤，会显著影响系统的效率与效果。在许多情境下，模型必须判断其自身的推理是否足以回答查询，或者是否需要借助工具提供的外部知识或功能。为形式化此过程，我们引入一个标注数据集用于：

其中，表示第个用户查询，是一个二元标签，用于指示是否需要调用工具（表示需要调用，表示不需要调用）。基于该数据集，模型学习一个决策函数，其定义如下：

其中，表示由参数为θ的模型预测在查询上应调用工具的概率，

是一个预设的阈值。

除了该决策规则外，还可以使用多个指标来评估模型在工具调用决策方面的准确性。例如，整体调用准确率可计算为：

其中，是指示函数。当括号内条件为真时，其值为1，否则为0。其他评估指标如精确率（precision）、召回率（recall）与 F1 分数（F1 score）同样适用。

此外，若表示每次调用工具所产生的成本，表示在查询上正确使用工具所获得的收益或奖励，则可定义一个净收益得分（net benefit score）如下：

该公式不仅强调准确性，还考虑了调用外部工具的成本效益。

候选工具选择

一旦确定需要调用工具，接下来的挑战是从候选工具集合中选择最合适的工具。设候选工具集表示为：

对于给定的查询，假设最优工具（根据标准答案）为，而模型选择的工具为。最简单的工具选择性能衡量指标是工具选择准确率，定义如下：

然而，在许多场景中，系统需对多个候选工具按相关性进行排序。在这类情况下，基于排序的评估指标如平均倒数排名（Mean Reciprocal Rank, MRR）与归一化折损累计增益（normalized Discounted Cumulative Gain, nDCG）能够提供更细致的评估。[690]在评估工具检索系统时即采用了这两个指标。

工具检索效率与分层准确率

工具检索既涉及找到合适工具的速度，也涉及选择的准确性。高效的检索方法可减少延迟与计算开销，而高检索准确率则确保所选工具与任务高度匹配。为了全面评估工具使用，我们采用一种分层评估框架，区分检索准确率与选择准确率。检索准确率（）评估系统从工具库中检索正确工具的精度，通常使用精确匹配（Exact Match, EM）与 F1 分数来衡量完全匹配与部分匹配程度。

选择准确率（）则衡量系统从候选集合中选择最优工具的能力，也可用类似指标评估。

工具使用意识整体评估还可通过准确率、召回率、精确率与 F1 分数进一步量化。

总体检索效率可表示为：

其中，表示检索过程的成本。优化策略可能包括通过反馈机制训练嵌入模型，以同时提升效率以及各个分层准确性指标的表现。

为了对工具选择进行更细致的评估，Metatool[796]引入了正确选择率（Correct Selection Rate, CSR），用于量化模型在查询中选择期望工具的百分比。该评估框架涵盖四个方面：

(1) 在相似候选中选择正确工具，

(2) 在特定语境下选择恰当工具，

(3) 通过避免选择错误或不存在的工具提升鲁棒性，

(4) 正确处理多工具查询任务。

上述指标与子任务共同构成对工具检索与选择效率与精度的稳健评估体系。

复杂任务的工具规划

复杂任务往往需要多个工具的顺序应用以达成最优解。一个工具规划可以表示为有序序列：

其中，是步骤数量。该规划的质量通常通过任务效果（例如度量为）与规划复杂度（即长度）之间的平衡来评估。

这一平衡可用以下复合规划评分函数表示：

其中，α 和 β 为调节任务效果收益与规划复杂度成本之间权衡的系数。

当存在标准规划时，可采用 BLEU、ROUGE 等相似性指标来比较预测规划与之间的差异，并据此定义总体规划效率指标。这些方法为智能体在多步任务中的工具使用与决策能力提供了系统性的评估与优化依据。

在选择工具和参数的过程中，LLM需要能够简洁地总结已获取的信息，并战略性地规划后续步骤。在这一背景下，行为规划能力从两个维度进行评估：

(1)首先是，其评分基于以下三个方面：

a. 当前状态总结的合理性，

b. 下一步行动规划的及时性，

c. 规划方案的多样性。

(2)其次是，其评分依据为：

a. 语言表达的语法完整性，

b. 推理的逻辑一致性，

c. 修正错误思维的能力。

最终的行为规划复合得分（SBP）定义如下：

该得分为模型的行为规划能力提供了一个整体性衡量标准。通过这一集成框架，工具规划不仅关注工具的选择与排序，也强调规划过程的连贯性、有效性与策略合理性。

总结

在智能体系统中优化工具性能，需要一种全面的方法，综合平衡以下要素：决策准确率，工具检索效率，分层选择精度，战略规划能力，严谨的风险管理，强健的工具学习机制。通过实施有针对性的优化与学习策略，可以有效提升工具辅助下机器学习工作流的效果与效率。

9.5 面向自主智能体的整体优化

除了对智能体进化过程中各个模块（如提示词、工具与工作流）进行局部优化外，越来越多的研究开始关注整个智能体系统中多个组件的联合优化。这是因为各个模块的孤立优化容易陷入局部最优，进而限制整个智能体系统的性能表现。通过采用系统级的整体优化方法，能够使大语言模型（LLM）智能体实现更全面、协同的演化。然而，这种方法也对优化算法提出了更高的要求：算法不仅要考虑各组件对系统性能的个体影响，还需统筹它们之间复杂的交互关系。

代表性工作：ADAS 框架

ADAS[741]是首个正式定义“智能体系统自动设计”研究问题的代表性工作。该方法将多个智能体组件（如工作流、提示词、工具）纳入演化优化流程，并引入了一个元智能体（meta-agent）来迭代设计智能体系统结构。在实验中，ADAS 自动生成的系统在性能上超越了多个最先进的人工设计基线，验证了其系统级优化能力的有效性。

符号学习与语言反向传播框架

[726]提出了一种受连接主义神经网络启发的智能体符号学习框架，用于训练语言智能体。该方法将智能体的执行流程类比为计算图，并在此基础上引入了“语言反向传播”机制。具体而言，该框架定义了基于提示词的损失函数，沿着智能体轨迹传播语言损失，并据此更新符号组件。这种方法为智能体工作流的结构化优化提供了路径，也自然扩展到了多智能体系统——其中每个节点可视为独立智能体，或在单节点中嵌入多个智能体。