当前位置: 首页 > news >正文

自进化智能体综述:通往人工超级智能之路

Github 代码库:https://github.com/CharlesQ9/Self-Evolving-Agents

摘要

https://arxiv.org/pdf/2507.21046
大型语言模型(LLMs)在各种任务中展现出了卓越的能力,但本质上仍然是静态的,无法根据新任务、不断演进的知识领域或动态交互环境调整其内部参数。随着大型语言模型越来越多地部署在开放、交互式环境中,这种静态特性已成为关键瓶颈,需要能够实时自适应推理、行动和演化的智能体。这一范式转变——从扩展静态模型到开发自进化智能体——引发了人们对能够从数据、交互和经验中持续学习和适应的架构与方法的日益浓厚的兴趣。本综述首次对自进化智能体进行了系统而全面的回顾,围绕三个基本维度对该领域进行了组织——进化什么、何时进化以及如何进化。我们研究了智能体各组件(如模型、记忆、工具、架构)的进化机制,按阶段(如测试中、测试间)对适应方法进行分类,并分析了指导进化适应的算法和架构设计(如标量奖励、文本反馈、单智能体和多智能体系统)。此外,我们还分析了针对自进化智能体量身定制的评估指标和基准,突出了在编码、教育和医疗保健等领域的应用,并指出了在安全性、可扩展性和协同进化动力学方面的关键挑战和研究方向。通过提供一个理解和设计自进化智能体的结构化框架,本综述为推进研究和实际应用中自适应、稳健且多功能的智能体系统制定了路线图,最终为实现人工超级智能(ASI)铺平道路,在这种智能中,智能体能够自主进化,在广泛的任务中达到或超越人类水平的智能。

在这里插入图片描述

1 引言

“生存下来的物种并非是最聪明的,也非最强壮的,而是那些最能适应环境变化、调整自身以适应所处环境的物种。”——查尔斯·达尔文

大型语言模型(LLMs)在众多任务中展现出了卓越的能力。然而,它们本质上仍是静态的[1],在遇到新任务、不断发展的知识领域或动态交互环境时,无法调整其内部参数。随着大型语言模型越来越多地部署在开放式、交互式环境中,这一局限性成为了关键瓶颈。在这种情况下,传统的知识检索机制显得力不从心,催生了能够实时动态调整自身感知、推理和行动的智能体。这种对动态、持续适应的迫切需求,标志着人工智能领域的概念转变:从扩展静态模型到开发自进化智能体。这类智能体能够实时从新数据、交互和经验中持续学习,从而构建出更稳健、更通用,且能够应对复杂、动态现实问题的系统[2]。这一转变正引领我们朝着一条充满希望且具有变革性的人工超级智能(ASI)之路迈进。在这条道路上,智能体不仅能够以难以预测的速度从经验中学习并进化,还能在各种任务中达到或超越人类水平的智能[3]。

与无法适应新环境和不断变化环境的静态大型语言模型不同,自进化智能体旨在通过从现实世界的反馈中持续学习来克服这些局限性。这一发展重塑了我们对智能体的认知。如图1所示,自进化智能体作为一个核心概念,将成为人工超级智能的前身,充当为最终实现智能进化铺平道路的过渡者。近期,研究工作越来越多地聚焦于开发能够从经验中持续学习和适应的自适应智能体架构,例如智能体框架的最新进展[4]、提示策略[5]以及不同的进化优化方式。尽管取得了这些进展,但现有的综述大多将智能体进化作为全面智能体分类学中的一个附属部分进行探讨。以往的综述主要对一般智能体开发进行系统性概述,而对自进化智能体在受限场景下的自进化机制覆盖有限[1, 6]。例如,Luo等人[1]讨论了多种进化方式,如自主学习和多智能体协同进化;而Liu等人[6]则从智能体的不同组件(如工具和提示)的角度明确介绍了进化。此外,一些研究专门聚焦于语言模型本身的进化[7],而非智能体这一更广泛的概念。然而,目前尚无系统性的综述专门对自进化智能体作为首要研究范式进行全面深入的研究。这一空白导致一些基本问题尚未得到充分探索:智能体的哪些方面应该进化?适应过程应在何时发生?以及在实践中应如何实现这种进化?

据我们所知,这是首个聚焦于自进化智能体的系统且全面的综述,为理论研究和实际应用提供了清晰的路线图。我们围绕三个基本问题——进化什么、何时进化以及如何进化——展开分析,并为理解每个问题提供了结构化框架。具体而言,我们系统地研究了智能体的各个组件,包括模型、记忆、工具以及相应的工作流程,并探究了它们各自独特的进化机制(第3节“智能体进化什么”);然后,我们根据不同的时间阶段和学习范式(如监督微调、强化学习和推理时进化)对现有的进化方法进行分类(第4节“智能体何时进化”)。最后,我们总结了指导智能体进化的不同信号,如文本反馈或标量奖励,以及智能体的不同架构,如单智能体和多智能体进化(第5节“智能体如何进化”)。此外,我们还回顾了用于追踪自进化智能体现有进展的某些评估指标和基准,强调了评估与智能体之间协同进化的重要性(第6节)。我们还研究了在编码、教育和医疗保健等领域中不断涌现的应用,在这些领域中,持续适应和进化至关重要(第7节)。最后,我们指出了持续存在的挑战,并概述了指导自进化智能体发展的有前景的研究方向(第8节)。通过在多个正交维度上对自进化过程进行系统性分解,我们提供了一个结构化且实用的框架,使研究人员能够系统地分析、比较和设计更稳健、更具适应性的智能体系统。综上所述,我们的主要贡献如下:

  • 我们建立了一个统一的理论框架,用于描述智能体系统中的自进化过程,该框架围绕三个基本维度展开:什么在进化、如何进化以及何时进化,为未来自进化智能体系统的设计提供了明确的指导。
  • 我们进一步研究了专为自进化智能体设计的评估基准或环境,突出了与适应性、稳健性和现实复杂性相关的新兴指标和挑战。
  • 我们展示了自进化智能体在各个领域的多个关键实际应用,包括自主软件工程、个性化教育、医疗保健和智能虚拟助手,展示了其实际潜力。
  • 我们指出了关键性的开放挑战和有前景的未来研究方向,强调了安全性、个性化、多智能体协同进化以及可扩展性等方面。

通过这样做,我们的综述为研究人员和从业者提供了一个更结构化的分类体系,以便从不同角度理解、比较和推进自进化智能体的研究。随着基于大型语言模型的智能体越来越多地集成到关键任务应用中,理解其进化动态变得至关重要,这不仅超越了学术研究的范畴,还涵盖了工业应用、监管考虑以及更广泛的社会影响。

2 定义与基础

在展开全面调研之前,我们首先给出自进化智能体的正式定义,并介绍自进化智能体关键方面的分类体系。同时,我们还将探讨自进化智能体与其他知名学习范式(如课程学习、终身学习、模型编辑和遗忘学习)之间的关系,着重强调自进化智能体所具有的适应性、动态性和自主性。

2.1 定义

环境:我们首先将智能体系统的环境(包括用户和执行环境,例如Linux shell)定义为一个部分可观测马尔可夫决策过程(POMDP),用一个元组E=(G,S,A,T~,R,Ω~,O,γ)E=(\mathcal{G},\mathcal{S},\mathcal{A},\widetilde{T},R,\widetilde{\Omega},O,\gamma)E=(G,S,A,T,R,Ω,O,γ)表示,其中:

  • G\mathcal{G}G是潜在目标集合。每个g∈Gg\in{\mathcal{G}}gG都是智能体需要实现的任务目标,例如用户查询。
  • S\mathcal{S}S是状态集合。每个s∈Ss\in\mathcal{S}sS代表环境的内部状态。
  • A\mathcal{A}A是动作集合。每个动作a∈Aa\in\mathcal{A}aA可以是文本推理、外部知识检索和工具调用的组合。
  • T~\widetilde{T}T是状态转移概率函数,它接收一个状态-动作对(s,a)(s,a)(s,a),并输出下一个状态的概率分布T(s′∣s,a)T(s^{\prime}|s,a)T(ss,a)
  • R:S×A×G→RR:\mathcal{S}\times\mathcal{A}\times\mathcal{G}\rightarrow\mathcal{R}R:S×A×GR是反馈/奖励函数,以特定目标g∈Gg\in{\mathcal{G}}gG为条件。反馈r=R(s,a,g)r=R(s,a,g)r=R(s,a,g)通常采用标量分数或文本反馈的形式。
  • Ω~\widetilde{\Omega}Ω是智能体可访问的观察集合。
  • OOO是观察概率函数,它接收一个状态-动作对(s,a)(s,a)(s,a),并输出智能体下一个观察的概率分布O(o′∣s,a)ˉO(o^{\prime}|s,a\bar{)}O(os,a)ˉ
  • γ\gammaγ是折扣因子。

智能体系统:我们将(多)智能体系统定义为Π=(Γ,{ψi},{Ci},{Wi})\Pi=(\Gamma,\{\psi_{i}\},\{C_{i}\},\{\mathcal{W}_{i}\})Π=(Γ,{ψi},{Ci},{Wi})。架构Γ\GammaΓ决定智能体系统的控制流或多个智能体之间的协作结构。它通常表示为由图或代码结构组织的一系列节点(N1,N2,...)~\widetilde{(N_{1},N_{2},...)}(N1,N2,...)。每个节点NiN_{i}Ni由以下组件构成:

  • ψi\psi_{i}ψi:底层的大语言模型/多模态大语言模型(LLM/MLLM)。
  • CiC_{i}Ci:上下文信息,例如提示PiP_{i}Pi和记忆MiM_{i}Mi
  • Wi\mathcal{W}_{i}Wi:可用工具/应用程序编程接口(API)的集合。

在每个节点上,智能体策略是一个函数πθi(⋅∣o)\pi_{\theta_{i}}(\cdot|o)πθi(o),它接收一个观察值并输出下一个动作的概率分布,其中θi=(ψi,Ci)\theta_{i}=(\psi_{i},C_{i})θi=(ψi,Ci)。此处的实际动作空间是自然语言空间和工具空间Wi\mathcal{W}_{i}Wi的并集。

对于给定任务T=(E,g)\mathcal{T}=(E,g)T=(E,g)(由环境EEE和相应目标g∈Gg\in\mathcal{G}gG表示),智能体系统遵循拓扑结构Γ\GammaΓ生成轨迹τ=(o0,a0,o1,a1,…)\tau=(o_{0},a_{0},o_{1},a_{1},\ldots)τ=(o0,a0,o1,a1,),并从外部环境或内部信号(例如,自我置信度或评估器的反馈)接收反馈rrr

在这里插入图片描述

自进化策略:自进化策略是一个变换fff,它在生成的轨迹τ\tauτ和外部/内部反馈rrr的条件下,将当前智能体系统映射到一个新状态:
f(Π,τ,r)=Π′=(Γ′,{ψi′},{Ci′},{Wi′})f(\Pi,\tau,r)=\Pi^{\prime}=(\Gamma^{\prime},\{\psi_{i}^{\prime}\},\{C_{i}^{\prime}\},\{\mathcal{W}_{i}^{\prime}\})f(Π,τ,r)=Π=(Γ,{ψi},{Ci},{Wi})

自进化智能体的目标:设UUU是一个效用函数,它通过给智能体系统Π\PiΠ在给定任务T\mathcal{T}T上的表现分配一个标量分数U(Π,T)∈∽RU(\Pi,\mathcal{T})\stackrel{\backsim}{\in}\mathbb{R}U(Π,T)R来衡量其性能。效用可能来自任务特定的反馈rrr,如奖励信号或文本评估,也可能与其他性能指标(例如,完成时间、准确率或鲁棒性)相结合。给定一系列任务(T0,T1,...,Tn)(\mathcal{T}_{0},\mathcal{T}_{1},...,\mathcal{T}_{n})(T0,T1,...,Tn)和初始智能体系统Π0\Pi_{0}Π0,自进化策略fff通过以下方式反复生成一个不断演化的智能体系统序列(Π1,Π2,...,Πn)(\Pi_{1},\Pi_{2},...,\Pi_{n})(Π1,Π2,...,Πn)
Πj+1=f(Πj,τj,rj),\Pi_{j+1}=f(\Pi_{j},\tau_{j},r_{j}),Πj+1=f(Πj,τj,rj),
其中τj\tau_{j}τjrjr_{j}rj是任务Tj\mathcal{T}_{j}Tj上的轨迹和反馈。

在这里插入图片描述

设计自进化智能体的总体目标是构建一个策略fff,以使任务上的累积效用最大化:
max⁡f∑j=0nU(Πj,Tj)\operatorname*{m a x}_{f}\sum_{j=0}^{n}U(\Pi_{j},\mathcal{T}_{j})fmaxj=0nU(Πj,Tj)

2.2 与其他工作的关系

表1总结了自进化智能体与其他范式(包括课程学习、终身学习、模型编辑和遗忘学习)之间的主要区别。与这些主要关注更新模型参数的现有范式不同,自进化智能体将更新目标的范围扩展到包括非参数组件,如上下文(提示和记忆)和工具集。这种扩展的空间提供了更大的灵活性,使自进化智能体能够在顺序任务设置中有效运行,并在测试时进行适应。更关键的是,自进化智能体独特地展示了主动探索的能力(例如,在线搜索开源工具[43])、对自身拓扑结构的结构修改(例如,迭代修改工作流程[64]或代码[55])以及自我反思和自我评估能力(例如,使用内部评估器大语言模型[17]提供语言反馈),这些能力在先前的范式中是不存在的。

我们将在下面简要介绍每个范式,突出这些范式之间的差异,以及与自进化智能体的差异。

课程学习:课程学习是一种人工智能模型的训练策略,其中数据按照难度递增的顺序呈现[124, 125]。这种策略类似于人类课程,其中概念从简单到复杂逐步引入。课程学习已广泛应用于计算机视觉[126,127,128]、自然语言处理[129,130]、语音识别[131,132]等多个领域。最近,已经提出了几种基于课程学习的方法,用于在训练后阶段对大语言模型进行微调[133, 134, 135, 83, 136]。课程学习的框架通常包括两个关键组件:一个难度测量器,用于量化每个训练数据点的难度级别;一个训练调度器,用于根据难度级别重新组织模型接收到的数据点顺序。与在静态数据集上运行的课程学习不同,自进化智能体旨在处理动态环境中的顺序任务。此外,课程学习仅更新模型参数,而自进化智能体能够调整记忆和工具等非参数组件。

终身学习:终身学习是指人工智能模型在接触新任务和环境时能够持续、自适应地学习,同时保留先前获得的知识和能力。这种学习范式,也称为持续学习或增量学习,对于人工智能模型在动态和复杂环境中运行至关重要[137,138, 139, 140, 141, 142]。人工智能模型终身学习的主要目标是在接触新数据或任务时,在保留现有知识(稳定性)和获取新知识(可塑性)之间取得平衡[143,138,144, 145]。尽管终身学习与自进化智能体具有顺序任务设置,但终身学习在两个方面存在差异:(1)与课程学习类似,终身学习通常仅更新模型参数,缺乏修改非参数组件的能力;(2)终身学习主要通过外部反馈或手动指导被动获取知识,而自进化智能体主动探索环境,并可能纳入内部反思或自我评估机制。
在这里插入图片描述

模型编辑和遗忘学习:模型编辑和遗忘学习旨在高效、精确地修改人工智能模型中的特定知识,同时保留无关知识并避免完全重新训练[146, 147, 148, 147, 149,150]。模型编辑的一个典型应用是进行高效、精确的局部事实更新(例如,将“2021年奥运会主办城市”的答案从“东京”修改为“巴黎”)。早期的方法专注于原子知识的三元组,后来扩展到各种与可信度相关的任务[151, 152]。最近的研究还提出了终身模型编辑[153],它可以顺序执行模型编辑。对于模型遗忘学习,早期的工作主要集中于去除与隐私相关的信息[154]。随着大语言模型的快速发展,模型遗忘学习也被用于增强大语言模型的安全性[155, 156, 157,158]。与终身学习相比,模型编辑具有一致的目标:两者都旨在获取新知识或能力,同时减轻灾难性遗忘。然而,终身学习通常依赖于对所有模型参数进行广泛的基于梯度的微调,而模型编辑通常以有针对性的方式仅修改一小部分参数。与自进化智能体相比,模型编辑(1)不能修改记忆或工具等非参数组件,(2)依赖于算法设计者预先定义的流程,而自进化智能体可以根据对环境的观察或内部反馈信号自发地采用更多样化和灵活的策略。

在这里插入图片描述

3 进化什么?

从预编程的静态系统向真正自主的智能体转变,关键在于一种核心能力:自我进化。这种持续改进的能力并非单一整体,而是体现在智能体系统的多个方面。因此,自我进化型智能体的首要关键在于明确可进化的组件——在智能体系统Π=(Γ,{ψi},{Ci},{Wi})~\Pi=\widetilde{(\Gamma,\{\psi_{i}\},\{C_{i}\},\{\mathcal{W}_{i}\})}Π=(Γ,{ψi},{Ci},{Wi})中,哪些组件能够随时间发生明确变化?根据2.1节的阐述,可将智能体系统分解为四个可进化的基础支柱。研究从智能体的认知核心——模型{ψi}\{\psi_{i}\}{ψi}入手,探究其如何通过自身经验持续更新推理与行为的基础参数[8, 22]。随后,关注影响智能体行动的情境{Ci}\{C_{i}\}{Ci},探索其遵循的指令[39, 37]及用于获取信息和适应环境的长期记忆[25, 29]的演变。从内部基础转向外部能力,分析智能体如何通过自主创造[43]、掌握[49]和管理新技能[53]来进化工具集{Wi}\{W_{i}\}{Wi},以克服固有局限。最后,将视角扩展至智能体系统本身,研究其架构[65, 64]和协作结构[70]如何动态优化,以提升整体性能和效率。表2展示了这些可进化维度的一个子集。

3.1 模型

模型是智能体的核心组成部分,直接决定其推理、规划和决策行为。这些模型通过持续调整内部参数和扩展功能能力实现进化,对于开发自主通用型智能体至关重要。与依赖人工标注数据集和固定训练方案的静态系统不同,自我进化型模型可通过交互、自监督数据生成和动态学习循环实现改进,从而获得更高的效率、适应性和可扩展性。以下详细阐述模型进化的主要方向,包括基于自生成监督的模型权重优化,以及通过与构建或外部环境交互实现进化。这些策略标志着从被动学习范式向主动、持续和自我导向改进的转变。

策略:自我进化型智能体可优化参数,以在目标任务中表现更佳。传统上,训练智能体使用工具的数据收集方法成本高昂且覆盖范围有限,而纯合成数据生成管道通常存在质量不足的问题。因此,近期研究强调让智能体自主生成数据以改进自身模型权重。一种代表性方法是自挑战智能体(Self-Challenging Agent, SCA)[8],其中语言模型交替扮演生成可执行“代码即任务”问题的挑战者和解决问题的执行者角色。该模型利用成功解决方案的轨迹微调参数,在复杂多步骤任务中取得显著性能提升。类似地,自奖励自改进框架[9]实现了内部自我判断机制,使模型能够自主生成问题、解决问题并评估自身表现,从而无需外部标注即可生成自包含的微调数据。该方法在复杂推理任务中展现出显著改进。除任务创建外,另一个有前景的研究方向是直接利用交互反馈更新参数。例如,SELF[10]、SCoRe[11]和PAG[12]将在线监督微调(Supervised Fine-Tuning, SFT)与强化学习(Reinforcement Learning, RL)框架中的执行轨迹或自然语言批评解释为奖励信号,实现策略的持续改进。TextGrad [13]进一步扩展了这一概念,将非结构化文本反馈视为可微训练信号,直接影响提示设计和模型参数。此外,AutoRule [14]将语言模型推理轨迹和偏好反馈转换为显式基于规则的训练奖励,通过结构化奖励信号提高模型输出质量。这些进展共同描绘了一条清晰的轨迹——从智能体自主设计训练任务到直接基于执行反馈优化参数,凸显了模型通过自身生成数据实现持续进化的能力。

在这里插入图片描述

经验:智能体不仅可通过调整内部参数进化,还可通过与环境主动交互甚至构建环境来捕捉经验,并将其转化为推动迭代改进的学习信号。这种环境循环为智能体提供了实现可扩展自我适应所需的复杂性和多样性。自挑战智能体(SCA)[8]在任务层面体现了这一动态,智能体自主生成新颖的“代码即任务”问题,执行问题,然后筛选成功轨迹进行自我再训练。AgentGen[16]将这一概念扩展至完整环境生成,从初始语料库合成多样化的模拟世界(采用PDDL或Gym风格格式)。它实现了双向进化循环,逐步调整任务难度,使智能体能够在动态结构化的课程中持续成长。Reflexion [17]通过引入自我反思机制对此进行补充,智能体迭代记录对先前行动的自然语言批评,指导未来行为以避免重复错误。此外,AdaPlanner[18]引入了闭环自适应规划,使智能体能够根据环境反馈实时优化策略,有效重塑行动序列以响应即时结果。类似地,SelfRefine[20]采用迭代优化循环,智能体反复批评和修订初始输出,无需显式再训练即可显著提高任务准确性。自改进编码智能体(SICA)[19]进一步突破界限,使智能体能够自主编辑底层代码和工具,通过直接自我修改迭代增强核心推理能力。从强化学习角度看,RAGEN [22]和DYSTIL [23]等框架将多步骤工具使用任务概念化为马尔可夫决策过程,通过丰富的环境奖励和策略归纳循环优化智能体策略。RAGEN利用环境的密集反馈迭代微调行动策略,而DYSTIL则利用语言模型生成的高级策略建议,将复杂决策技能逐步内化为强化学习智能体的能力。这些方法共同凸显了一种引人注目的范式:自我进化型智能体不仅利用自生成数据,还主动重塑环境和内部机制以推动持续学习。这种动态交互循环指向一种基于经验适应的自主开放式改进周期。

3.2 上下文

对于要进化的大型语言模型(Large Language Model,LLM)智能体而言,上下文是一个至关重要的组成部分,它决定了智能体的行为方式。首先,我们希望对“提示优化(prompt optimization)”和“记忆进化(memory evolution)”这两个在不同文献中使用的术语进行解释。在大多数情况下,这两个术语可以互换使用,因为它们都涉及上下文窗口所包含的内容。提示优化关注的是“我们如何措辞或构建指令,以使LLM表现更好?”,并注重措辞、顺序等细节。另一方面,记忆进化关注的是“我们应如何存储、遗忘和检索上下文,以使智能体能够保持信息并表现更好?”,其重点在于应呈现或存档哪些过去的信息。

3.2.1 记忆进化

基于LLM的智能体越来越多地设计了长期记忆机制,这些机制会随着智能体持续解决问题并与环境交互而不断发展和适应[160, 161]。不断进化的记忆使智能体能够积累知识、回忆过去的事件,并根据经验调整其行为。许多研究强调,有效的记忆管理对智能体的性能至关重要[162, 163, 164]。SAGE [24]使用艾宾浩斯遗忘曲线来决定要记住或遗忘的内容。A-mem[165]遵循卡片盒笔记法(Zettelkasten method)的基本原则,通过动态索引和链接更新智能体的记忆结构,创建相互关联的知识网络。Mem0 [25]引入了一个两阶段流程,智能体首先从最近的对话中提取重要事实,然后决定如何更新长期记忆:智能体可以添加新事实、合并/更新冗余事实或删除矛盾事实。这种机制确保了智能体的长期记忆连贯且最新。MemInsight [26]用语义结构增强原始记忆,对过去的交互进行总结和标记,以便后续检索。REMEMBER [27]将LLM与经验记忆相结合,并使用强化学习信号来决定在每个情节后如何更新该记忆。

记忆进化的一个关键方面是使智能体能够从过去的经验中学习启发式方法或技能。先进的智能体并非仅仅检索过去的精确实例,而是将经验提炼成更一般的指导[28, 166]。Expel [28]处理过去的轨迹,生成见解和规则,以指导进一步的交互。随着经验的积累,智能体的表现稳步提升,这种经验知识的积累带来了可衡量的收益。其他系统则专注于存储解决问题的更高层次的构建模块。例如,Agent Workflow Memory [29]记录常见的子任务序列(工作流程),以便解决复杂任务的智能体可以检索并重用经过验证的动作序列,而不是从头开始规划。在黎塞留(Richelieu)外交智能体中,系统通过自我对弈游戏增强记忆,存储从模拟交互中获得的见解,以完善未来的决策,从而改进谈判策略[30]。通过从特定情节中归纳出可重用的知识,这些方法展示了记忆进化如何将智能体的一次性经验转化为长期能力,进而促使智能体进化。

3.2.2 提示优化

虽然记忆进化关注的是智能体保留的知识,但提示优化(Prompt Optimization,PO)使LLM智能体能够通过优化提供给主干模型的指令来实现自我进化,这可以在不修改模型权重的情况下直接改变模型的行为[167]。早期的研究将指令设计视为一个搜索问题。APE [32]生成候选提示,在验证示例上对其进行评分,并选择最佳提示。ORPO [33]扩展了这一想法,让模型根据先前输出的反馈迭代重写自己的提示。ADO [168]引入了动态提示生成(Dynamic Prompt Generation,DSP),对迭代提出的提示施加语义约束,以促进找到最优提示。ProTeGi [34]生成自然语言“修正”,将其作为编辑应用于提示,形成梯度下降的文本类比。PromptAgent [35]将提示发现视为蒙特卡洛树搜索,战略性地探索指令空间,而PromptBreeder [5]等进化方法则维护一个种群,以发现越来越有效的指令。REVOLVE [36]通过跟踪模型响应的轨迹并应用平滑更新,进一步稳定了长时间的优化过程。将这种自主性推向极限,SPO [39]创建了一个完全自包含的循环,模型生成自己的训练数据,并使用其输出的成对偏好比较来优化提示,无需任何外部标记数据或人工反馈。总体而言,这些技术表明,智能体可以自主改进其提示策略,将提示文本转变为一个可学习的组件,该组件与智能体的经验共同进化。

在复杂系统中,智能体通常会协调一系列LLM调用或与其他智能体协作,这使得提示设计成为一个多节点问题。诸如DSPy之类的框架将整个工作流程表示为一个图,其子提示针对全局目标进行联合调整[37]。Trace [38]、TextGrad [13]和LLM-AutoDiff [40]将这一思想推广,将每个提示视为可微程序中的一个参数,并传播自然语言“梯度”以优化每一步。在协作场景中,多智能体系统搜索(Multi-Agent System Search,MASS) [63]首先优化单个角色提示,然后完善智能体间的通信模式,而MAS-ZERO [159]则动态提出和修订角色提示,为每个新问题组建一个有效的团队。进化系统如EvoAgent [41]和AgentSquare [54]将每个智能体及其提示视为模块,并使用变异和选择来发现优于手工设计的专业团队。这些方法将PO从单个指令扩展到定义整个工作流程或智能体社会的语言。

3.3 工具

智能体的能力从根本上取决于它所能使用的工具。智能体的发展轨迹标志着一个至关重要的进化:从单纯的工具使用者转变为自主的工具创造者。从依赖预定义的静态工具集到使智能体能够自主扩展和完善自身技能,这一转变是迈向认知自给自足的关键飞跃。在这种模式下,智能体能够动态调整自身能力,从而解决初始设计者未曾设想的众多复杂问题。这一进化在三个相互关联的方面展开:工具发现、掌握和管理,具体如下文各小节所述。

自主发现与创造 自主创造工具的主要动力在于克服固定工具集的固有局限性,赋予智能体按需创新的灵活性。如今,实现这一目标的方法涵盖了从机会性发现到形式化综合的广泛范围。一方面,像Voyager这样的智能体通过内在动机驱动的试错法,在《我的世界》(Minecraft)等复杂、开放的环境中不断扩展技能库[42]。这种探索性方法在生成广泛技能方面非常强大,但可能缺乏精确性。相比之下,像Alita和ATLASS这样的系统则采取更被动的策略,通常在识别到能力差距时,利用检索增强生成(Retrieval-Augmented Generation,RAG)搜索开源代码库或从头编写新函数[43, 44]。另一方面,存在高度结构化的框架,将工具创造视为一个深思熟虑的工程过程。例如,CREATOR将抽象工具创造(例如,思考一个用于计算NNN天内平均温度的可重用函数的一般结构)与具体工具使用(例如,决定如何将该函数应用于特定城市和时间范围)区分开来,这增强了模块化和可重用性[45]。更正式地说,SkillWeaver分析成功的人类或智能体任务轨迹,以提出、合成和完善新技能,使其成为强大、可重用的应用程序编程接口(Application Programming Interface,API),确保更高的初始质量[46]。此外,像CRAfT这样的框架表明,为特定领域创建专门的工具集对于补充通用模型至关重要,能够在不牺牲适应性的情况下实现专家级性能[47]。然而,这种日益增长的自主性带来了重大挑战,特别是在安全和保障方面。无约束的代码生成可能会创建具有可利用漏洞或意外有害行为的工具,使得自动验证和沙盒化成为未来研究的关键领域。

通过迭代优化实现掌握 自我创造工具的激增需要一种强大的掌握机制;新生成的工具通常是一个脆弱的脚本,而非可靠的功能。这就是迭代优化变得至关重要的地方。像LearnAct和From Exploration to Mastery这样的框架建立了一个关键的自我纠正循环,智能体从中学习自己的经验[48, 49]。这涉及解决困难的“信用分配”问题:确定究竟是哪一行代码或哪个参数导致了失败。为此,智能体分析各种反馈信号,包括编译器错误、意外的API返回值、环境状态变化,甚至用户后续行动的隐含信号。目标不仅是调试工具的底层代码,还要完善其文档(例如,其文档字符串和参数描述),这对于提高智能体未来理解和正确使用工具的能力至关重要。这一优化过程也为有价值的人机协作开辟了大门。虽然完全自主是最终目标,但许多系统可以设计为“人机协同”,其中人类专家可以提供纠正、提出高级建议或验证新创建的工具。这种协作方法可以显著加速掌握过程,并确保智能体的技能与人类意图和安全标准保持一致。最终,这种自我完善过程是将新技能提升为可靠能力,确保智能体不断增长的技能库不仅在数量上,而且在质量和稳健性上都有所提升。

可扩展的管理与选择 随着智能体掌握的技能库增长到数百或数千个,它面临着“丰富之困”。挑战从创造工具转变为高效管理和选择工具。庞大的技能库创造了一个巨大的搜索空间,使得传统的检索方法缓慢且不准确。为了克服这一问题,ToolGen代表了一种基本的范式转变,它将工具编码为语言模型词汇表中的唯一标记。这巧妙地将工具检索重新定义为生成问题,利用变换器(transformer)强大的模式识别能力,将其思维过程中最合适的工具预测为自然延续[53]。除了选择单个工具外,先进的智能体还必须擅长工具组合——学习以新颖的序列链接多个工具以解决多步骤问题。这是一项更高层次的管理任务。像AgentSquare这样的架构采用了一种元学习形式,自动搜索智能体的模块化设计空间,包括其规划、记忆和工具使用组件,以找到复杂任务执行的最佳配置[54]。作为这一进化趋势的逻辑终点,像达尔文-哥德尔机器(Darwin Godel Machine)这样的前瞻性概念提出了一个开放进化的框架,其中智能体可以从根本上重写自己的核心代码。在这个愿景中,智能体与其工具之间的界限变得模糊,导致了一种自我改进的递归级联,超越了单纯的工具增强[55]。本质上,这一整个进化路径旨在建立一个封闭且良性的循环:一个真正自主的智能体,能够感知自身能力的差距,创造新颖的解决方案,通过实践掌握它们,并将它们无缝集成到一个协调管理且不断扩展的技能库中。

3.4 架构

下一代智能体系统的显著特征是其具有自我改进的内在能力。这标志着系统从具备固定能力向能够自主提升性能的方向发生了根本性转变[169]。通过将自身的内部逻辑和协作结构视为可优化的组件,这些系统能够根据反馈调整自身行为和设计,达到静态设计无法企及的效率和效能水平。本节将详细阐述这种自我优化是如何实现的,首先探讨单智能体系统内的改进,然后研究复杂多智能体系统的协同进化。

3.4.1 单智能体系统优化

大语言模型调用节点优化:单独优化单个大语言模型(LLM)调用相对简单,但在智能体系统中,这却成了一个棘手的功劳分配问题,因为任何单一改动的效果都会被后续步骤所掩盖。针对这一问题,研究通过使节点级组件可优化来加以解决,主要采用两种策略。第一种策略侧重于在固定的智能体拓扑结构内优化节点。以TextGrad[13]为例,该模型受反向传播启发,利用“文本梯度”从最终输出反向传播反馈,贯穿整个工作流程,引导每个节点进行系统性的局部优化,同时不改变系统的整体结构。第二种并行策略则是将这种组件级优化直接融入系统架构的搜索过程中。在此方法下,节点特性成为更大搜索空间中的可调参数。例如,框架可以将提示工程直接嵌入搜索循环,使系统能够同时发现最优工作流程以及每个智能体的最有效指令[63]。同样,EvoFlow[62]利用进化算法从多样化的模型池中为每个任务选择最合适的LLM,构建异构工作流程。这种整体策略能够发现结构和单个智能体能力均得到协同优化的系统,有效平衡了整体性能和成本等指标[170]。

自主智能体优化:在优化单个LLM调用节点的基础上,更深层次的自我改进将自主智能体作为一个整体实体进行优化。这一进化沿着两个主要方向进行:优化智能体的高级架构设计,以及使智能体能够直接修改自身的源代码。第一种方法专注于发现最优智能体结构。AgentSquare[54]就是一个典型例子,它定义了一个由规划器和记忆模块等组件构成的模块化设计空间,然后使用进化算法为给定任务找到最有效的组合。第二个方向则涉及能够动态重写自身操作代码的智能体。这在一些激进系统中有所体现,如达尔文哥德尔机(Darwin Gödel Machine)[55],该系统可递归地修改自身的Python代码库;以及AlphaEvolve[61],它利用进化编码改进特定算法。同样,哥德尔智能体(Gödel Agent)[4]为智能体提供了一个自指框架,用于分析和改变自身逻辑。这两个方向(优化智能体的架构“蓝图”及其功能代码)共同表明了一个关键趋势,即将智能体的基本结构和逻辑转变为可学习的组件。

3.4.2 多智能体系统优化

智能体在系统内的组织方式和通信方式(即拓扑结构)从根本上决定了系统解决复杂问题的能力。该领域已经从使用固定的人为设计的通信结构,发展到创建能够根据给定任务自动调整组织的动态系统,从而发现并利用最有效的协作模式。这一进化主要沿着两个方向展开:静态显式工作流程的优化和动态内部策略的协同进化。

智能体工作流程优化:智能体工作流程优化侧重于为给定问题找到最有效的(通常是静态的)通信和任务分配结构。早期研究奠定了重要基础,例如AutoFlow[66]展示了从自然语言自动创建线性工作流程的方法,GPTSwarm[67]提出了一个统一的基于图的框架。同时,其他基础性研究探索了智能体如何通过符号学习将交互经验提炼成一套显式的、可解释的逻辑规则,以指导未来决策[171]。将系统抽象为可调组件(无论是节点、边还是符号规则)至关重要。然而,这些早期系统往往缺乏一种有效的方法来高效地遍历各种可能的配置和交互组合。

ADAS[65]和AFlow[64]将这一挑战正式定义为搜索和优化问题,实现了重大突破。ADAS通过将系统设计视为在基于代码的配置的图灵完备空间中进行搜索,提出了理论构想。在此基础上,AFlow通过引入表示常见智能体模式的可重用操作符,并采用蒙特卡洛树搜索(MCTS)高效地遍历庞大的设计空间,使这一构想得以实践。这些研究共同建立了将智能体系统设计视为可处理的优化问题的核心方法,证明了自动发现的工作流程能够优于人为设计的工作流程。

在此正式化之后,研究迅速朝着为每个特定查询创建定制化智能体系统的方向发展。出现了两种主要策略:基于搜索的生成和基于学习的生成。基于搜索的方法,如MaAS[172],创建一个潜在架构的“超网络”,然后从中采样一个专用系统。与此同时,基于学习的方法则训练模型直接生成有效的拓扑结构。例如,ScoreFlow[68]使用一种新颖的偏好优化方法训练生成器,而FlowReasoner[69]则使用强化学习训练一个元智能体,实时构建定制化工作流程。这种针对特定查询的生成方法仍然是活跃的研究领域[173,159]。此外,值得注意的是,这一过程不仅限于拓扑结构;许多框架还同时进行节点级优化,例如将提示的协同优化或异构模型的选择作为架构生成过程的一个组成部分[64, 63,62]。

所有搜索和学习方法面临的一个关键挑战是评估每个潜在工作流程的计算成本[54]。为了解决这一问题,研究人员开发了轻量级预测模型。Agentic Predictor[174]就是一个典型例子,它训练一个模型根据工作流程的结构和语义特征准确估计其性能,而无需完整执行。这些预测器提供了一个快速且低成本的评估替代方案,显著加速了优化过程,使得探索庞大的设计空间成为可能[175]。

多自主智能体优化:与优化系统的显式工作流程结构不同,这一研究方向关注多个自主智能体如何通过交互协同进化其内部行为策略。这种方法能够催生协调、任务分配和有益竞争等涌现能力。例如,ReMA[70]使用多智能体强化学习(MARL)协作训练一个高级元思考者和一个低级执行者,显著提高了推理基准测试的性能。在此基础上,GiGPO[71]通过聚合轨迹来提供更精确的功劳分配,增强了MARL训练,提高了长周期任务的成功率。为了支持这一方向,MARTI[176]等平台提供了开源基础设施,用于协调和扩展这些语言模型集合的训练。这些研究共同强调了多智能体强化学习是培养群体能力的一条有前景的途径,这种能力是单个智能体无法单独实现的。

4 何时进行自我进化

基于大语言模型(LLM)的智能体的自我进化在时间维度上,主要涉及学习过程与任务执行之间的关系。因此,自我进化智能体的第二个关键方面是确定进化时机,即何时调用并应用自我进化策略fff到智能体系统中。为此,我们提出了一种分类方法,将自我进化分为两种时间模式:测试内(Intra-test-time)自我进化和测试间(inter-test-time)自我进化。

测试内自我进化是指在任务执行过程中发生的自适应过程,在此过程中,智能体能够识别自身在特定问题上的局限性,并启动有针对性的学习机制,以实时增强自身能力[177,178]。这种进化模式的特点是与当前任务紧密相连:智能体针对所遇到的具体问题提升其解决问题的能力,从而在性能和适应性之间形成动态交互。

测试间自我进化则是指在任务完成之间进行的学习过程,通过利用积累的经验来提升未来的性能。这一类别涵盖了多种方法:离线学习范式,通过迭代优化从预先收集的数据集中提取知识[79, 80];以及在线学习范式,基于流式交互数据持续适应[84, 43, 179, 117]。

在上述时间阶段中实现自我进化,需利用大语言模型中的三种基本学习范式:上下文学习(In-Context Learning, ICL)[180, 181, 182],该范式通过上下文示例调整行为,无需修改参数;监督微调(Supervised Fine-Tuning, SFT),通过基于梯度的优化在标注数据上更新模型权重[183, 184, 185];以及强化学习(Reinforcement Learning, RL),通过奖励驱动的策略优化塑造行为[186, 187,188]。尽管这些学习范式在不同时间背景下保持概念上的一致性,但它们在数据可用性和学习目标方面的具体实现存在差异:

测试内自我进化具有在线性质:学习数据在任务执行过程中动态生成,优化直接针对当前问题实例的性能提升。这种实时耦合要求快速适应机制,能够在主动解决问题的时限内处理学习数据和反馈信号,并修改行为。

在这里插入图片描述

另一方面,测试间自我进化具有回顾性:学习算法基于历史数据(无论是来自精心策划的数据集还是积累的行为轨迹)进行操作,优化目标旨在提升任务分布上的预期性能,而非最大化特定问题实例的成功率。这种时间解耦使得能够采用更复杂的学习过程,识别跨任务模式,整合多样经验,并开发可泛化的能力,而无需受主动任务执行的即时性限制。

4.1 测试内自我进化

在测试内自我进化中,智能体参与的自我改进过程与解决当前任务紧密相连。这一时间阶段的显著特点是其同步性:反馈信号在任务执行过程中生成并处理,优化目标专门针对提升当前问题实例的性能,而非泛化到未来任务。下面,我们将介绍这三种学习范式在这一时间阶段中的实现方式。

上下文学习:测试内上下文学习方法利用模型的上下文窗口作为动态记忆系统,实现无需参数修改的即时适应。这些方法通常采用自我反思机制,智能体分析自身性能,生成口头批评或见解,并将这些反思存储在情景记忆缓冲区中,以指导同一任务背景下的后续决策[17,72]。一些方法超越了简单的反思,包括动态规划修订,智能体可以根据环境反馈修改其整体方法,根据需要切换动作执行和计划修改。例如,AdaPlanner[18]将任务分解为可管理的子目标,并预测每个子目标的环境反馈。在执行过程中,其细化组件区分计划内反馈(与预测相符的观察结果)和计划外反馈(偏离预测的观察结果)。对于计划内反馈,细化组件通过专门的ask_LLM()ask\_LLM()ask_LLM()动作动态查询大语言模型,以解析观察结果并提取相关信息。对于计划外反馈,细化组件主动修订整个计划,并从中间点恢复解决,而非从头开始。这种自适应闭环框架无需预先了解反馈结构,即可实现更高效的决策。同样,TrustAgent[73]在执行过程中采用基于规则的计划修订,根据语言反馈修改其方法,以进化出更安全的规划策略。这些上下文学习方法展示了如何在不进行永久性模型更改的情况下实现测试时间适应,从而在保持模型通用能力的同时保持灵活性。

监督微调:测试内监督微调代表了一种范式转变,模型通过学习到的元适应策略进行即时自我修改。自我适应语言建模[74]通过生成“自我编辑”来体现这一方法,这些是元级别的指令,可以重构信息表示、指定优化超参数或调用工具进行数据增强和梯度计算。这些自我编辑触发即时监督微调,导致模型权重的持久更新,使模型适应当前任务。关键创新在于元学习阶段,强化学习通过使用更新后模型的下游性能作为奖励信号,训练模型生成有效的自我编辑,本质上教会模型如何自我教学。

强化学习:测试内强化学习使模型在遇到超出当前能力范围的问题时能够按需开发新能力。LADDER[77]通过其测试时间强化学习(TTRL)机制展示了这一点:在识别出特别具有挑战性的问题后,系统生成一组聚焦的相关问题变体,并针对该问题类别进行密集、有针对性的强化学习。这种方法将难以克服的挑战转化为学习机会,使模型能够在部署期间扩展其问题解决能力,而非失败或提供次优解决方案。该方法代表了一种即时技能获取形式,其中计算资源在最需要的时间和地点进行精确投资。

4.2 测试间自我进化

测试间自我进化是自主智能体中的主要学习过程,其中适应发生在任务执行之后,而非执行期间。在这种时间模式下,智能体完成给定任务,提取反馈信号,包括显式奖励[189]、梯度[190, 191]和性能指标[192],然后利用这些信息提升未来解决问题的能力。这种回顾性学习过程将任务执行与能力提升解耦,使智能体能够整合经验,识别成功与失败的模式,并在无需受实时任务需求所施加的计算约束的情况下,系统地优化其行为策略。

上下文学习:测试间上下文学习已成为智能体自我改进的广泛采用的方法。该范式利用先前任务的执行结果和反馈作为未来问题解决的上下文信息。Wang等人[29]通过从智能体动作历史中归纳工作流程,并将其纳入后续任务的上下文中,展示了这一原则。上下文强化学习(In-Context Reinforcement Learning, ICRL)[193, 194, 195]领域通过在智能体的上下文窗口中维护观察和动作历史,扩展了这一概念。这些方法基于一个假设,即预训练神经网络可以在其前向传播过程中实现隐式强化学习算法,处理上下文信息以适应行为,而无需参数更新[196]。ICRL的一个显著特征是上下文改进:即随着上下文中任务相关信息的积累,智能体性能逐步提升的现象,使得智能体能够通过注意力机制而非基于梯度学习实现复杂的适应。

监督微调:测试间监督微调(SFT)[82]方法通过合成数据生成和自我评估建立了迭代自我改进的范式。SELF[10]开创了元认知训练,模型首先获得自我反馈和自我优化能力,然后迭代生成未标注指令的响应,并通过自我批判进行改进。STaR[79]和Quiet-STaR[80]专注于通过合理化推理提升能力——模型先尝试解决问题,然后为最初未能解决的正确答案生成解释,创建结合成功尝试和事后推理的增强训练数据。SiriuS[81]将这种方法扩展到顺序问题解决,维护正确解决方案库,同时通过多阶段优化改进失败案例,包括反馈整合、重新生成和改述。这些方法的核心见解是:模型可以通过学习评估和改进自身输出,从最初不完美的尝试中创建高质量的训练信号,而无需大量人工监督,从而实现自我提升。

强化学习:测试间强化学习利用不受约束的计算资源,通过广泛的环境交互和复杂的课程设计优化智能体。RAGEN[22]和DYSTIL[23]采用在线强化学习处理多轮交互任务,通过模拟对话中的同策略(on-policy)学习持续优化策略。Learning Like Humans[83]引入了受认知启发的训练方法,结合自适应难度进展、同策略探索与离策略(off-policy)效率,并利用专家示范加速学习。特定领域的应用展示了测试间强化学习的多功能性:WebRL[84]通过自我演进的课程开发网页导航智能体,根据性能自动调整任务复杂度;DigiRL[85]使设备控制智能体能够通过自主强化学习掌握野外交互。这些方法利用部署前阶段进行大量试错学习,通过数千次交互制定稳健的策略,这在实时部署中是不切实际的。

5 如何实现自我进化

构建先进、自主且通用性日益增强的人工智能系统的核心在于追求自我进化能力。对于大型语言模型(LLMs)及其智能体扩展而言,如何持续、自主且高效地提升其能力已成为核心挑战。因此,第三个关键方面

在这里插入图片描述

自我进化智能体的核心在于构建有效的进化策略fff,即如何将智能体系统Π=(Γ,{ψi},{Ci},{Wi}~)\Pi=(\Gamma,\{\psi_{i}\},\widetilde{\{C_{i}\},\{\mathcal{W}_{i}\}})Π=(Γ,{ψi},{Ci},{Wi})转换为其新状态Π′=(Γ′,{ψi′},{~Ci′},{W~i′})\Pi^{\prime}=(\Gamma^{\prime},\{\psi_{i}^{\prime}\},\widetilde{\{}C_{i}^{\prime}\},\{\widetilde{\mathcal{W}}_{i}^{\prime}\})Π=(Γ,{ψi},{Ci},{Wi})。与传统依赖于静态数据集或一次性监督微调的方法不同,自我进化强调模型从现实世界交互中持续学习、主动寻求反馈、自我反思、生成或整理新数据,并根据动态环境调整策略。这种持续进化不仅仅是数据或计算规模的扩展,它要求智能体具备一系列元能力,包括自我纠正、自主数据生成、知识迁移和多智能体协作。因此,自我进化的领域已变得越来越丰富和多元,每个方法分支都在探索反馈、学习范式、数据来源和进化规模的不同维度。

本章旨在系统地梳理和分析自我进化方法的主要类别,提供一个统一框架来理解其原理、机制和相互作用。我们首先探讨基于奖励的进化,其核心在于设计奖励信号——从自然语言反馈和内部置信度指标到外部或隐式信号——以指导迭代式自我改进。接下来,我们研究模仿与示范学习,其中智能体通过学习高质量的示例来改进,这些示例可以是自我生成的,也可以由其他智能体或外部来源提供。这种范式在示例丰富或能够自主合成时尤为强大,并在推理和多模态领域取得了显著进展。最后,我们介绍基于种群和进化方法,这些方法受生物进化和群体智能的启发。这些方法维护智能体变体或协作智能体的种群,利用选择、变异、交叉和竞争等机制并行探索解空间,促进多样性,并实现新策略或架构创新的涌现。

5.1 基于奖励的自我进化

自我提升能力是高级智能的基石。在大型语言模型(LLMs)背景下,这体现为一种由奖励驱动的动态进化过程,模型通过迭代学习自身输出和交互内容来完善自身能力。作为指导性反馈的奖励信号设计至关重要,它决定了学习过程的性质、效率和有效性。在本节中,我们将系统回顾奖励设计的主要方法,根据反馈的性质进行分类:文本反馈、内部置信度、外部奖励和隐式奖励。

文本反馈

文本反馈利用大型语言模型(LLMs)的天然模态——自然语言,来提供详细、可解释的改进指令。与标量奖励不同,文本反馈包含了细致入微的批评和可操作的建议。近期框架,如Reflexion[17]、AdaPlanner[18]、AgentS2[86]、SELF[10]、Self-Refine[72]、SCoRe[11]、PAG[12]和TextGrad[13]等,均体现了这一方向。例如,Reflexion提出了“语言强化学习”,即智能体用自然语言反思过去的试验,将这些反思存储为情景记忆以指导未来决策。AdaPlanner通过允许大型语言模型智能体根据计划内和计划外的反馈修订计划,实现了闭环自适应规划,同时通过代码式提示和技能发现来减轻幻觉问题。Self-Refine和SELF进一步探索了迭代自我反馈和自我纠正,表明即使是最先进的模型也可以通过多轮基于语言的自我批评来改进,而无需额外的监督数据或外部强化。这些框架凸显了语言作为奖励渠道的强大能力,实现了细致入微、灵活且样本高效的自我提升。

内部奖励

基于内部置信度的奖励不再依赖外部信号,而是利用模型的概率估计或确定性等内部指标。这种范式利用模型的内在理解来指导改进,无需依赖外部监督。诸如置信度知情自我一致性(Confidence-Informed Self-Consistency, CISC)[87]、自集成(Self-Ensemble)[88]、自奖励自提升(Self-Rewarding Self-Improving)[9]、通过自我确定性进行可扩展的最佳N选择[89]以及自奖励语言模型(Self-Rewarding Language Models)[90]等方法,允许模型根据内部置信度指标进行自我评估和响应校准。例如,CISC通过置信度分数对推理路径进行加权,以提高准确性和计算效率,有效地从多个候选方案中筛选出高质量解决方案。自集成通过将选择划分为更小、更易管理的小组,并聚合预测结果以减少过度自信偏差,从而减轻置信度失真。自奖励语言模型表明,模型可以充当自己的奖励函数,通过自我指导和自我评估循环生成训练数据。这些方法可以减少对人类标签和外部评估器的依赖,实现可扩展且自主的自我改进循环,无需人类干预即可持续运行。

外部奖励

外部奖励来源于模型外部,如环境、多数表决或明确规则。多数表决[91,92,93]利用多个模型输出之间的共识作为正确性的代理,提供一种自我生成但有根据的奖励信号。环境反馈,包括基于工具的信号,是智能体大型语言模型研究的核心(例如,SWE-Dev[94]、SICA[95]、反馈摩擦(Feedback Friction)[96]、USEagent[9]、DYSTIL[23]),其中智能体通过与现实世界环境和工具的直接交互进行学习。基于规则的奖励[98,14,83,77,22,99]使用明确约束或逻辑规则作为可验证的信号,在数学推理、游戏和结构化问题解决等领域特别有效。这些方法提供了客观、可靠的监督,但可能需要大量工程工作或表现力有限。

隐式奖励

隐式奖励框架假设,即使未明确标记为奖励,大型语言模型也能从反馈信号中学习。例如,“奖励就足够了”(Reward Is Enough)[100]表明,大型语言模型可以使用嵌入在上下文窗口中的简单标量信号进行上下文强化学习,无需显式强化学习微调或监督即可在多轮中改进其响应。这揭示了模型从输入上下文中隐含的反馈线索中解释和学习的内在能力。近期研究通过表明大型语言模型通过其标准训练目标内在地编码了类似奖励的信号,扩展了这一概念。内生奖励[101]揭示,标准的下一个标记预测隐含地学习了一个通用奖励函数,该函数可以从模型对数几率中提取,无需额外训练。此外,隐式自我提升(Implicit Self-ImprovemenT, PIT)框架[214]通过最大化基于参考响应的条件响应质量差距,无需额外人类努力即可从人类偏好数据中隐式学习改进目标。与基于规则或环境派生的外部奖励不同,隐式奖励方法通过发现和利用语言建模中固有的奖励信号,提供了独特优势。

5.2 模仿与示范学习

模仿与示范学习是一种范式,其中自我进化的智能体通过从高质量范例中学习来提升自身能力,这些范例可能由智能体自身、其他智能体或外部来源生成。与依赖显式奖励信号的基于奖励的方法不同,基于模仿的方法侧重于通过迭代自我训练和自举机制复制和完善成功的行为模式。当存在高质量示范或可以自主生成时,这种方法特别有效,使智能体能够在最小外部监督下提升自身能力。

5.2.1 自我生成示范学习

自我生成示范学习涉及智能体通过迭代细化过程创建自己的训练数据,其中模型通过从自身输出中生成和选择高质量示例来学习改进。

自举推理能力。[79]引入了自我生成示范学习的基础框架,使语言模型能够通过迭代自我训练提升其推理能力。这一过程包括为问题生成推理链、在正确解决方案上进行微调,并重复这一循环以逐步提高性能,而无需真实推理路径。基于这一框架,近期进展通过更复杂的训练策略细化了自举过程。例如,[102]提出了一种验证器指导的自我训练方法,其中单独的验证器模型在将生成的推理链纳入训练数据之前评估其质量,从而提高了自我改进的可靠性。此外,[103]引入了自适应数据采样策略,根据模型在各种推理任务上的表现动态调整训练数据的组成,从而减轻了对特定问题类型的过拟合。

多模态自我训练。将自我训练扩展到多模态领域在生成涵盖视觉和文本模态的高质量示范方面提出了独特挑战。[104]展示了视觉语言模型如何通过在自己的生成图像描述和视觉推理链上进行训练来迭代改进。该方法利用模型现有的视觉理解生成详细的图像描述,随后以自举方式用于微调模型的视觉感知。[105]在此基础上,通过使多模态大型语言模型成为强大的数据生成器,通过先进的提示工程和质量过滤机制生成跨不同模态和任务的多样化训练示例。

5.2.2 跨智能体示范学习

跨智能体示范学习涉及智能体从其他智能体提供的示范中学习,这些示范可以来自同一系统内部或外部来源,从而实现知识转移和协作改进。

多智能体自举推理。[81]提出了一个多智能体系统通过自举推理相互学习的框架。该系统维护一个包含不同智能体生成的成功交互轨迹的经验库,促进高效的知识共享和协作改进。每个智能体可以利用整个系统的集体经验,从而加速学习过程并实现多样化解决方案策略的发现。这一框架展示了智能体如何在复杂任务的不同方面实现专业化,同时受益于整个系统积累的知识。

领域特定示范学习。示范学习在推荐系统等需要有效转移专家知识的专业领域的应用中特别有效。自我优化微调[106]等技术使基于大型语言模型的推荐系统能够从自身成功的推荐模式中学习,创建一个随着时间的推移增强个性化的反馈循环。该系统从成功的用户交互中生成高质量的推荐示范,并利用这些示范对底层语言模型进行微调,最终实现更准确和个性化的推荐。

5.2.3 混合示范学习

混合示范学习结合了自我生成和外部示范,创建了更强大和多样化的训练方案,利用了每种方法的优势。

递归自我改进。[107]展示了如何通过结构化自我反思和示范生成来训练智能体系统地改进其行为。这种方法使语言模型智能体能够内省其推理过程、识别改进领域并生成纠正性示范以解决这些弱点。这一递归过程建立了一个持续改进循环,使智能体在自我诊断和自我纠正方面变得越来越熟练,从而实现更强大和适应性更强的行为。

置信度指导的示范选择。近期研究侧重于从自我生成和外部来源中选择高质量示范的更复杂机制。基于置信度的方法[108]利用模型的不确定性估计来确定哪些示范最有可能对学习产生积极贡献,过滤掉可能有害或低质量的示例。这种方法解决了示范学习中的一个关键挑战:低质量示范可能会降低性能。通过确保仅使用高置信度、高质量的示例进行训练,这一方法有助于保持学习过程的完整性。

模仿与示范学习方法的有效性在很大程度上取决于可用示范的质量和多样性。虽然当存在高质量范例时,这些方法可以产生令人印象深刻的结果,但在良好示范稀缺或可用数据中未充分体现最优行为的领域中,它们面临挑战。未来的研究方向包括开发更复杂的示范选择和生成策略、提高从不完善示范中学习的鲁棒性以及创建更好的机制来结合来自多个来源的示范。

5.3 基于种群和进化方法

与前文讨论的基于奖励和基于模仿的方法相比,基于种群和进化的方法为智能体进化提供了一种截然不同的范式。基于奖励的方法通常通过迭代奖励信号来优化单个智能体,基于模仿的学习则依赖于从示范中学习;而基于种群的方法则从生物进化和群体智能中汲取灵感。这些方法同时维护多个智能体变体,通过选择、变异、交叉和竞争交互等机制,实现对解空间的并行探索,并催生出多样化的能力[109]。这能够扩大搜索覆盖范围,发现基于梯度优化可能错过的全新解决方案。当解空间复杂、多模态,或者最优策略需要根本性的架构变化而非参数微调时,这种方法尤其有价值。

5.3.1 单智能体进化

单智能体进化方法侧重于通过基于种群的机制来进化单个智能体,在此过程中,智能体的多个变体相互竞争并随时间推移而进化。这些方法大致可分为两种主要范式:从进化中学习和基于多次推演的自博弈。

从进化中学习。该范式直接借鉴生物进化,维护智能体变体的种群,并应用进化算子来发现更优的能力。达尔文-哥德尔机(Darwin Gödel Machine,DGM)[55]通过开放式的自我改进智能体进化来体现这一方法,这些智能体维护着所有历史版本的存档,支持从任何过去的“物种”分支进化,而非线性优化。该系统允许智能体直接修改自身的Python代码库,通过在编码基准测试中的实际性能驱动进化,并在选择父代时平衡性能得分与多样性探索的新颖性奖励,从而实现自指改进。与这种代码层面的进化相辅相成的是,受自然启发的基于种群的进化(GENOME)框架[109]直接将遗传算法应用于语言模型参数的进化,维护种群并对模型权重应用交叉、变异和选择算子。GENOME+在此基础上引入了粒子群优化概念,增加了继承机制和集成方法,展示了无梯度进化优化如何通过参数空间探索有效提升模型能力。基于多次推演的自博弈。该范式侧重于智能体通过迭代自竞争和基于推演的学习来提升自身,在此过程中,智能体生成多条轨迹并从自身的探索中学习。自博弈微调(Self-Play FineTuning,SPiN)[110]通过让当前模型与之前版本竞争来奠定基础,创造出一种进化压力,使得只有不断改进的策略才能存活,且无需外部标注。SPC[111]通过复杂的对抗性协同进化进一步推进了这一方法,其中“狡猾生成器”学习制造欺骗性错误,而“步骤评判器”则进化出检测日益微妙错误的能力,利用自动化验证来持续改进,无需人工步骤级标注。STL[112]通过迭代前瞻搜索展示了自我教学进化,其中价值模型从自身的探索性推演中生成训练数据,将数值价值学习与自然语言推理链相结合,以引导持续改进。这些方法都遵循利用智能体自身生成的经验作为学习信号的原则,创造出无需外部监督即可持续进化的自我提升循环。

5.3.2 多智能体进化

多智能体进化方法将基于种群的方法扩展到进化整个智能体团队或网络,侧重于优化集体行为、协调策略和协作架构。根据进化机制的不同,这些方法可分为两种主要范式:系统架构进化和基于知识的进化。

系统架构进化。该范式侧重于进化多智能体系统的结构和协调方面,包括团队组成、编排策略和工作流优化。EvoMAC[113]引入了一个模仿神经网络训练的多智能体系统框架,实现了“文本反向传播”,其中编译错误和测试失败作为损失信号,驱动智能体团队组成和个体提示的迭代修改。一个专门的“更新团队”分析文本反馈以识别有问题的智能体并生成修改指令,有效地在智能体配置空间而非模型参数空间中实现了基于梯度的优化。基于这一结构进化概念,Puppeteer[114]采取了不同的方法,侧重于协调策略的进化而非团队组成的变化。该系统采用一个中央编排器,通过强化学习进化其决策策略,动态选择在每一步激活哪些智能体,同时平衡任务性能与计算成本。这种“操纵者-木偶”范式展示了架构进化如何在协调层面发生,发现高效的协作模式和涌现行为,如核心智能体之间更紧密的协调和复杂的循环交互模式。

基于知识的进化。该范式强调通过记忆积累和基于案例的学习来进化多智能体团队的集体知识和经验,主要通过上下文学习而非参数更新来运作。MDTeamGPT[115]通过一个双知识库系统奠定了这一方法的基础,实现了用于存储成功案例的CorrectKB和用于捕捉失败反思的ChainKB,使系统能够通过结构化案例检索和推理增强从成功和失败中学习。MedAgentSim[116]扩展了这一医疗咨询框架,展示了如何将这种基于知识的进化应用于现实世界的诊断场景,从患者互动中积累经验,并使用检索增强生成来随时间提高咨询质量。

在这里插入图片描述

5.4 跨领域进化维度

智能体的自我进化是一个多面过程,其特点是由多个跨领域维度构成,这些维度决定了智能体如何随时间学习、适应和改进。除单一学习算法或监督信号外,这些维度还定义了自主智能体设计和分析的核心原则。在本节中,我们沿若干关键轴线,对主要的自我进化方法家族——基于奖励的方法、基于模仿/演示的方法和基于群体的方法——进行系统比较,这些轴线包括学习范式(在线学习与离线学习)、策略一致性(同策略与离策略)和奖励粒度(基于过程的、基于结果的或混合的)。我们进一步强调了其他维度,包括反馈类型、数据源、样本效率、稳定性和可扩展性,具体总结见表4。这一全面比较为理解不同智能体进化方法所固有的优势、局限性和设计权衡提供了统一视角。

5.4.1 在线学习与离线学习

自我进化智能体设计中的另一个基本维度是学习范式,其可大致分为离线学习或在线学习。这一区别取决于智能体的进化更新是在静态的、预先收集的经验数据集(离线学习)上执行,还是通过与实时环境的持续直接交互(在线学习)来执行。

离线学习:在离线学习范式中,学习阶段与实时任务执行相分离。离线学习过程通常包括离线数据生成、筛选和模型微调的循环,重点在于在部署前构建一个强大且通用的基础模型。该领域的一项主要策略是大语言模型(LLM)自举,即模型利用其自我生成的内容来增强自身能力。例如,Self-Instruct[202]展示了语言模型如何通过生成新指令并将其与自身响应配对,创建用于微调的合成数据集,从而自举其自身指令跟随能力。在此基础上,WizardLM[203]展示了如何逐步提升这些自我生成指令的复杂性,使模型在更具挑战性的任务上提升能力。在图形用户界面(GUI)和网络智能体方面,离线学习通常涉及利用预先收集的高质量轨迹进行监督微调(SFT)。OS-Genesis[204]引入了一种用于自动轨迹创建的反向任务合成方法。同样,UI-Genie[120]采用统一的奖励模型进行轨迹评估,并采用自我改进循环来迭代生成高质量轨迹。这两种方法都专注于策划丰富的SFT数据集,以增强智能体解决复杂任务的能力。除了SFT,离线学习方法还包括在智能体-环境交互的静态数据集上执行的强化学习。例如,GUI-R1[205]和Infi GUI-R1[206]利用基于规则的奖励,并在离线GUI数据集上应用R1风格[215]训练。

在线学习:相比之下,在线学习使智能体能够在与实时或模拟环境交互时持续学习和适应。每次动作的反馈用于实时更新智能体的策略、计划或知识库。这使其能够更好地适应动态或未见情况。一些智能体并非通过更新模型权重,而是通过即时调整其计划和技能库来实现在线进化。例如,Voyager[42]展示了一个由LLM驱动的智能体,该智能体通过持续探索、生成自己的任务课程,并从直接经验中构建持久的技能库,从而学会玩《我的世界》(Minecraft)。AdaPlanner[18]专注于在任务中调整其计划;它生成初始计划,从环境中接收反馈,并在线完善计划。同样,SwiftSage[207]采用快速与慢速思考过程,其中它能够反思其快速、直观模式的失败,并切换到更审慎、使用工具的慢速模式,根据任务难度在线调整其策略。强化学习是在线学习的基本机制,使智能体能够从环境奖励信号中学习。DigiRL[85]展示了如何使用自主强化学习(RL)在野外训练设备控制智能体,而DistRL[212]则提出了一个异步分布式框架,以使此类设备上训练成为可能。MobileGUI-RL[213]通过引入结合轨迹感知奖励的合成任务生成流水线与群体相对策略优化(GRPO),解决了在线移动环境中训练GUI智能体的特定挑战。

5.4.2 同策略学习与离策略学习

上一节探讨了数据收集与学习的时间安排(在线学习与离线学习),而本节则聚焦于智能体进化的策略一致性方面——具体而言,即智能体是从其试图改进的同一策略所生成的经验中学习(同策略),还是从不同策略生成的经验中学习(离策略)。这一区别对于理解智能体如何利用其经验数据,以及在进化过程中如何平衡学习稳定性与样本效率至关重要。

同策略学习:同策略方法要求智能体仅从其当前策略生成的经验中学习,确保策略一致性,但往往以牺牲样本效率为代价。Reflexion[17]通过其迭代自我反思机制展示了这一方法。智能体使用当前策略生成响应,接收关于失败的反馈,并立即将此反馈纳入下一次迭代的推理过程中。GRPO[216]和DAPO[217]延续了这一路径,并展示了多次推演的有效性。智能体始终从其当前行为中学习,保持严格的策略一致性。在智能体设置中,同策略方法提供了出色的学习稳定性,并避免了困扰离策略方法的分布不匹配问题。然而,它们存在样本效率低下的问题,因为每次策略更新都需要收集新数据,这使得它们在复杂的多步推理或工具使用场景中计算成本高昂,因为生成高质量轨迹的成本很高。

离策略学习:离策略方法允许智能体从不同策略生成的经验中学习,包括先前版本、其他智能体或人类演示,从而显著提高样本效率,但可能存在分布不匹配问题。[218]展示了一种复杂的离策略方法,其中模型Mt+1M_{t+1}Mt+1从先前版本MtM_{t}Mt生成的偏好数据中学习。该系统通过DPO内置的与参考策略的KL散度约束来处理分布偏移,防止新策略偏离数据生成策略过远。[219]通过基于排名的监督从包括其他模型、人类和不同采样策略在内的多样化响应源中学习,展示了另一种强大的离策略范式。该方法通过将对齐视为排名问题而非要求策略一致性,巧妙地规避了分布偏移。[81]展示了多智能体设置中的离策略学习,其中智能体从包含先前策略版本生成的成功交互轨迹的“经验库”中学习,实现了昂贵的多智能体协调数据的有效重用。在智能体设置中,离策略方法在样本效率方面表现出色,使智能体能够利用历史数据、专家演示和跨智能体学习。它们在成功轨迹罕见且生成成本高昂的多步推理场景中,以及在智能体无需重复环境交互即可从多样化执行示例中学习的工具使用场景中具有特别的价值。然而,它们面临分布偏移、奖励操纵(智能体利用训练和部署策略之间的不一致性)以及需要精心正则化以保持训练稳定性的挑战。

5.4.3 奖励粒度

奖励设计中的另一个关键选择是奖励粒度,它决定了智能体在何种细节层次上接收其学习信号。奖励粒度范围从粗粒度的基于结果的奖励(评估整体任务完成情况)到细粒度的基于过程的奖励(评估智能体轨迹的每一步)。当前的自我进化框架采用这些不同层次的粒度,以根据任务复杂性和期望的学习成果定制反馈机制。

基于结果的奖励:基于结果的奖励是一种反馈机制,它根据智能体对预定义任务的成功完成情况对其进行评估。这种奖励仅由智能体轨迹的最终状态决定,与中间步骤无关。特别是在网页或GUI导航等动态环境中,一个核心挑战是如何有效地从成功轨迹和更频繁的失败轨迹中学习。为解决这一问题,直接偏好优化(DPO)[220]旨在直接最大化首选响应的可能性,同时最小化与参考策略的KL散度。同样,RRHF[219]采用排名损失方法,通过排名响应概率而无需辅助价值模型,使模型对多个响应的概率与人类偏好保持一致。此外,多项工作已开发出基于基于结果的奖励的智能体自我进化专用框架。一种直接的方法是拒绝采样微调,如AutoWebGLM[208]中所使用。该方法采用预先设计的奖励模型来评估轨迹结果,识别成功轨迹,并使用此高质量数据更新模型。DigiRL[85]将GUI导航任务建模为马尔可夫决策过程(MDP),并使用基于视觉语言模型(VLM)的评估器在片段结束时获得最终、稀疏的奖励。WebRL[84]开发了一个强大的结果监督奖励模型(ORM),以解决动态网络环境中反馈稀疏性的问题。ORM在自我进化课程框架内评估任务成功情况,使智能体能够从失败尝试中学习并逐步改进。

基于过程的奖励:与提供单一、延迟信号的基于结果的奖励相比,基于过程的奖励范式通过评估智能体轨迹的每一步来提供更精确和细粒度的反馈。过程监督奖励模型(PRMs)已被证明比结果监督奖励模型(ORMs)更可靠,特别是在需要复杂推理的领域,如解决数学问题[209]。然而,传统上获取这种细粒度的步骤级反馈需要大量人工注释,这既耗时又难以大规模扩展。为解决这一注释瓶颈,Math-Shepherd[197]提出了一种自动过程注释框架,该框架利用蒙特卡洛树搜索(MCTS)通过评估每一步推导出正确最终答案的潜力来收集步骤级监督。同样,AlphaMath[210]训练一个价值模型来评估解决方案路径中的步骤正确性,并在MCTS框架内通过探索和利用来更新策略和价值模型。通过利用基于过程的奖励,智能体可以以渐进、逐步的方式提高其能力。rStar-Math[211]和AgentPRM[198]均提出了迭代进化策略和过程奖励模型的方法,无需人工标签即可生成质量逐步提高的推理路径。Agent Q[199]将其MCTS过程中集成了一个步骤级验证机制,以收集高质量轨迹,然后使用这些轨迹通过DPO训练迭代地完善策略。

混合奖励:混合方法旨在通过结合最终任务成功的清晰性(基于结果)和中间步骤的细粒度指导(基于过程)来提供更全面的学习信号。这些方法克服了仅基于结果的信号的稀疏性,同时将智能体的逐步推理与最终任务目标相结合。例如,GiGPO[200]通过引入双层奖励机制来解决训练长视野智能体的不稳定性问题。它根据整个轨迹的最终成功提供片段级奖励,同时为中间动作分配局部、步骤级奖励。这种双重信号既提供了高级方向目标,又提供了低级纠正指导。同样,SPA-RL[201]提出了一种奖励分解方法,该方法弥合了稀疏结果信号和密集过程反馈之间的差距。它根据最终任务完成情况,将多步轨迹中每一步的增量进展归因于该步骤,从而有效地将基于结果的奖励分配到过程步骤中。这种方法创建了密集的中间进展奖励,提高了强化学习的有效性,同时保持了与最终任务目标的一致性。

5.5 自我进化方法的其他维度

除学习范式、策略一致性和奖励粒度等核心轴线外,表4还强调了区分自我进化方法的几个其他重要维度:

反馈类型:反馈的性质千差万别:基于奖励的方法利用标量奖励、自然语言信号或模型置信度;模仿方法侧重于演示轨迹和理由;基于群体的方法使用适应度分数或竞争信号。反馈类型从根本上决定了智能体用于改进的信息。

数据源:基于奖励的方法通常通过智能体-环境交互或工程规则生成数据,而模仿学习通常依赖于人类或专家生成的演示。基于群体的方法则借鉴多个智能体或世代的集体经验,实现多样化探索,但需要大量协调。

样本效率:在提供高质量演示的情况下,模仿学习通常是最具样本效率的,因为智能体可以直接模仿专家行为。基于奖励的方法具有中等效率,其效率对奖励稀疏性高度敏感。基于群体的进化往往样本效率低下,因为它通常需要通过多次试验评估大量智能体变体。

稳定性:基于奖励的学习对奖励函数的质量和设计敏感,存在奖励操纵或意外行为的风险。模仿学习在很大程度上取决于演示的质量和多样性。基于群体的方法对群体大小和多样性敏感,小规模或同质群体存在过早收敛的风险。

可扩展性:可扩展性取决于数据或反馈收集的可行性以及学习并行化的能力。当反馈自动化时(例如,通过模拟器),基于奖励的方法可扩展性良好。模仿学习往往受限于收集演示的成本。基于群体的方法可以扩展到大规模计算,但资源消耗巨大。

这些维度共同为自我进化策略提供了一个更细致、多维的视角,指导从业者选择和设计最适合其特定领域挑战的智能体学习流程。

6 进化方向何在?

自进化智能体推动了众多领域和应用的发展。总体而言,这些应用可系统地分为两类:(1)通用领域进化,即智能体系统在数字领域内,通过进化来提升其在各类任务中的能力;(2)专用领域进化,即智能体通过进化,专门提升其在特定任务领域的熟练程度。本质上,通用型智能体的进化侧重于将所学经验迁移到更广泛的任务中,而专用型智能体的进化则强调在特定领域内深化专业知识。

6.1 通用领域进化

第一类是通用领域进化,指为通用型应用而设计的自进化智能体,特别是作为多功能数字助理。这些智能体逐步提升自身能力,以应对广泛的用户查询,尤其是在动态且多样的数字环境中。从技术层面讲,这些通用助理智能体主要通过三种机制来提升能力:记忆优化、课程驱动训练以及模型 - 智能体协同进化。这些机制共同助力智能体持续适应并有效应对日益复杂的用户需求。
在这里插入图片描述

记忆机制。促进智能体进化的最常见机制是记忆机制,智能体将历史成功/失败经验[42, 221]总结为记忆表征[222],期望这些提炼后的经验在处理未曾见过的任务时能发挥作用。例如,Mobile-AgentE[117]采用了一种长期记忆结构,该结构包含提供通用指南的“提示(Tips)”和从过往经验中得出的可重复使用动作序列“快捷方式(Shortcuts)”。这一自进化模块支持智能体在复杂智能手机任务上持续提高性能。另一个典型例子是MobileSteward [118],它在中央智能体的协调下管理多个特定应用的智能体,并设有专门的任务调度、执行和评估模块。它还融入了基于记忆的自进化机制,通过总结成功执行案例来改进未来跨应用指令的处理。与此同时,Generative Agents [223]存储其经历的情景记忆,合成更高层次的反思,并基于这种自我反思来规划未来。在这些例子中,记忆是智能体将过往经验内化、抽象出高级模式并优化未来行为的基础。

模型 - 智能体协同进化。另一项工作是针对大语言模型(LLM)智能体开展模型 - 智能体协同进化。UI-Genie [120]构建了一个专门的图像 - 文本奖励模型,该模型可在步骤和任务层面为轨迹打分。它利用通过控制性干扰和困难负样本挖掘生成的多代合成轨迹,联合微调智能体和奖励模型。WebEvolver [119]引入了一个协同进化的世界模型LLM,用于模拟网络环境。它通过预测下一个观察结果来生成合成训练数据,并在推理过程中实现前瞻推理,从而显著提高真实网络任务的成功率。Absolute Zero [121]通过强化自对弈使推理智能体及其内部自我奖励模型协同进化。该框架通过对抗性地生成更具挑战性的推理问题,并利用内部自我确定性作为奖励信号来优化智能体,同时更新智能体的策略和自我奖励机制。这些方法共同证明了协同进化智能体和辅助模型(如奖励模型或世界模型)的有效性,有助于在LLM智能体系统中实现更稳健、通用和可扩展的学习。

课程驱动训练。课程驱动训练也是构建自进化通用助理的关键机制。例如,WebRL [84]采用自进化课程:当智能体失败时,会自动生成类似但可管理的任务。结合学习到的奖励模型和自适应策略更新,该方法在WebArena基准测试中显著提高了成功率。Voyager [42]在《我的世界》(Minecraft)中同样利用了自下而上的自动课程,GPT - 4根据智能体的进展提出合适的后续任务,通过迭代提示和环境反馈构建不断增长的基于代码的技能库。这些方法凸显了课程学习如何使智能体通过迭代任务适应自主扩展能力。

6.2 专用领域进化

除了通用数字智能体,自进化智能体在专用领域也得到了有效应用,其进化旨在显著提升其在更窄任务集中的性能。

编程。自进化智能体的能力可直接应用于编程等实际应用,其自主适应和改进的能力为软件开发带来了变革性方法。SiCA [95]表明,自我改进的编程智能体能够自主编辑自身代码库,并提高在基准任务上的性能。EvoMAC [113]在多智能体协作网络上引入了自进化范式,该范式自动优化单个智能体提示和多智能体工作流程,通过克服手动设计系统的局限性,显著提高了代码生成性能。AgentCoder [224]也专注于多智能体代码生成框架,该框架通过迭代优化实现自进化。程序员智能体根据测试执行器智能体的反馈不断改进代码,这些反馈由测试设计者提供的独立测试用例验证,显著提高了效果和效率。Zhang等人[225]通过筛选高质量答案、按难度分层经验以及从自生成数据中自适应选择示例,使LLM智能体持续进化,从而显著提高性能并构建机器学习(ML)库。尽管这些实例的具体机制各不相同——从单智能体自我编辑到复杂的多智能体协作网络和基于经验的学习——但它们都遵循迭代自我改进和自主适应的核心原则,以提升编程能力。这些进展凸显了自进化智能体如何通过持续学习和优化,显著提高编程效率和代码质量。

图形用户界面(GUI)。自进化GUI智能体将LLM的能力从纯文本推理扩展到直接操作桌面、网络和移动界面,它们必须应对庞大的离散动作空间、异构布局和部分视觉可观测性。Yuan等人将像素级视觉与自我强化相结合,使智能体无需额外人工标签即可迭代优化点击类型定位精度[226]。在真实桌面软件上,WindowsAgentArena中的Navi智能体重放并评估自身失败轨迹,最终在150个Windows挑战中任务完成率提高了一倍[227]。对于开放网络自动化,WebVoyager将截图特征与思维链反思相结合;连续自我微调使其在未见网站上的端到端成功率从30%提高到59%[228],而ReAP则添加了过去结果的情景记忆,在先前失败的查询上又恢复了29个百分点的成功率[229]。除了强化学习和记忆,AutoGUI持续从实时界面中挖掘功能注释,以在每个训练周期扩展可重用技能库[230],而MobileUse则部署了分层自我反思堆栈,用于在现场监控、验证和修订智能手机动作[231]。这些系统共同体现了自进化的完整三要素——进化内容(定位模块、技能记忆)、进化时机(离线整合与在线反思)以及进化方式(强化学习、合成数据、分层监控)——为构建具备通用能力的界面智能体指明了方向。

金融。为金融等专用领域定制智能体时,主要瓶颈在于如何高效构建并将领域特定知识库整合到智能体的学习过程中——而自进化机制可有效缓解这一挑战。QuantAgent [122]提出了一个双层框架,该框架通过模拟和真实环境的反馈迭代优化智能体响应,并自动增强其领域特定知识库。这一迭代过程帮助智能体逐步接近最优行为,减少对昂贵的人工整理数据集的依赖,并在交易任务中显著提高预测准确性和信号质量。TradingAgents [232]结合了反思、强化学习以及来自真实交易结果的反馈循环等动态过程,并通过协作辩论不断优化策略,提升交易性能。这些发展凸显了自进化智能体通过自主构建领域专业知识、适应动态市场条件以及持续改进决策和交易性能,为金融领域带来变革的潜力。

医疗。自进化智能体已成为医疗人工智能领域的一种强大范式,在管理现实世界临床实践的复杂性和不断变化方面,适应性和进化能力至关重要。其中一个最突出的应用是医院规模模拟。例如,Agent Hospital [233]创建了由LLM驱动的医生、患者和护士组成的封闭环境,允许医生智能体治疗数千例虚拟病例。这一过程帮助这些智能体无需人工标注即可自主优化和进化诊断策略,最终在美国医学执业资格考试(USMLE)风格的考试中取得优异成绩。同样,MedAgentSim [234]集成了LLM医生、患者和工具智能体。它将成功的会诊记录为可重用的轨迹,并利用思维链反思和共识来推动自进化,提高连续交互的成功率。另一个例子是EvoPatient [235],它让医生智能体和患者智能体进行持续对话。随着每一代的更迭,它们用高质量的交流更新记忆:患者发展出更真实的症状叙述,而医生学会提出更尖锐的问题。值得注意的是,这一过程无需显式梯度更新或手工设计的奖励。强化学习也是构建自适应医疗智能体的核心。例如,DoctorAgent-RL [236]将会诊建模为马尔可夫决策过程,使用对诊断准确性、覆盖范围和效率进行评分的奖励函数。这有助于引导策略梯度更新,使智能体比基于模仿的方法更快地提出更相关的问题并做出正确诊断,从而实现自我改进。此外,像“学会当医生(Learning to Be a Doctor)”这样的自动化架构搜索方法将工作流程本身视为可进化对象,迭代插入专家子智能体或新的推理步骤以覆盖观察到的失败模式,并提高多模态诊断准确性[237]。最后,除了临床决策,自进化智能体还已扩展到生物医学发现领域。

OriGene[238]作为虚拟疾病生物学家,通过迭代优化分析过程实现进化。它利用人类和实验反馈更新核心推理模板、调整工具使用策略并优化分析协议。同样,STELLA [239]是一个自进化生物医学研究智能体,它通过模板库将成功的推理工作流程提炼为可重用模板,并通过外部或新组装的工具扩展其工具库,以满足新兴的分析需求,从而随着时间的推移不断改进。

教育。自进化LLM智能体在教育领域也得到了广泛应用。在学习者层面,个性化辅导智能体PACE [240]根据详细的学生档案调整提示,并在对话中不断优化提问。同时,LLM - to - LLM自对弈框架生成多样化的师生对话,进一步微调智能体,使其教学策略在交互过程中和交互后都能得到进化。另一个例子是MathVC [241],它为虚拟学生采用符号化人格特征,并使用元规划器协调现实的问题解决阶段。这种设置使智能体的对话过程能够逐步向正确解决方案进化,密切模拟协作学习的自然展开方式。在教师层面,专业发展平台i - vip [242]等自进化智能体系统部署了一组合作的LLM智能体——教练、评估者和反馈生成器——它们实时评估和改进彼此的输出。这些智能体根据师生反馈调整解释,并在部署后继续通过纳入专家反馈来进化,从而随时间优化提示策略。同样,EduPlanner [243]将课程计划制定视为对抗循环,评估者和优化器智能体反复审查和优化规划者的草案,直至满足多样化的教育目标。同样,SEFL [244]使用师生自对弈生成大量作业 - 反馈示例,然后微调轻量级反馈模型。这一自进化过程显著提高了评论的清晰度和实用性。这些例子共同表明,自进化LLM智能体如何动态适应学习者和教师,推动更个性化、有效和可扩展的教育体验。

其他。除了上述四个主要领域,自进化智能体还展现出更广泛的应用性,在传统智能体往往表现不佳的专用领域中提供卓越的适应性和性能。例如,Arxiv Copilot[123]通过将生成答案、研究趋势和想法等历史用户交互纳入其思维数据库,学习并适应,提高提供个性化和增强学术援助的能力。在完全不同的背景下,《我的世界》中的智能体Voyager [42]通过自进化在新世界中从零开始解决新任务。它通过自动课程不断优化任务目标,扩展技能库,并使用迭代提示机制改进动作,无需人工干预。转向需要明确战略规划的领域,Agents-of-Change [245]基于迭代性能分析和战略研究自主优化提示并重写代码,从而帮助智能体克服长期战略规划中的固有局限性,并在《卡坦岛定居者》(Settlers of Catan)等复杂环境中实现始终更优且更连贯的游戏玩法。最后,在外交领域,Richelieu [246]引入了可通过自对弈机制自进化的AI外交智能体,该机制使智能体无需人类数据即可通过获取多样经验来增强记忆,从而提高战略规划、反思和外交活动的整体表现。尽管这些不同例子在各自环境中运行——从学术研究和虚拟游戏世界到战略棋盘游戏和复杂外交谈判——但它们都利用持续学习、自我优化和自主适应这一基本特性,在各自领域内实现日益复杂和有效的性能。这些多样例子彰显了自进化智能体的通用性,展示了它们在传统领域之外,于各类复杂、动态和类人任务中脱颖而出的巨大潜力。

7 自我进化智能体的评估

评估自我进化智能体面临着一系列独特的挑战,这些挑战超出了对静态人工智能系统进行传统评估的范畴。与通常在固定任务集上进行一次性评估的传统智能体不同,自我进化智能体旨在通过与动态环境的持续交互,不断学习、适应和改进。因此,对其评估不仅要关注即时任务的成功率,还要考量随时间推移的适应能力、知识积累与保留、长期泛化能力,以及在连续或新颖任务间迁移所学技能的能力,同时还要缓解灾难性遗忘问题。这就要求从传统的“一次性”评估方式,转变为对其成长轨迹进行纵向观察。

7.1 评估目标与指标

为了有效评估自我进化智能体,我们必须超越传统指标,建立一个全面的框架,以捕捉其动态、自适应和长期学习能力。一个真正强大且理想的自我进化智能体,不仅要能够学习和改进,还要能够记住过去的知识,将其迁移到新情境中,实现可持续运行,并表现出负责任的行为。基于对持续稳健型人工智能的这些关键要求,我们将主要评估目标划分为五个核心维度:适应性、保留性、泛化性、效率和安全性,具体见表5。每个维度都针对智能体自我进化过程中的一个关键方面,从而全面评估其性能。

在这里插入图片描述

适应性:适应性是评估任何自我进化智能体的基础标准,用于衡量其通过经验提升在领域内任务上表现的能力。该维度侧重于量化智能体在特定领域内迭代和进化过程中的学习曲线和性能提升程度。与静态成功率不同,适应性是随时间、步骤或迭代次数进行衡量的。典型指标包括按迭代步骤计算的成功率[65,29,247],该指标根据智能体的交互历史,追踪其在下游任务中的表现。

保留性:保留性是评估自我进化智能体知识库稳定性的关键标准。该维度特别关注灾难性遗忘这一终身学习中的常见问题,即新知识获取会侵蚀先前所学信息,以及在长时间交互中的知识保留情况。可以使用两个关键指标从不同角度量化这种稳定性:遗忘(FGT)和后向迁移(BWT)[138]。具体来说,设Ji,i,tJ_{i,i,t}Ji,i,t为LLM智能体在完成ttt个任务后,在任务iii上的表现。FGT和BWT可按以下公式计算:

FGTt=1t−1∑i=1t−1[max⁡j∈{i,i+1,…,t}({Jj,i}j)−Jt,i]BWTt=1t−1∑i=1t−1(Jt,i−Ji,i)F G T_{t}=\frac{1}{t-1}\sum_{i=1}^{t-1}[\max_{j\in\{i,i+1,\ldots,t\}}(\{J_{j,i}\}_{j})-J_{t,i}]\quad B W T_{t}=\frac{1}{t-1}\sum_{i=1}^{t-1}(J_{t,i}-J_{i,i})FGTt=t11i=1t1[j{i,i+1,,t}max({Jj,i}j)Jt,i]BWTt=t11i=1t1(Jt,iJi,i)

FGT用于评估智能体学习新任务后,在旧任务上的平均准确率下降情况,从而衡量其是否成功保留了有用的经验。相反,BWT则用于评估由于新任务经验而使旧任务平均准确率提高的情况。正的BWT表明新的学习对旧任务有积极影响,表明实现了成功的知识迁移和更稳健、稳定的学习过程。

泛化性:虽然适应性和保留性关注的是领域内性能,但泛化性是衡量自我进化智能体将其积累的知识应用于新的、未见过的领域或任务的能力的关键指标。一个真正智能的智能体不仅应在熟悉的环境中表现出色,还应具备跨领域泛化的能力。可以通过评估智能体在涵盖多个任务分布和领域的多样化任务集上的表现,来评估这种能力。常见方法包括计算跨多领域测试套件的聚合性能指标(如平均成功率)[248],[18],以及使用模拟现实世界新奇场景的保留任务分布进行域外评估[16, 249]。

效率:效率用于量化自我进化智能体的资源利用能力。由于智能体需要持续运行并自主做出决策,因此评估其进化过程的成本和速度至关重要。对于计算和时间等资源有限的现实应用来说,这些指标尤为重要。关键指标包括token消耗量[250](用于衡量智能体推理和生成步骤的计算成本)、时间消耗[251]、完成任务所需的步骤数[42]以及与工具的交互次数(如工具生产力)[98],这些指标都旨在奖励以最少资源消耗完成任务的智能体。衡量智能体执行任务效率的几个关键指标包括token消耗量(衡量推理和生成过程中的计算开销)[250]、时间消耗[251]、所需步骤数[42]以及工具交互频率[98]。这些指标共同评估智能体在保持任务性能的同时最小化资源利用的能力,数值越低通常表示运行效率越高。

在这里插入图片描述

安全性:从自我进化的角度来看,安全性领域主要考察这些智能体在持续进化过程中是否会形成不安全或不良的行为模式。该维度评估智能体对预定义规则的遵守情况及其产生有害行为的可能性。评估自我进化智能体安全性的关键指标可能包括:(1)安全分数[252],用于衡量智能体行为被标记为“安全”的测试用例比例;(2)危害分数[253],通过详细的手动评分标准计算,当输出触发部分而非全部有害标准时,可获得部分分数;(3)策略下完成度(CuP)[254],评估智能体在严格遵守给定规则或策略的同时,是否成功完成任务;(4)风险比[254],计算智能体在特定维度上违反规则的频率,提供对违规行为的量化衡量;(5)拒绝率[255,253],评估智能体因任务具有攻击性、恶意性或其他不安全性质而拒绝执行的任务比例;(6)泄露率[256],追踪智能体无意中泄露敏感或私人信息的频率。

7.2 评估范式

鉴于自进化智能体具有持续学习的范式,对其评估需要采用一种超越传统静态评估的多维度方法。当前的评估范式可根据评估的时间范围进行大致分类:静态评估、短期自适应评估和长期终身学习能力评估。每个类别都针对智能体不断发展的能力的不同方面,从即时性能到长期学习轨迹。

7.2.1 静态评估

静态评估是对自进化智能体在特定时间点的即时性能进行评估。尽管这些智能体是为持续改进而设计的,但静态方法对于建立基线性能、在固定任务集上比较不同的智能体架构或在离散训练阶段后评估能力仍然至关重要。这种方法与传统的AI评估相一致,侧重于固定环境中的即时性能。虽然静态评估在“域内进化、域外评估”范式中评估泛化能力很有用,但它本质上无法捕捉自进化智能体所固有的动态、持续学习或长期进化方面。

在这里插入图片描述

为了评估智能体在特定时刻的一般能力,通常采用为静态AI系统设计的标准基准。这些基准提供了多样化的任务领域,并测试了智能体的各种核心能力,为智能体在进化特定阶段之前或特定阶段的熟练程度提供了快照。这些评估可以系统地分为外部任务解决评估和内部智能体组件评估,其中外部任务解决评估衡量在完成特定领域或跨领域任务时的端到端性能,而内部能力评估则侧重于智能体的基本组件,包括规划、工具利用、内存管理、多智能体协调等。

外部任务解决评估:该类别评估智能体在各种现实世界或模拟环境中完成任务的端到端能力。在科学数据分析和机器学习工程领域,ScienceAgentBench[257]和MLE-Bench[258]等基准测试了智能体生成和执行数据分析代码以及解决Kaggle风格问题的能力。在网络搜索/浏览方面,WebShop[259]、WebArena[260]、X-WebAgentBench[261]、Mind2Web[262]和BrowseComp[263]等环境模拟了真实的网络交互、复杂的浏览场景以及安全约束下的任务完成。在软件工程领域,SWE-bench系列[264, 265, 266, 267]使用真实的GitHub问题来评估智能体的代码修复能力。对于计算机使用交互,OSWorld[268]为涉及各种桌面和网络应用程序的开放式任务提供了统一的环境。营销等专门领域也设有xbench[269]等基准。除了特定领域外,通用智能体基准如AgentBench[248]、GAIA[270]和TheAgentCompany[271]评估了跨多个知识领域和专业任务的广泛问题解决能力,模拟了现实世界对通用AI助手的需求。

内部智能体组件评估:除了端到端任务完成外,评估智能体的核心能力也至关重要。这些基准评估了有助于智能体整体智能和自我进化潜力的基本能力。在规划方面,PlanBench[272]、Natural Plan[273]、AutoPlanBench[274]和ACPBench[275]等基准全面评估了智能体在各种规划领域中理解动态环境、制定策略、分解复杂问题和执行推理的能力。在工具使用方面,ToolAlpaca[276]和ToolBench[50]等简单基准测试了基本的选择和参数映射,而ToolSandbox[277]、Seal-Tools[278]、API-Bank[279]、T-Eval[280]、τ-Bench[281]、AceBench[282]等更复杂的基准则模拟了涉及多轮交互、隐式状态依赖和嵌套调用的现实世界场景。内存管理基准如LTMbenchmark[283]、MemoryAgentBench[284]和StoryBench[285]评估了智能体在多轮交互、动态场景和远程依赖中保留和利用信息的能力。在评估多智能体协作方面,MultiAgentBench[286]和SwarmBench[287]等基准评估了协作和竞争环境中的协调、通信和涌现群体智能。

静态评估的指标:静态评估的典型指标包括准确率、成功率、进度率、完成率和各种特定领域的性能指标(如CodeBertScore、有效执行率、通过率、F1分数)。这些指标为孤立调用或固定任务集提供了单一的性能分数。

7.2.2 短期自适应评估

短期自适应评估超越了静态评估,通过评估智能体在相对较短的时间内或有限次数的交互中适应和改进的能力。智能体可能通过更多尝试在相同任务实例上提高性能,或适应相同任务类型的新实例。该类别侧重于捕捉自进化智能体在相对一致或略有变化的任务分布中的即时适应性和增量学习能力。这些评估方案可以大致分为两类:(1)为传统基准增加时间维度,(2)专门设计能够支持短期动态学习的基准和指标。

在这里插入图片描述

为传统基准增加时间维度:许多研究利用现有基准,但引入了一个新的维度来跟踪性能随时间的变化。这通常涉及分析性能与迭代次数、步骤数或示例数的关系。例如,ADAS[65]在ARC基准[292]上根据智能体系统迭代次数评估了保留测试的准确率;AWM[29]研究了在WebArena地图测试分割[260]下在线评估过程中使用示例数标记进化进度的累积成功率;WebEvolver[119]研究了在Mind2web-Live[293]下自我改进迭代中的成功率。这种方法允许在有限范围内跟踪智能体的适应性。

内置动态评估的基准:一些基准在设计时考虑了短期动态学习。例如,MemoryAgentBench[284]包括一个“测试时学习”(TTL)维度,用于评估智能体在单个交互会话中直接从对话中学习新任务的能力。实际上,TTL通过两种类型的任务进行评估:多类分类和推荐。在这些设置中,智能体必须利用先前提供的信息(如上下文中的标记示例或与电影相关的长对话历史)来执行新任务,如将句子映射到类别标签或推荐相关电影。这评估了持续交互期间的即时适应性和知识获取。

短期自适应评估的指标和方法:短期自适应评估的主要指标和方法旨在量化适应性。这些包括:(1)按迭代步骤的成功率[65, 29, 247],跟踪智能体与环境更多交互或多次尝试任务时的性能改进。(2)学习曲线分析,可视化性能(如成功率、准确率)如何在有限的训练步骤、情节或交互次数内变化[65, 29]。(3)适应速度[42],衡量智能体在短期内达到特定性能阈值或收敛到最优策略的速度。

短期自适应评估非常适合评估自进化智能体的初始学习能力和即时适应性。它们可以有效地展示智能体是否能够从最近的经验中学习并提高其在域内任务上的性能。该类别广泛用于当前自进化智能体的评估。然而,有限的时间窗口使得评估长期知识保留(减轻灾难性遗忘)和在截然不同或顺序呈现的任务上的真正终身学习能力变得具有挑战性。

7.2.3 长期终身学习能力评估

长期终身学习能力评估对于真正评估自进化智能体至关重要,因为它们侧重于智能体在多样化环境和长时间内持续获取、保留和重用知识的能力。如表7.2.1所示,它主要关注在长时间内跨多样且可能不断变化的任务或环境流中的持续学习、知识积累和持续性能表现。这是一个新兴但关键的领域,其中独特的挑战包括灾难性遗忘、跨不同任务的稳健知识迁移、长时间内的有效资源管理以及在不断评估进化数据分布时减轻数据泄露。正在出现专门的基准来应对这些复杂性。

目前,这类基准很少。LTMBenchmark[283]是一个专注于长期记忆(LTM)评估的专门基准。它通过动态对话测试评估LLM智能体的记忆保留和持续学习,使用带有受控干扰的交错对话来模拟现实世界的回忆挑战。关键指标包括任务准确率、记忆跨度加权的LTM分数和用于跨架构比较的效率指标(测试/小时、成本)。LifelongAgentBench[247]是另一个专门设计用于评估智能体终身学习的开创性基准。它构建了跨数据库(DB)、操作系统(OS)和知识图谱(KG)等领域的相互依赖任务序列,要求智能体逐步建立在先前获得技能的基础上。这允许系统地跟踪在长时间学习轨迹上的性能改进和知识保留。此外,还有一种解决方案是通过持续更新基准数据集[294, 295]或通过重构原始基准来评估自进化智能体,从而在一定程度上缓解数据泄露[296]。例如,Benchmark Self-Evolving[297]提出了一种通过迭代持续更新现有基准的解决方案。来自此类动态基准场景的初步发现表明,随着基准的进化,模型性能可能会下降,这突显了持续适应的难度。

长期终身学习能力的指标超越了简单的成功率,以量化智能体的进化能力,如遗忘(FGT)、向后迁移(BWT)[138]、每次收益成本。长期泛化指标可能涉及评估在不断演变的分布外任务集上的性能,或测量智能体在跨多个领域长时间学习后仍能有效执行的任务广度。

长期终身学习能力评估对于全面评估自进化智能体的核心承诺至关重要:它们在长时间内持续学习、保留知识和有效泛化的能力。它们对于评估保留、对真正未知场景的泛化以及长期操作的效率至关重要。该领域仍然是评估自进化智能体研究的关键前沿。

8 未来方向

8.1 个性化人工智能智能体

随着人们对自进化智能体的兴趣日益浓厚,部署个性化智能体已成为研究界一个至关重要且愈发重要的目标[298]。例如,在聊天机器人、数字孪生和情感支持对话等应用中,关键挑战在于使人工智能智能体能够在长时间交互中准确捕捉并适应用户独特的行为模式或偏好。现有的个性化智能体通常严重依赖标注数据和训练后方法[299]。文献[300]近期的研究提出了一种自生成偏好数据方法,旨在快速实现大语言模型(LLMs)的个性化。TWIN-GPT[301]利用电子健康记录创建患者的数字孪生,提高了临床试验结果预测的准确性。然而,这些现有策略都基于一个关键假设,即大语言模型能够持续获取高质量、大规模的用户数据。在实际部署场景中,主要挑战仍然是冷启动问题:即使初始数据有限,智能体也需要逐步完善其个性化理解,准确解读用户意图,并有效构建用户画像。此外,个性化规划和执行方面仍存在重大挑战,如有效的长期记忆管理、外部工具集成和个性化生成(确保输出始终与个体用户的事实和偏好保持一致)[302]。此外,必须确保自进化智能体不会无意中强化或加剧现有的偏见和刻板印象,这凸显了未来研究的另一个关键方向。

随着个性化数据的融入,自进化智能体个性化评估指标应超越内在评估(例如,直接使用ROUGE[303]和BLEU[304]等指标评估个性化生成文本的质量)或外在评估(例如,通过推荐系统、分类任务和其他特定应用间接评估个性化效果)。传统的个性化评估指标往往无法充分捕捉自进化智能体中固有的动态演变特性。因此,未来研究需要更轻量级且适应性更强的评估指标[298]。此外,为了更好地评估自进化个性化智能体,显然需要灵活、动态的基准,以便在自进化过程中准确评估智能体在处理长尾个性化数据时的性能。

8.2 泛化能力

自进化智能体在实现跨多样化任务领域和环境的强大泛化能力方面也面临相当大的挑战。专业化与广泛适应性之间的根本矛盾仍是该领域最紧迫的挑战之一,对可扩展性、知识迁移和协同智能具有重大影响。

可扩展架构设计:开发具有泛化能力的自进化智能体的核心挑战在于设计可扩展架构,以便在复杂性和范围增加时保持性能。当前的智能体系统经常在专业化与泛化能力之间进行权衡,针对特定任务优化的智能体难以将所学行为迁移到新环境中[305]。此外,基于大语言模型的智能体进行动态推理的计算成本随着适应机制复杂性的增加而呈非线性增长,这在实际资源限制下对可实现的泛化能力构成了实际约束[306]。近期研究表明,具备反思和记忆增强能力的自进化智能体在增强泛化能力方面展现出巨大潜力,特别是在资源受限的小型模型中[24]。然而,在处理需要长时间持续适应的复杂现实场景时,这些方法仍存在局限性。

跨领域适应:实现跨领域泛化是自进化智能体的一个关键前沿领域。当前方法经常依赖特定领域的微调,限制了智能体在不重新训练的情况下适应新环境的能力[245]。测试时缩放和推理时适应的最新进展为增强跨领域泛化能力提供了有希望的途径[307,308]。这些技术允许智能体在推理过程中通过扩展计算资源,动态地为不熟悉的场景分配额外的推理能力,避免了增加模型参数的需求。此外,元学习策略在促进对新领域的快速少样本适应方面表现出相当大的潜力[309]。然而,其有效性在很大程度上取决于智能体准确判断何时需要补充计算资源以及在不同推理任务中高效分配这些资源的能力。

持续学习与灾难性遗忘:自进化智能体必须不断适应新任务,同时保留先前学到的知识,而大语言模型固有的持续记忆[311]导致的灾难性遗忘现象[310]加剧了这一挑战。在基于基础模型的智能体中,稳定性-可塑性困境尤为突出,因为为每个新任务重新训练的计算成本高昂[138]。近期研究探索了参数高效的微调方法、选择性记忆机制和增量学习策略,以在保持适应性的同时减轻灾难性遗忘[137]。然而,在效率与防止模型漂移之间取得最佳平衡仍然是一个重大开放挑战,特别是在智能体在资源受限或管理具有严格隐私考虑的流数据时。

知识迁移能力:近期研究揭示了人工智能智能体之间知识迁移的重大局限性。[313]强调,当前智能体的知识整合与迁移能力仍需大幅优化。特别是,[314]发现基于大语言模型的智能体往往无法有效将从交互中获得的新知识传播给其他智能体,限制了其协同潜力。此外,[315]揭示,基础模型可能严重依赖浅层模式匹配,而非开发强大且可迁移的内部世界模型。这些发现指出了未来研究的几个重要方向:1)必须更好地理解一个智能体获取的知识在何种条件下能够可靠地推广并传达给其他智能体;2)开发量化智能体知识迁移能力局限性的方法,可以更清晰地洞察智能体协作瓶颈;3)我们需要一种明确的机制,鼓励形成强大且可泛化的世界模型,可以显著提高自进化智能体的协同效能。

8.3 安全可控的智能体

随着自主人工智能智能体独立学习、演进和执行复杂任务的能力日益增强,越来越多基于智能体的研究正将重点转向部署更安全、更可控的智能体。这些安全问题主要源于与用户相关的风险,例如,模糊或误导性的指令会导致智能体执行有害操作,以及环境风险,包括接触恶意内容,如钓鱼网站链接[316]。

许多研究旨在解决智能体自动适应过程中的安全问题。例如,TrustAgent[73]实施了规划前、规划中和规划后策略,以促进智能体更安全的行为。然而,正如文献[317]所强调的,当前基于大语言模型的智能体仍难以准确区分必要敏感信息和无关信息。这里的一个主要挑战是精确识别和理解与任务相关和无关的信息。此外,当目标涉及欺骗性或不道德的方法时,管理智能体行为会面临更多困难,因为持续学习的不确定性加剧了部署可控智能体时的这些安全挑战[318]。这种不确定性在模糊情境[319]和设计不佳的记忆模块[320]中也有类似体现。因此,部署可靠、可控且安全的自进化系统已成为一个关键问题。未来研究应侧重于收集更大规模、更多样化的真实场景数据,以支持对安全行为的全面学习。进一步通过制定更清晰、更易理解的规则和案例库来完善《智能体宪章》至关重要。此外,探索更安全的训练算法并深入调查隐私保护措施对智能体效率的影响,是实现更均衡、更安全地部署自主人工智能智能体的必要步骤。

8.4 多智能体生态系统

多智能体自进化系统面临着几个独特的挑战,需要进一步探索。
平衡个体推理与集体推理:近期研究凸显了在多智能体环境中平衡独立推理与有效群体决策的困难[321, 322]。虽然集体讨论能显著提升诊断推理能力,但智能体往往容易过度依赖群体共识,从而削弱其独立推理能力。为缓解这一问题,未来研究应探索动态机制,以调整个体输入与集体输入的相对权重。这种方法有助于防止决策被单一或少数智能体主导,最终促进稳健、平衡的共识构建和创新。此外,利用智能体的成功与失败经验,开发明确的知识库和标准化的更新方法,可进一步提升智能体的自进化能力,并加强其在协作环境中的个体推理贡献。
高效框架与动态评估:另一个关键挑战在于开发高效算法和自适应框架,使智能体在保持个体决策优势的同时实现有效协作。[113]引入了自适应奖励模型和优化的动态网络结构,这能显著提升智能体间的合作自我改进能力。然而,文献[322]指出,一个主要差距在于缺乏智能体动态管理和更新知识的明确机制。解决这一问题需要新的框架,明确整合持续学习和自适应协作机制。此外,现有的多智能体评估基准主要是静态的[286],因此无法捕捉智能体角色的长期适应性和持续演变。未来的基准应纳入动态评估方法,反映多智能体系统中的持续适应、演变互动和多样贡献,从而为自进化智能体提供更全面的评估指标。

9 结论

自进化智能体的出现标志着人工智能领域的范式转变,从静态、单一模型向具备持续学习和适应能力的动态智能体系统迈进。随着语言智能体越来越多地部署在开放、交互式环境中,根据新任务、新知识和新反馈进化、调整推理过程、工具和行为的能力,已成为构建下一代智能体系统的关键。在本综述中,我们围绕三个基础性问题,首次对自进化智能体进行了全面、系统的回顾:智能体的哪些方面应该进化、何时应该进化,以及如何有效实施进化过程。此外,我们还讨论了从指标和基准角度评估自进化智能体进展的几种方法,以及相应的应用和未来方向。展望未来,充分发挥自进化智能体的潜力,将为人工超级智能(ASI)奠定基础。这些智能体的进化将需要在模型、数据、算法和评估实践等方面取得重大进展。解决灾难性遗忘、自主进化过程中的人类偏好对齐,以及智能体与环境的协同进化等问题,将是解锁不仅适应性强而且值得信赖、与人类价值观一致的智能体的关键。我们希望本综述能为研究人员和实践者提供一个基础框架,以设计、分析和推动自进化智能体的开发与进步。

http://www.dtcms.com/a/312194.html

相关文章:

  • 安卓自动点击器:设置点击周期 / 滑动,抢票、游戏刷日常秒会
  • UNet改进(28):KD Attention增强UNet的知识蒸馏方法详解
  • 适 配 器 模 式
  • Anthropic最新研究Persona vector人格向量
  • C语言---函数的递归与迭代
  • 第14届蓝桥杯Python青少组中/高级组选拔赛(STEMA)2023年3月12日真题
  • Python从入门到精通计划Day01: Python开发环境搭建指南:从零开始打造你的“数字厨房“
  • 【语音技术】什么是实体
  • AI原生数据库:告别SQL的新时代来了?
  • 高效截图的4款工具深度解析
  • 淘宝商品API可以获取哪些商品详情数据?
  • ARM架构ELR、LR 和 ESR寄存器含义
  • Codeforces Global Round 27
  • 衡石湖仓一体架构深度解构:统一元数据层如何破除数据孤岛?
  • C++11 -- 智能指针
  • 【故障处理】redis会话连接满导致业务系统某个模块数据不显示
  • JJWT 核心工具类 Jwts 源码解析
  • 3 数字字符串格式化
  • 安灯系统(Andon System)
  • h3c路由器查看温度是否正常
  • 记录一次Spring Cloud Gateway配置的跨域处理:解决 ‘Access-Control-Allow-Origin‘ 头包含多个值的问题
  • 【Shell自动化脚本——for循环创建账户,测试主机连通性,for循环密码的修改】
  • 【Java面试题】一分钟了解反射机制
  • 切换python多版本
  • 中州养老项目:Mybatis自动填充拦截器
  • 机器学习项目从零到一:加州房价预测模型(PART 2)
  • 李宏毅深度学习教程 第6-7章 自注意力机制 + Transformer
  • NVIDIA GPU架构
  • 浅拷贝与深拷贝的区别
  • 断路器瞬时跳闸曲线数据获取方式