当前位置：首页 > news >正文

【连载9】基础智能体的进展与挑战综述-行动系统

news 2025/11/3 22:19:18

基础智能体的进展与挑战综述

从类脑智能到具备可进化性、协作性和安全性的系统

【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥冯梓哲李正博李冠谕朱宇晗张霄天孙大壮黄若溪

8. 行动系统

在哲学领域，行动被定义为智能体体在环境中为实现潜在或特定目标而执行的行为。例如，操作、移动、推理以及工具使用等都可以被视为智能智能体在现实场景中为实现目标而执行的基本行动。换句话说，行动源自智能体体在环境中的目标导向性参与，体现了其为实现目标而试图改变外部世界的意图。因此，行动系统在区分AI智能体与基础模型（如LLM）方面也发挥着至关重要的作用。通常，现有的基础模型在多种任务中展现出了令人印象深刻的表现，但其任务范围仍受限于其原始预训练目标（例如下一个token预测）。当基础模型作为“脑智能”服务于AI智能体时，若配备有行动系统，智能体便可直接与环境交互，并执行复杂的用户意图。此外，行动系统还能支持智能体体使用外部环境中的可用工具，从而显著扩展其任务能力边界。因此，行动系统的设计将决定AI智能体在感知、决策、执行、工具使用等方面是否能够与人类大脑的能力相契合。换句话说，基础模型为智能体体提供了认知的基础，而行动系统决定了其实现复杂目标的最终潜力。为AI智能体设计一个高效而全面的行动系统是一项关键的工作，尽管面临诸多挑战，但也带来显著益处。我们在图8.1中展示了认知系统中行动系统的执行过程。

在本章，我们将首先在第8.1节讨论人类的行动系统，然后在第8.2节中探讨从人类行动到AI智能体行动的转变。接下来在第8.3节，我们将系统性地总结现有AI智能体行动系统的几种范式，包括动作空间、动作学习和工具学习。在第8.4节中，我们分析行动与感知的差异，最后在第8.5节中总结本章内容。

图8.1：行动和行动执行的若干相关概念

8.1 人类行动系统

人类认知中的行动系统是指支持人类感知、计划并执行目标导向行为的全过程。这是一个复杂的系统，使个体能够与动态环境互动、做出决策，并根据反馈不断调整自身行为。一般而言，人类认知中的行动系统可以大致分为心理行动（Mental Action）和身体行动（Physical Action）两个层面：

心理行动可以被视为一种独立的行动形式，它体现在人类大脑中引发目标意图的思维过程。例如，推理、决策、想象和规划等都可以被认为是不同类型的心理行动。换言之，心理行动就如同驱动人类身体行动以实现最终目标的大脑信号。

身体行动是指由人类运动系统执行的任何目标导向的身体运动。从某种程度上说，身体行动通常表现为一种连续性的行为。例如，说话、操作、绘画、奔跑和抓握等都属于身体行动的范畴。人类通过一系列身体行动实现与现实世界的交互，并从中获取反馈。

图 8.2 展示了从心理行动与身体行动两个维度出发对人类行动系统的一种简明分类方法。借助于心理与身体两种行动能力，人类的认知系统能够处理现实场景中各类复杂任务。

图8.2：人类行动的分类，包括心理行动和身体行动

受到人类认知体系的启发，在构建AI智能体的行动系统时，我们也必须重新思考如何在不同任务中设计出相应的行动体系，包括从语言环境到数字环境，再到物理环境中的任务执行方式。这是实现通用人工智能不可或缺的关键步骤。

8.2 从人类行动到智能体行动

在过去很长一段时间里，人类的动作系统[623]极大地激励了我们将计算机系统向自主范式方向发展。动作机制在人类大脑中起着驱动目标导向行为的关键作用。在智能的人类大脑中[624]，意识与无意识的思维信号被生成，并转化为心理信号，最终导致一系列的行为操作。这个过程可以被建模为一个多阶段的流程，涉及构建动作空间、设计学习机制以优化决策过程，以及整合外部状态（如工具）。受此启发，我们发现这些原则对于AI Agent原型的构建至关重要。

许多现有的框架都将动作学习纳入设计中，或将其作为输出形式之一。为了进一步明晰“动作系统”的定义，研究者将多种框架进行了区分，包括大语言模型（LLM）、大多模态模型（LMM）、机器人基础模型（RFM）与大动作模型（LAM），如表8.1所示：

表8.1：不同基础模型的定义

LLM的主要任务是根据输入提示生成语言输出；

LMM则可根据多模态输入生成跨模态的产出（如图文结合、图像描述等）；

AI Agent的语言或数字环境框架通常是在这些基础模型上构建的，通过预设动作空间和学习策略来实现环境交互；

RFM聚焦于物理环境中的机器人控制任务，这些模型通常通过大规模视频数据进行预训练，并借助视频预测来模拟机器人的控制行为，其核心依然是使用生成目标来学习知识；

LAM（大动作模型）则是更进一步，它不仅包括生成动作策略，还强调与真实环境的交互以及增强的自我学习范式[622]。

从以上分类可见，无论底层采用何种基础模型，动作系统的核心在于：建立与环境的交互机制，并通过预定义的奖励函数，从收集到的行为轨迹中实现学习。这一机制在本质上与人类认知系统的动作系统有高度相似性，为AI Agent框架的设计提供了有力的参考。例如：

在人类处理不同场景时，通常会预定义动作空间，以执行目标行为轨迹解决特定任务。例如，在玩《Minecraft》等电脑游戏时，我们会通过键盘和鼠标设定动作操作，如建造房屋、采矿等。类似地，AI Agent框架中也需构建动作空间，以适配复杂任务的执行。

人类认知系统在通过与现实世界互动中持续获得新知识的能力远胜于机器，其路径正是通过不断生成和优化动作序列来实现的。因此，AI Agent若要适应动态环境，构建“技能库”，就必须复刻这种基于交互的学习能力。

在文明发展历程中，“学会使用工具”被视为人类智能演化的重要里程碑之一。借助外部工具，人类极大地拓展了在不同场景下的问题解决能力，从石器时代一路发展至工业革命。类似地，AI Agent通过工具的整合也能大幅扩展任务执行范围。

基于此，我们希望建立人类认知系统中的动作系统与AI Agent设计之间的映射关系，包括：如何从特定场景向通用领域构建AI Agent的动作空间，如何在环境中实现动作学习，以及如何利用外部状态（如工具）拓展AI Agent的任务范围。通过这项系统性研究，我们力图为社区提供关于AI Agent框架中“动作系统”重要性的一种清晰、深入的理解。

8.3 智能体行动系统范式

AI智能体框架的动作系统通常包括三个主要组成部分：1）动作空间A，涵盖了智能体在现实场景或下游任务中可以执行的所有动作类型，其内容会根据不同智能体设定而有显著差异，从基于语言的智能体到具身智能体不等；2）在动态环境中的动作学习，该过程决定了状态S、观察O以及智能体的优化流程；3）工具空间T，涵盖了智能体可以利用的工具、接口或中间件，包括诸如机械臂等物理设备，也包括如API等数字接口。整体来看，这些组成部分共同定义了AI智能体动作系统的范围与特征，塑造了其动作的构建与执行方式。

为了在实际场景中全面探索可能的动作，需要对动作空间进行形式化表示，并考虑单个操作与其背后的层级推理过程。这意味着需要在多个层级上分析动作空间，从低层级的基本操作动作到能够组织复杂流程的高层操作符。

据此，AI智能体的决策过程可以形式化为轨迹，其中是从动作空间中选取的动作，用于基于观察将当前状态转化为下一个状态。在某些场景下，还可能需要整合外部的工具系统。通过执行的一系列动作，智能体被引导逐步实现其最终目标。

8.3.1 行动空间范式

动作空间A是构建AI智能体框架中动作系统的关键组成部分，其组成形式决定了AI智能体在不同场景中解决复杂任务的能力。在图8.3中，我们展示了一个基于动作空间的动作系统示意分类。总体而言，现有工作中将动作空间划分为三类，具体如下所述：

语言类

基于语言的AI智能体通常通过语言驱动的动作在交互语言环境中运行，如推理、编程、信息检索、API调用执行或与外部工具交互等。在本研究中，我们将语言类动作空间分为三类：纯文本、代码编程和交流。早期的语言类AI智能体以纯文本为基础，主要在语言环境或文字类游戏中执行交互式决策任务。例如，ReAct[70]是一个典型的基于语言的AI智能体，融合了LLM的推理与动作来解决问题；AutoGPT[625]将用户请求解析为多个子任务，并利用网页搜索等工具完成各个子目标；Reflexion[48]引入自我反思与记忆机制，提升语言任务中的动作执行能力；LLM+P[163]赋予LLM规划能力以辅助决策。然而，将纯文本转化为可执行命令通常需要LLM先进行解释再进行指令转换，这可能导致信息损失。为此，有研究开始探索以代码为动作空间，支持生成代码后直接执行并自我验证。MetaGPT[626]与ChatDev[627]通过编程语言和多智能体协作构建动作空间；SWE-Agent[628]考虑软件工程的不同阶段以解决软件问题；OpenDevin[629]构建了一个自动化软件开发平台，整合了代码编写、命令交互、沙箱执行与协作功能。此外，一些框架基于多智能体通信，借助对话分析下一步应采取的动作。例如，Generative Agents[50]在虚拟城镇中模拟多个角色行为；MetaGPT[626]和ChatDev[627]促进软件开发协作；AutoGen[630]是一个支持多智能体协同解决复杂任务的代表性框架。总体来看，基于语言的AI智能体借助LLM在语言交互中表现良好，但受限于动作空间的规模，在现实场景中解决更复杂任务仍具挑战，因此需探索构建更复杂动作空间的新研究路径。

数字类

为拓展AI智能体的能力，一些研究致力于开发能在数字环境中运行的先进智能体，如网页智能体、在线购物平台、游戏系统等。例如，MineDojo[311]通过视频-语言预训练构建了一个虚拟智能体，并在Minecraft中支持多种任务与目标；Voyager[47]是一个具身智能体，通过代码形式执行多种动作，与Minecraft环境交互并构建技能库以增强能力；JARVIS-1[228]是一个开放世界智能体，支持多模态输入输出、生成复杂计划并具备具身控制能力，探索了智能体在Minecraft中的进化行为；SwarmBrain[631]在StarCraft II中利用LLMs实现战略性与实时行动。此外，MM-ReAct[497]与ViperGPT[498]引入LLMs处理多模态任务中的推理过程，并选择视觉专家解决任务；Visual-ChatGPT[496]集成多个视觉专家，由LLM作为控制器解决问题；HuggingGPT[152]则分为任务规划、模型选择、模型执行和结果生成四阶段，自动分析指令并处理复杂多模态任务。考虑到保持信息最新的重要性，一些AI智能体框架（如WebGPT[632]、WebAgent[634]）与搜索引擎交互以提升网页检索能力；WebShop[633]探索AI智能体在电商领域的潜力；Mind2Web[97]构建了一个通用型网页任务智能体。随着基础智能体在多模态或网页任务上的能力提升，逐渐涌现出解决复杂计算机任务的趋势。Mobile-Agent[635]将多模态模型作为认知控制器以管理手机功能；AppAgent[636]将应用使用定义为动作空间，使基础模型可作为手机智能助手；UFO[637]与OmniParser[520]是高级GUI智能体，利用UI操作为动作空间，赋能智能体完成计算机使用任务。总体来看，数字环境中的先进技能使AI智能体更擅长解决复杂任务，并代表了从语言智能向数字智能的重大转变。通过将动作空间扩展至网页浏览、GUI交互、移动应用与具身系统，AI智能体正向更自主、多模态、具上下文感知的系统演进，逐步弥合基础模型与人类认知系统之间的差距。此外，也有研究探索LLM与结构化数字环境（如关系数据库与知识图谱）的整合。Pangu[639]率先连接LLM与大规模知识图谱；BIRD[640]与Spider 2.0[641]构建了LLM与企业数据库结合的基础；NL2SQL-BUGs[667]解决NL2SQL管道中的语义错误问题[365]，提升LLM在数据库交互中的可靠性；UnifiedSKG[638]与Middleware[642]拓展了LLM在数据库与知识图谱中的动作能力。

物理类

构建一个可与物理世界交互的AI智能体被视为模拟人类认知系统的最终目标。为实现此目标，需智能体具备处理现实环境信号与生成反馈的能力以持续学习，因此也带来了如何处理传感器采集的连续信号与支持基础模型决策的新挑战。RT系列模型[522, 643, 644]预训练了视觉-语言-动作模型，将网络视频知识整合进机器人学习中，提升了控制与执行能力；GR-2[357]基于视频与语言数据进行大规模预训练，并结合机器人轨迹数据微调，用于动作预测；π0[645]使用来自单臂、双臂与移动操作机器人平台的数据进行机器人模型预训练；SayCan[646]将机器人感知与LLM连接，通过机器人提供感知，LLM进行高层决策；VoxPoser[647]使用LLMs理解并分解3D值图进行机器人操作；EmbodiedGPT[648]通过视觉语言模型理解视频并执行决策驱动动作。在物理环境中，通常需要理解连续信号并生成连续动作以控制机器人。尽管现有基础模型能有效处理离散动作（如语言或计算机操作），但处理长时间连续信号仍具有挑战性。因此，消除基础模型中连续与离散信号处理的差异仍是关键问题。

总体而言，动作空间是构建高效AI智能体系统的核心组成部分。一个有效的动作空间可以增强智能体在处理下游任务时的能力与效率。动作空间通常从离散空间（如Atari游戏中的技能库）到连续空间（如机器人操作）不等。随着AI智能体朝着更自主与多模态方向发展，设计高效的动作空间将成为推进通用型现实交互智能体的关键因素。

图8.3：行动系统的分类，包括行动空间和学习范式

8.3.2 行动学习范式

在人类认知系统中，行动学习[669]代表了解决问题的过程，涉及采取行动和反思反馈。类似地，AI智能体的行动学习指的是自主AI系统通过与真实环境的直接交互，不断优化其决策和行为的迭代过程。通常，行动学习包括多个阶段的循环，如构建行动空间、选择行动，以及根据与环境的交互（例如接收反馈或奖励并调整行动选择策略）来优化行动选择。通过反复部署这些策略，AI智能体可以实时适应最新信息或变化的条件，从而最终实现更强大、更灵活和更高效的问题解决能力。因此，一个有效的行动学习机制对于智能行动系统的优化至关重要。本节主要关注三种具有代表性的学习范式，包括上下文学习、监督训练和强化学习，具体如下：

上下文学习

随着大语言模型展现出涌现能力，上下文学习被认为是在不修改模型的前提下利用LLM现有能力的最有效方法。通过精心设计的提示词描述动作，AI智能体可以理解具体动作、执行这些动作、反思与环境交互的结果，并最终实现目标。在这些方法中，常见方式是使用提示技巧指引LLM生成智能行为。其中最具代表性的技术是Chain-of-Thought (CoT)[46]提示，采用“让我们一步一步地思考”的方式生成一系列中间推理步骤，系统地探索潜在解决方案。ReAct[70]允许LLM通过与环境的交互生成推理轨迹和任务特定行为，从而提升AI智能体的推理与决策能力。LearnAct[652]设计了一种迭代学习策略，通过生成代码（如Python）来创建和修改新动作，从而扩展动作空间。此外，一些研究（如Auto-CoT[137]）探索了如何通过LLM自动生成CoT，从而启用AI智能体的自主思考过程。为了处理更复杂任务，ToT[72]将思维过程视为树结构，并引入树搜索结合LLM提示，而GoT[75]应用了图结构及图搜索。对于机器人模型，CoA[649]设计了四种不同的提示设置（如对象、抓取、空间与运动）以支持带有推理过程的机器人操作。此外，为了解决需要复杂智能工作流的任务，一些框架引入了任务分解阶段，通过LLM提示将用户指令拆解。Least-to-Most[138]是一种经典的提示技术，用于将用户指令转化为多个子任务。HuggingGPT[152]是一个代表性的AI智能体框架，应用任务规划将用户需求转化为可执行事项。Plan-and-Solve[650]直接使用LLM从用户指令制定计划，并基于生成的计划回答问题。Progprompt[93]对机器人任务应用了类似的任务分解方法。此外，使用提示技术构建AI智能体的特征也被视为一种提升AI智能体框架仿真与生产力的趋势（如Generative Agents[50]、MetaGPT[626]、ChatDev[627]、SWE-Agent[628]）。最后，一些框架（如Reflexion[48]或 Self-refine[67]）分析用户与环境交互后的外部反馈，并通过精心设计的反思提示不断优化与润色结果。所有这些设计使我们能够更好地理解用户指令、分解任务目标并制定思考计划。上下文学习帮助我们避免参数优化，降低LLM训练的高昂成本。它使AI智能体能有效执行多样化动作，并适应广泛领域。然而，如果希望获得具备更强行动学习能力的智能体，仍面临诸多挑战。

监督训练

为进一步提升基础模型的行动学习能力，越来越多的研究致力于训练方法，包括自监督预训练（PT）和监督微调（SFT）。在预训练范式中，最具代表性的是RT系列[522, 643, 644]，其在大规模网络与机器人数据上预训练机器人Transformer，生成强大的视觉-语言-动作模型。沿此方向，GR-2[357]通过在大量网络视频数据上的广泛预训练学习世界动态，并在机器人轨迹数据上进行后训练，以专注于视频生成和动作预测。同样地，LAM[622]是一个在用户与计算机交互轨迹上预训练的大型动作模型。然而，预训练范式通常带来巨大的计算成本，因此许多研究转向微调范式，以增强基础模型的行动能力。OpenVLA[670]构建于Llama2[11]之上，融合了基于DINOv2[671]与SigLIP[672]的视觉编码器，并在Open X-Embodiment（OXE）[673]的真实机器人演示数据上进行微调，在不同任务上优于RT-2-X[673]，参数数量减少7倍。在此基础上，CogACT[653]融入扩散动作模块，并引入适应性动作集成策略进行推理，同样在OXE数据集上微调，在SIMPLER[674]模拟环境中提升35%，在使用Franka Arm的真实机器人任务中提升55%。此外，也有研究探索如何使机器人模型从自然语言中学习物理世界中的动作，例如RT-H[654]引入分层架构构建动作空间，先预测语言动作，再生成底层动作；π0[645]收集来自不同灵巧机器人平台的大量多样化数据集，并在预训练的VLM上微调以学习机器人动作；UniAct[656]学习能跨不同形态机器人通用的原子动作，通过学习它们的共享结构特征实现跨领域数据利用和跨平台泛化，从而消除异质性[132]。总体而言，使用监督训练（包括预训练和监督微调）可有效适配基础模型，在真实场景中智能执行动作。最后值得注意的是，即便在大量语料上进行了广泛训练，在训练模型基础上应用上下文学习，仍有助于AI智能体追求最佳性能。

强化学习

为了补充上下文学习与监督训练中的行动学习过程，智能体与环境的交互及通过经验、反馈或奖励优化行动策略同样至关重要。考虑到其迭代与顺序性，强化学习（RL）为我们提供了所需的系统方法[675, 676, 677, 678]。在RL范式中，存在多个经典代表性算法，如深度Q网络（DQN）[679]与近端策略优化（PPO）[680]。最具代表性的将RL应用于基础模型的工作是InstructGPT[43]，其通过RLHF有效对齐LLM输出与人类偏好。由于RLHF通常需要额外训练以构建奖励模型，部分论文（如DPO[111]）提出通过对比学习直接优化偏好数据。现有研究[89, 681]也展示了将RL算法扩展至基础模型以生成长链CoT思维过程的潜力，取得了令人印象深刻的表现。尽管RL范式已成功用于微调LLM以完成文本生成任务[12, 682, 43, 683]，但如何高效利用RL算法进行行动学习仍是一大挑战。近期进展表明，从多个角度出发，将RL应用于LLM的行动学习已取得显著成果：

鉴于LLM蕴含丰富的世界知识，我们可以利用LLM模拟外部环境或生成想象轨迹，辅助智能体进行行动学习。例如，RLFP[657]通过策略、价值函数与成功奖励基础模型的引导与反馈帮助智能体更高效探索；ELLM[658]利用LLM中的大规模背景知识引导智能体在多环境中高效探索；GenSim[659]利用LLM的编程能力自动生成丰富模拟环境与专家演示，从而增强智能体自由探索能力；LEA[660]利用LLM的语言理解能力，将LLM作为状态转移模型与奖励函数，用于提升基于离线RL的推荐系统表现；MLAQ[661]利用基于LLM的世界模型生成虚拟交互，并应用Q学习[684]从想象记忆中推导最优策略；KALM[662]微调LLM实现文本目标与行动回滚间的双向转换，使智能体能通过离线RL从LLM中提取知识。总体而言，得益于RL范式，我们可以深度挖掘LLM中的内部知识，增强其与外部环境的交互。当前工作如Search-R1[685]、R1-Searcher[686]、RAGEN[687]与OpenManus-RL[688]均在探索使用RL方法对智能体模型在行动环境中的轨迹数据进行微调。

此外，分层RL也是一项有前景的研究课题，帮助基础模型分解复杂任务，并通过RL学习各子任务的最优策略。例如，When2Ask[663]使智能体能从LLM请求高层指令，由高层LLM规划器提供选项计划，智能体则基于这些选项学习底层策略；Eureka[664]利用LLM生成具反思能力的人类级奖励函数，使智能体能高效学习如人形五指操作等复杂任务；ArCHer[665]采用分层RL方法，使用离策略RL算法学习高层价值函数，进而隐式引导底层策略；LLaRP[666]利用LLM理解文本任务目标与视觉观测，并使用额外动作输出模块将LLM主干输出转化为动作空间分布。总体来看，使用分层RL可以引导AI智能体在分析用户请求、进行推理与规划时探索最优策略。

通过强化学习，我们可以将基础模型与来自交互环境的在线学习相结合，融合行动策略与世界模型。这种整合使AI智能体能够实现先进的行动系统。在强化学习范式下，智能体会根据外部反馈动态调整和优化其决策过程，从而提升行动学习的效率与效果，并更好地实现预期目标。

总结

总体而言，在行动系统的加持下，AI智能体在多个领域展现出了显著的决策能力。例如，行动学习使AI智能体能够自动理解图形用户界面（GUI）并执行多种操作，从而通过自动化计算机使用提升人类的生产力。此外，多项研究表明，配备行动系统的AI智能体在机器人操作任务中也取得了卓越成果，例如物体抓取、叠衣服以及清理桌面等任务。在工业界，基于行动模型的研究也展现出广阔前景。例如，自动驾驶（AD）因VLMs在感知与决策方面的卓越表现而受到高度关注。通过基础模型引入人类理解，AD系统可以有效理解现实世界的周边环境，从而模拟人类级别的驾驶行为。总之，行动学习赋予智能体与外部世界交互的能力，为AI在真实场景中的应用创造了更多可能性。

8.3.3 基于工具的行动范式

工具学习是人类智能区别于其他动物智能的一个显著特征。自石器时代以来，人类对工具的使用不断提升了效率、生产力和创新力。同样地，使AI智能体能够在数字与物理环境中操作多种工具，是实现类人智能的基本步骤。

图8.4：智能体使用的工具类型，包括工具分类和学习范式

定义

在AI领域，工具被定义为允许智能体与外部世界交互的接口、仪器或资源。例如包括网页搜索[632, 705, 97, 634]、数据库[706, 707, 708, 709]、编程环境[710]、数据系统[711, 712, 713]，以及天气预测[714]等。通过将工具功能转换为普通文本或API格式，基础模型可以拓展其问题解决能力。AI工具系统的演进可分为几个阶段。最初，随着大语言模型的出现[2]，研究重点在于将工具转化为可解释的格式（例如函数调用）。随后，多模态处理的发展推动交互从对话转向图形用户界面（GUI）；而近期的研究则探索了具身智能智能体，使其控制硬件（如机械臂、传感器）以与物理世界互动。简而言之，基于工具的行动可以视为一种辅助外部操作的形式。

工具类别

与行动空间类似，工具也可按类型划分为多个类别。本部分主要总结三大关键领域：语言、数字和物理。此外，我们也探讨了工具学习在科学发现等新兴领域的潜力：

语言类：为了便于外部工具的使用，通常将工具视为基础模型中的一种函数调用表达，包含任务描述、工具参数和相应输出。这种表达方式使LLM能够理解何时以及如何调用工具完成任务。例如，ToolFormer[689]通过集成计算器、问答系统、搜索引擎、翻译器和日历等外部工具空间，扩展了语言模型能力。ToolLLM[690]以RapidAPI为行动空间，并使用基于深度优先搜索的决策树算法选择最适合的工具。Gorilla[691]在工具文档基础上微调LLM，使其能生成API调用。ToolkenGPT[692]优化工具嵌入，使LLM能从精调的工具嵌入中检索工具。GPT4tools[693]和 AnyTool[694]则通过构建自指令数据集并在其上微调LLM以增强工具使用能力。总体来看，得益于LLM的强大能力，语言类工具的使用得到了广泛研究，其有效性已在从纯文本、函数调用到代码编程的多种任务中得到验证。

数字类：随着LLM在语言处理中的成功，研究者开始探索将任务范围从语言扩展至数字领域（如多模态、网页搜索、GUI等）。例如，MM-ReAct[497]、ViperGPT[498]和 Visual ChatGPT[496]将LLM用作控制器，引导视觉专家解决不同任务。HuggingGPT[152]与 Chameleon[153]首先通过LLM进行推理和规划，然后选择合适的多模态工具完成用户指令。WebGPT[632]与 WebAgent[634]将搜索引擎嵌入LLM中，以提升其解决复杂任务的能力。Mobile-Agent[635]与 AppAgent[636]分别将GUI操作与App使用作为基于工具的行为，扩展AI智能体在移动设备上的任务处理范围。相比于物理世界，数字环境通常提供更简单的数据采集与处理流程。通过基础模型与数字环境的互动，我们能够开发出面向电脑、手机等数字设备的智能助手。

物理类：在物理世界应用中，RT-2[643]展示了使用视觉语言工具进行语言引导的机器人操作，TidyBot[695]展示了LLM如何根据个性化家务需求调整清洁工具。SayCan[646]使用LLM作为认知系统，通过视觉感知与机械臂控制引导机器人完成任务。SayPlan[292]构建了三维场景图作为行动空间，设计多种动作与工具用于3D模拟，并由LLM作为规划器调用这些操作。此外，现实世界中的专用应用也不断扩展，例如在外科机器人领域，[715]提出了一个多模态LLM框架用于机器人辅助吸血，通过高层任务推理实现自主外科子任务。一些自动驾驶系统[716, 717]也将视觉语言模型与车辆控制工具整合，用于可解释的导航。总的来看，相比其他任务，物理世界的应用面临最大的挑战，但也拥有最高的工业价值。因此，未来仍需深入探索基于物理智能体的高级行动学习与工具整合。

科学类：科学工具在推动AI智能体跨学科发展中发挥了变革性作用，使其在整合基础模型的同时能学习、适应并执行任务，从而推动创新，解决复杂挑战。在材料科学领域，HoneyComb[696]通过其ToolHub体现了工具驱动的发展。通用工具可动态访问实时信息与最新文献，有效弥合静态知识库的缺口。材料科学工具专为计算密集型任务设计，依托Python REPL环境动态生成并执行代码，实现精确数值分析。同样地，ChemCrow[697]展示了GPT-4结合18种专家设计工具在化学领域的变革潜力，支持复杂任务如有机合成、药物发现与材料设计。这些工具包括OPSIN用于IUPAC名称结构转换、计算器用于精确数值计算，以及其他专用化学软件以预测反应与评估分子性质。SciToolAgent[698]展示了多工具整合如何革新科研系统，整合超过500种工具（如Web API、ML模型、函数调用、数据库等），解决现有系统局限。SciAgent[699]则展示了一个多智能体框架，融合本体知识图谱与专用智能体用于假设生成与批判性分析，强调模块化工具驱动系统在材料科学等领域加速发现的潜力。这些案例表明，将专用工具集成至AI框架中具有解决特定领域挑战的巨大潜力。

工具学习

受到人类进化的启发[718]，AI中的工具整合涉及三个关键方面：工具发现（识别合适工具）、工具创造（开发新工具）与工具使用（有效应用工具）。我们也系统回顾了现有文献，并在下文中进行了总结：

工具发现：在现实环境中，从数字空间到物理世界存在大量不同类型的工具。为用户指令找到最合适的工具具有一定挑战性。因此，工具发现的过程即为识别并选择AI智能体可操作的合适工具以达成目标。这一阶段要求AI智能体中的世界模型能够深刻理解复杂用户指令及不同工具的相关知识。此外，AI智能体的多样性也与其操作多类工具系统的能力密切相关。一般而言，工具发现可分为两种主流范式：基于检索的方法与基于生成的方法。检索式方法旨在从工具库中选择最相关的工具。例如，HuggingGPT[152]引入了一个框架，其中LLM作为控制器，进行任务规划并从 Hugging Face 等平台调用合适的模型以完成用户意图。在生成式方法中，通常对LLM进行微调，使其学会如何根据不同用户指令使用与选择工具。例如，ToolFormer[689]收集了大规模语料及其对应的API调用（如计算器、问答系统、搜索引擎、翻译器与日历）进行训练。ToolLLM[690]根据解决路径收集工具指令，并微调Llama模型以生成更优的API调用以使用工具。

工具创造：除了使用现有工具外，创造新工具的能力在人类文明发展中起到了关键作用。对于语言智能体，一个广泛采用的方法是使用LLM生成函数作为可执行程序，涵盖代码与文档说明。例如，PAL[701]将程序作为中间推理步骤以解决问题，LATM[702]或 Creator[703]使用LLM生成满足用户意图的代码，并设计验证器验证所创建的工具。SciAgent[699]不仅整合多种科学工具，还能构建新工具用于科学发现。更多关于从优化角度的工具创造细节可见第9.4.2节。

工具使用：在收集或创造工具之后，工具的有效使用构成了AI智能体能力的基石，使其能将虚拟与物理世界连接起来。现代AI智能体日益频繁地使用工具应对多领域复杂任务，扩展可从以下三个维度展开：1）垂直专业化：智能体利用领域特定工具，在机器人、科学与医疗等复杂领域实现专业级表现；2）水平整合：系统跨模态整合多类工具包（视觉、语言、控制）以实现多模态问题解决；3）具身交互：智能体通过机器人工具与传感器与环境进行物理交互。

总结

工具学习与行动学习共同构成AI智能体行动系统中最重要的两个组成部分。工具学习可被视为一种使用外部状态进行问题求解的行动方式。工具学习使AI智能体大幅扩展其任务范围，突破基础模型原有能力边界。例如，借助API或函数调用，语言模型无需仅依赖下一词预测，而是可以直接复用现有模型（如检索、编程、网页搜索）的能力来生成答案[719]。工具学习也涉及多个挑战性阶段，包括如何确定工具空间、如何发现与选择工具，以及如何创造与使用工具。总体而言，工具学习在构建可解决多领域复杂任务的全能型AI智能体框架中发挥着核心作用。

8.4 行动和感知：“外向内”还是“内向外”

在认知科学与神经科学领域，一个核心争论是：在智能系统中，行动还是感知构成因果流的根源？图8.5展示了不同的观点。传统的“外向内”（outside-in）视角认为，因果影响始于外部刺激。环境激活外周感受器，这些信号向内传导，最终引发行为。这种观点将有机体或智能体描绘为本质上是被动的：外部世界引起感官变化，智能体的行为是这些变化的下游结果。

图8.5：对行动与感知因果关系的不同理论理解

相比之下，Buzsáki 提出的“内向外”（inside-out）框架[18]认为，是智能体自身的行动赋予输入信号以意义与后果。这一观点暗示了一个主动的智能体，其持续地产生预测与运动指令，同时向感知区域发送“伴随放电”或“动作副本”信号。这些内部生成的信号作为参考，告诉智能体哪些感官变化是自发的，而非外部强加的。如此一来，因果性从外部事件转变为内部主动发起，外部刺激则转变为确认或校正的角色。这一逆转对我们理解感知的目的与功能具有深远影响：感知不再是最终目的，而是为了更新与修正智能体关于环境的行动驱动假设。

从进化角度看，具备不依赖复杂感知分析即可行动的能力，可以带来即时的生存优势。即使是简单的生物，也能通过周期性运动搅动营养丰富的水体获取食物，远早于复杂感知能力的进化。换言之，在进化时间上，运动先于高级感知能力，这表明行动能力并非仅由外部刺激驱动，反而可能是感知发展的因果驱动因素。正是当行动机制发展到一定程度后，智能体才从附加的传感器中获益，这些感知器能更具策略性地引导动作。这一发展顺序将感知锚定于其实用性，将感知判别与动作的实际结果紧密相连。

当行动与感知的正常互动中断时，因果循环的复杂性便会显现。例如，在睡眠瘫痪中，大脑的运动指令暂时无法传达到肌肉，外部刺激依旧轰击感官，但行动与感知之间的校准机制失效，导致个体产生强烈的不真实感，因为大脑缺乏内部生成的参考信号来解释感官输入。同样地，如果外力操控眼睛而非由大脑发出运动指令，则视觉场景会被感知为移动，凸显了脱离自主行动的纯感知可能导致混乱。

神经生理数据进一步支持“内向外”模型。许多原本被认为是“纯感知区”的神经元，不仅追踪外部刺激变化，也追踪自发动作——有时反而对后者反应更强烈。这表明大脑中的“因”往往起源于内部，引导外部信号的强度与意义。没有这些内部参照，感官数据可能变得模糊甚至无用。

对智能体的启示

“内向外”视角为现代智能体研究提供了有力启示。当前大多数AI系统，尤其是许多基于LLM的智能体，依旧主要以被动模式运行，等待用户输入，再基于大规模数据训练中学到的统计相关性生成回应。这种被动性类似于“外向内”框架，智能体的角色被局限为响应者，而非主动发起者。然而，如果一个智能体具备主动性，能够持续通过自发行为（无论是物理还是表征行为）构建与验证假设，它便能建立自身的“感知”输入——无论是感官流还是语言提示，从而减少歧义。例如，一个基于LLM的智能体如果能主动提出问题或验证自身陈述（如检索知识库），则能更好地区分哪些推理是自发的，哪些是由外部数据驱动的。通过跟踪这些自发贡献（类似“伴随放电”），模型能够提升一致性、减少“幻觉”类错误，并通过迭代的因果循环优化其内部状态。

主动性还促进更高效、具上下文意识的学习。与其被动等待标注样本，智能体可以主动探索、引发反馈，并将自发经验纳入训练。随着时间推移，行动与感知的紧密耦合将增强智能体处理复杂任务、应对未知挑战以及实现更强泛化能力的能力。

将模型从“外向内”转向“内向外”的变化，重新定义了感知作为行动下游因果结果的角色。智能系统——无论是生物的还是人工的——都可以从认识到行动的因果创造力中受益。通过构建主动而非仅仅反应的智能体，我们或许能更深入地理解自然认知，并迈向下一代AI的发展。

表8.2人类与智能体的行动和感知对比

维度	人类大脑/认知	LLM智能体	备注
感知	整合多种感官通道（视觉、听觉、嗅觉、触觉、味觉）。感知与情绪、内分泌系统和身体状态密切相关。对细微差别高度敏感，感知能力精细。	主要依赖语言输入，具有限的多模态能力。感知依赖外部传感器和模型，整合性有限。缺乏与物理状态的实时耦合。	感知差异导致对现实的理解方式不同。具身智能尝试弥合此差距，但仍面临硬件与软件上的挑战。
统一表征	同时处理多模态输入：视觉、听觉、语言、运动、情绪。不同脑区协作生成统一的时空语义理解。	主要基于文本。一些多模态模型可以处理图像或音频，但整合性较低。 - 尚无如人脑那般统一的时空建模能力。	即使是先进的多模态模型，也缺乏人脑那种整体化、统一性的表征能力。在硬件和算法层面仍存在挑战。
任务切换粒度	在宏观与微观认知任务之间灵活切换。能在高层次规划的同时，根据需要聚焦细节。可根据上下文和工作记忆动态调整任务优先级和关注点。	在任务粒度控制方面高度依赖提示工程。无法自主在任务层次之间重新分配注意力。若缺乏引导提示，可能陷入某一抽象层次而难以切换。	人类可根据情境需求动态调整认知粒度，而LLM则需要明确指令来有效转换任务焦点。
行动	目标导向过程驱动多个感官进行决策。 -通过与环境互动进行实时学习。包括身体活动与心理过程。	行动空间需预先定义。无法在连续空间中支持行动。依赖在线训练来优化环境中的决策过程。	人类能够主动学习新动作并在连续空间中执行动作，而当前的LLM智能体尚不具备此能力。

8.5 总结和讨论

传统上，行动代表了人类认知系统基于环境交互反馈所表现出的行为能力。它赋予人类思考、推理、语言表达、奔跑和完成各种复杂操作的能力。基于行动系统，人类能够通过从世界中增强感知和行动不断迭代演化大脑智能，最终形成一个闭环，进一步推动文明与创新的产生。同样地，与人类认知系统类似，行动系统与工具系统在智能体中也发挥着重要作用。集成行动系统可使智能体系统性地进行规划、执行和调整其行为，在动态环境中实现更强的适应性和鲁棒性。在本节中，我们系统地审视并总结了行动模块对智能体的影响，重点聚焦于行动系统与工具系统两个方面。

在本研究中，我们从三个维度简要描述了行动系统：行动空间、行动学习与工具学习。在行动系统中，行动空间通常是最关键的组成部分，决定了智能体解决下游任务的能力上限。它定义了智能体在与真实世界交互过程中可选择与执行的行为范围。根据数据类型不同，构建行动空间也存在不同难度，从离散型数据到连续型数据不等。随着对智能体需求的增长，智能体在处理更复杂，特别是涉及真实应用的任务方面也被寄予更高期望。因此，如何构建鲁棒且通用的行动空间仍是一个持续面临的挑战。在行动空间的基础上，行动学习是智能体能够有效与外部世界和人类交互的另一个核心要素。行动学习指的是智能体在与现实环境互动过程中不断学习并优化其策略的过程。基于不同的基础模型，行动学习可演化为多种学习范式，从零样本学习（如提示工程）到监督训练与强化学习。在这一过程中，理解任务本身、如何设计系统提示词、如何确定预训练或微调的数据集，以及训练过程中的奖励信号或优化策略，都是至关重要的。尽管行动学习在推进智能体框架方面取得了显著进展，但仍有许多问题尚未解决。例如，ICL范式需要特定的先验知识以进行合理的提示设计。此外，监督训练中结合预训练与后训练对数据质量和多样性要求极高，通常需耗费大量人工精力进行数据处理；再者，强化学习本身的不稳定性也限制了其在大规模训练中的应用。

此外，工具系统的整合能力也与行动系统的设计密切相关。通过有效的行动系统，智能体能够无缝接入各类工具，执行复杂的用户意图，并将外部数据转化为有意义的输出。这种行动系统与工具之间的协同不仅缓解了记忆能力的局限、降低了“幻觉”风险[714]，还增强了系统的专业性与鲁棒性。例如，配备鲁棒行动系统的智能体可以动态地选择并使用最适合当前任务的工具，从而确保结果的准确性与效率。此外，行动系统还能促进分层推理，使智能体能够协调复杂的工作流，精准对齐用户目标。这种对齐能力对于需要实时决策与精密执行的任务尤为关键，进而填补基础模型能力与实际应用需求之间的差距。此外，工具执行过程所提供的透明性与可解释性也增强了用户信任，并有助于实现更高效的人机协作。

总之，行动系统为智能体框架构建问题解决能力提供了坚实基础，使其能够应对远超基础模型范畴的复杂任务。

尽管如此，构建有效的智能体行动系统仍面临诸多挑战，主要包括：

效率问题：在许多对响应速度要求极高的实时场景中（如欺诈检测或实时决策），效率成为关键障碍。复杂的行动系统可能带来无法接受的延迟，影响其实际部署。为应对该问题，可采取的策略包括过滤无关或冗余信息、使用零样本提示简化推理流程、利用高速缓存机制保留关键知识等，从而在维持高性能的同时缩短响应时间。
评估机制：行动学习与工具学习的评估标准仍不成熟。在真实环境中，存在大量来自不同来源的行动方式。因此，如何从多源数据中识别正确行动或工具以避免信息冲突，是智能体面临的一项重大挑战。为此，需要构建高效且鲁棒的评估系统，确保预测行为的准确性与可靠性。开发验证协议和透明方法也有助于减少行为预测错误。揭示基础模型的决策过程，也有助于理解哪种行为更优，以及如何协调各类行动与工具以输出可信结果。
多模态行动学习：得益于大语言模型的发展，基于LLM的自主智能体在多模态方向取得显著进展。但如何理解并调用语言以外的行动（如GUI操作或具身工具）仍是难点。在现实世界中，人类可通过语言、图像、视频或人类引导等任意形式学习新技能。因此，使智能体具备通过多种模态学习行动的能力，是推进其应对现实任务能力的关键。换言之，我们必须探索如何缩小人类与智能体之间在工具使用上的差距，从而推动未来先进智能体框架的设计。
隐私保护：在使用生成式AI（尤其是LLMs）时，隐私问题尤为关键。必须保护用户的敏感数据并防止行为信息泄露。为解决这一问题，可采用如联邦学习等安全技术，使模型能够在去中心化数据源上训练而不直接暴露敏感信息。此外，模型蒸馏也是常用手段，既能保持模型性能，又能保障数据隐私。这些方法使得在保护数据机密性的同时实现有效模型训练成为可能[720]。
安全问题：在将人类劳动与AI系统集成过程中，必须严肃考虑人-模型协作的伦理影响及其在物理环境中互动所带来的安全隐患。必须保障人类尊严与自主性。建立伦理准则、促进公平劳动条件与推动跨学科合作是应对这些问题的关键。同时，开发健全的安全机制以防止智能体在操作物理工具或执行行为过程中产生错误或恶意行为，也是保障系统可靠性与用户安全的重要措施。