当前位置：首页 > news >正文

多智体具身人工智能：进展与未来方向（上）

news 2025/7/2 15:23:42

25年5月来自北理工、南大、西安交大、浙大和同济大学的论文“Multi-Agent Embodied AI: Advances And Future Directions”。

具身人工智能（Embodied AI）在智能时代先进技术的应用中扮演着关键角色。在智能时代，人工智能系统与物理实体相融合，使其能够感知、推理并与环境交互。通过使用传感器输入和执行器执行动作，这些系统能够根据现实世界的反馈进行学习和调整，从而能够在动态且不可预测的环境中有效地执行任务。随着深度学习（DL）、强化学习（RL）和大语言模型（LLM）等技术的成熟，具身人工智能已成为学术界和工业界的领先领域，其应用领域涵盖机器人、医疗保健、交通运输和制造业。然而，大多数研究都集中在通常假设静态封闭环境的单智体系统上，而现实世界的具身人工智能必须应对更为复杂的场景。在这样的环境中，智体不仅必须与周围环境交互，还必须与其他智体协作，这就需要复杂的机制来实现自适应、实时学习和协作解决问题。尽管人们对多智体系统的兴趣日益浓厚，但现有研究范围仍然狭窄，通常依赖于简化模型，无法捕捉多智体具身人工智能动态开放环境的全部复杂性。本文回顾当前的研究现状，分析关键贡献，并指出挑战和未来方向，旨在为指导该领域的创新和进步提供见解。

认识到多智体具身人工智能在解决现实环境中的复杂协调任务方面的巨大潜力，本文对这一新兴研究领域的最新进展进行了系统而全面的回顾。如图所示，首先介绍基础概念，包括 MAS、RL 和相关方法。接下来，讨论单智体情境中的具身人工智能，清晰地概述核心定义、主要研究方向、代表性方法和已建立的评估基准。在此基础上，将讨论扩展到多智体具身人工智能，重点介绍广泛使用的技术，并研究专为多智体场景设计的近期突出基准。最后总结了本次回顾的主要贡献，对多智体具身人工智能的未来发展提出了深刻的见解，旨在促进这一前景广阔且快速发展的领域的进一步研究和创新。

请添加图片描述

预备概念

介绍具身人工智能 (Embodied AI) 的核心技术。

首先定义具身人工智能本身。此外，还将定义多智体系统 (MAS) 的概念，并探讨一系列基本方法，包括最优控制 (OC)、强化学习 (RL)、多智体学习 (MARL)、分层学习（HL）、模仿学习 (IL) 和生成模型。

具身人工智能

具身人工智能（如图所示）是指一类配备物理躯体的智体，使其能够通过持续交互感知、采取行动并适应环境[108]。具身人工智能的概念根源，可以追溯到艾伦·图灵在20世纪50年代的早期主张，即真正的智必须源于感官和运动体验，而非纯粹的符号计算[178]。这一概念在20世纪80年代通过具身认知理论得到进一步形式化，该理论认为认知本质上是由代理的物理形态及其与世界的交互所塑造的[18]。与依赖抽象推理或从静态数据集被动学习的传统人工智能范式相比，具身人工智能强调现实世界的交互是学习和决策的基础。

请添加图片描述

在系统层面，具身人工智能架构通常由三个紧密集成的组件组成：感知、认知和行动。智体使用物理传感器从周围环境获取实时的、与情境相关的信息。这些传感数据由支持推理、解释和规划的认知模块处理。随后，决策结果通过执行器转化为物理动作，执行器会修改环境并发起新的感知输入。这些过程形成一个连续的反馈回路，称为感知-认知-行动循环 [15]，这使得具身智体能够根据环境反馈动态地调整其行为。具身人工智能范式的核心是三个基本属性，它们决定智能如何在物理智体中产生和发展：

• 具身化。具身人工智能植根于具备感知、移动和在现实世界中行动能力的物理智体。这些智体形式多样，包括人形机器人、四足、自主地面车辆和无人机。物理躯体不仅是智体与环境交互的媒介，也是约束和实现其行为能力的结构基础。身体的形态、感觉运动保真度和驱动力共同定义了智体可能交互的范围和粒度，从而塑造了情境智能的范围。
• 交互性。基于这一物理基础，具身智能通过与周围环境的持续闭环交互而产生。从第一人称视角操作，智体参与感知、决策和行动的动态循环。每个行为不仅响应环境刺激，还会改变未来的感官输入，形成一个支持自适应学习的丰富反馈循环。通过这种持续的参与，智体改进其策略，获得特定于任务的能力，并在不同环境中推广行为，从而在现实世界场景中实现稳健的、情境感知的性能。
• 智能改进。具身人工智能的发展以认知和行为的持续改进能力为特征。这一进步日益得益于大规模多模态模型的集成，这些模型赋予智体语义理解、指令遵循和情境推理能力。这些模型有助于实现小样本学习、情境自适应以及跨任务的知识迁移。随着智体与环境的交互，它会逐步调整其感知输入、决策过程和物理动作，从而立即完成任务，并随着时间的推移，在自主性、适应性和泛化能力方面持续提升。

生成模型（尤其是LLM [250]）的最新进展进一步扩展具身智体的认知能力。LLM 凭借其强大的推理和泛化能力，使具身系统能够理解语言指令，将语义知识与物理经验相结合，并执行零样本或少样本自适应。这些发展加速了具身人工智能在机器人、自动驾驶、智能制造和医疗保健等现实世界领域的部署 [114]。重要的是，具身人工智能不仅仅是强大的人工智能模型与机器人平台的集成；相反，它代表了一种共同进化的范式，其中智能算法（“大脑”）、物理结构（“身体”）和动态环境共同进化，以支持自适应的具身智能。

多智体系统 (MAS)

MAS 由多个自主智体组成，每个智体能够感知其环境、做出独立决策并相应地执行操作 [36]。与传统的集中式控制范式相比，MAS 采用去中心化架构，智能体在本地交互的同时实现全局协调。这种去中心化设计在可扩展性、容错性和适应性方面具有显著优势，尤其是在动态、部分可观测或非平稳环境中。MAS 的核心属性包括自主性、去中心化、智体间通信、局部信息访问和动态适应性。这些特性共同赋能 MAS 处理各种复杂的高维任务，这些任务需要并行感知、分布式规划和实时协调，在机器人、自动驾驶和智能基础设施等领域有着显著的应用。

如图所示：MAS的三种关系设置，竞争、合作和混合

请添加图片描述

近年来，MAS 研究经历了重大的范式转变，这得益于基于学习的方法的融合和神经架构的进步。处于这一转变前沿的 MARL [2] 提供了一个强大的框架，使智体能够通过交互学习复杂的行为。集中训练与分散执行 (CTDE)、参数共享、信用分配和对手建模等技术已被广泛采用，以应对非平稳性、协调性和部分可观测性等核心挑战。作为这些进步的补充，LLM 的集成为 MAS 开辟了新的能力。基于 LLM 的智体可以访问海量预训练知识，通过自然语言进行交流，并进行高级推理和抽象，这些能力超越了传统策略驱动系统的局限性。因此，强化学习和基础模型的融合正在重塑 MAS 格局，为更具通用性、可解释性和与人类一致的智体架构铺平道路 [62]。

最优控制

最优控制（OC）是现代控制理论的一个基本分支，其研究重点是设计控制策略以优化特定的性能标准，例如时间、能耗或成本，同时满足系统的动态和控制约束[147]。由于OC能够实现全局最优，同时处理多个目标和约束，并在复杂系统中保持鲁棒性，因此在航空航天工程、工业自动化、经济管理和能源系统等领域得到了广泛的应用。

OC 中的常用方法包括变分法、庞特里亚金（Pontryagin）最大值原理、动态规划和模型预测控制 (MPC)。变分法利用欧拉-拉格朗日方程推导出最优轨迹。Pontryagin 最大值原理通过构造哈密顿函数并定义状态和共状态动力学来制定最优性的必要条件。动态规划 (DP) 通过贝尔曼（Bellman）最优原理解决复杂系统中的状态空间优化问题。相比之下，MPC 使用一个滚动时域策略实时求解约束优化问题。其中，MPC 在工业界应用最为广泛，其核心思想是在每个时间步求解一个有限范围 OC 问题，并且仅执行第一个 OC 动作，如图所示。

请添加图片描述

由于其高效性、实时性和鲁棒性，MPC 已广泛应用于具有多个智体的具体 AI 系统中，例如机器人群的协调控制和无人机 (UAV) 的编队控制。

强化学习

强化学习 (RL) 是机器学习的一个基础分支，专注于使智体能够通过与动态环境交互做出连续决策 [170]。与需要标记数据的监督学习或揭示未标记数据中隐藏模式的无监督学习不同，RL 以反复试验的过程为基础。通过持续的交互，智体学会选择能够最大化长期累积奖励的行动，并利用来自环境的反馈来不断改进其行为。由于其从交互中学习的能力，RL 在众多领域取得了令人瞩目的成果。这些领域包括战略游戏 [92, 163]、机器人控制 [159]、工业流程优化 [129]、个性化医疗 [221]、自动驾驶 [87]，甚至 LLM 中的对齐和指令遵循 [136, 65]。
强化学习 (RL) 问题的核心通常被形式化为马尔可夫决策过程 (MDP)，如图 (a) 所示。虽然单智体强化学习 (RL) 为自主决策提供了坚实的基础，但许多现实世界场景涉及多个智体同时行动和学习。这促使人们将 RL 扩展到多智体强化学习 (MARL) 领域，其中智体之间的协调、竞争或合作变得至关重要。具体而言，在完全合作的任务中，MARL 问题通常使用分散式部分可观测马尔可夫决策过程 (Dec-POMDP) 框架建模，如图 (b) 所示。

请添加图片描述

人们已经开发出各种各样的算法策略来解决单智体和多智体强化学习问题。其中，主要有两类方法脱颖而出：基于价值的方法和基于策略的方法。基于价值的方法，例如深度 Q 网络 (DQN) [124]，专注于估计动作价值函数，使智体能够根据预测的未来奖励采取贪婪的行动。相比之下，基于策略的方法，例如 DDPG [101] 和 PPO [152]，直接优化参数化策略。这些方法通常结合价值函数来指导学习，特别适用于高维或连续动作空间的环境。这两种范式都通过不同的架构创新扩展到多智体环境。价值分解方法，例如 QMIX [144]，学习一个可以分解为各个智体效用的全局价值函数。这种结构支持分散执行，同时支持集中训练。另一方面，基于策略的 MARL 方法，包括 MADDPG [111] 和 MAPPO [222]，采用集中训练与分散执行 (CTDE) 框架。这些方法在训练过程中采用共享的全局评价器来提供稳定的学习信号，并支持智体之间有效的信用分配，从而增强了合作任务中的协调性。

分层学习

分层学习是一种学习范式，它将学习过程组织成多个抽象层次，较高层次负责设定抽象目标或意图，较低层次则专注于执行更具体、更细粒度的子任务（参见下图）。这种分层结构使模型能够跨不同粒度级别运行，从而通过将复杂任务分解为更简单、更易于管理的组件来提高解决复杂任务的效率和可扩展性[138]。

分层学习的核心过程通常包含两个阶段：低级策略学习和高级策略学习。低级策略学习旨在掌握基本子任务，通常使用传统的控制方法（例如MPC [162, 46, 41]）或通过端到端强化学习[217, 96]来实现。相比之下，高级策略学习负责协调学习的低级技能，以实现更复杂的目标。这通常通过强化学习或使用LLM进行规划来实现。

在基于强化学习（RL）的高级策略学习中，动作空间被定义为已学习的低级策略集合。然后，使用来自环境的奖励信号训练参数化的高级策略，以有效地选择和排序这些低级技能 [217, 96]。相比之下，基于 LLM 的高级策略学习通常涉及将任务目标和可用的低级策略集作为 LLM 的输入，LLM 然后通过组合和调用适当的低级技能来完成任务，直接生成结构化规划 [77]。如图所示：

请添加图片描述

模仿学习

IL，也称为从演示中学习，是一种机器学习范式，其中智体通过观察和模仿专家行为来获得任务解决能力。与需要手动设计奖励函数来指导学习的强化学习不同，IL 利用专家演示作为直接监督。这种区别使得 IL 在奖励规范模糊、成本高昂甚至不可行的复杂高维环境中尤为优势。多年来，IL 领域出现了三种最为突出的方法：行为克隆 (BC)、逆强化学习 (IRL) 和生成对抗模仿学习 (GAIL) [236]。

其中，BC 是最直接、应用最广泛的技术。它将模仿任务视为一个监督学习问题，旨在将观察的状态直接映射到相应的专家动作。如图（a）所示：

请添加图片描述

为了解决 BC 的一些局限性，IRL 采用了一种根本不同的方法，旨在推断专家的底层奖励函数，而不是直接复制他们的行为。一旦恢复了奖励函数，就可以使用标准 RL 方法推导出最优策略。如图 (b) 所示，这个两步过程可以提高泛化能力和策略的可解释性。通过明确地建模专家的意图，IRL 提供了更稳健且可解释的策略。然而，由于在奖励学习过程中需要反复进行 RL 迭代，这种优势的代价是额外的计算开销。

与 BC 和 IRL 不同，GAIL [68] 引入一个对抗性训练框架，无需明确指定奖励。受生成对抗网络 (GAN) [58] 的启发，GAIL 将模仿构建为两个组件之间的极小极大博弈：一个生成器（待学习的策略）和一个鉴别器，用于区分专家轨迹和策略生成的轨迹，如图 © 所示。

通过这种对抗设置，GAIL 隐式地学习一种奖励信号，鼓励智体做出与专家难以区分的行为。与 IRL 相比，GAIL 通过避免显式的奖励建模简化了训练流程，从而提高了样本效率。然而，这种优势是以降低可解释性为代价的，因为学习的奖励从未被显式提取。

总而言之，BC、IRL 和 GAIL 代表了更广泛的 IL 框架内的互补范式。BC 提供了简单有效的基线，IRL 通过奖励恢复提供了可解释性和泛化能力，而 GAIL 则结合了两者的优势，通过对抗学习实现端到端的模仿。在它们之间进行选择通常取决于目标应用所需的样本效率、泛化能力、计算复杂度和可解释性之间的权衡。

生成模型

生成模型是机器学习的基础范式，其核心目标是捕捉训练数据的底层分布，从而生成具有相似特征的新样本。这些模型在视觉、语言和多模态学习等领域得到了广泛的应用。近年来，LLM 和 VLM 等大规模生成模型的出现显著推动了该领域的发展。它们的成功很大程度上归功于强大的泛化能力、海量数据集的可用性以及可扩展的架构。这些模型的核心是几个关键的架构框架，包括 Transformer [180]、扩散模型 [69] 以及最近的状态空间模型 (SSM)，例如 Mamba [59]。

其中，Transformer 架构在序列建模的革新中发挥了关键作用。Transformer 最初是为机器翻译而提出的，它通过引入一种基于注意机制的机制，使序列中的每个元素能够直接关注其他所有元素（参见图 (a)），从而消除了对循环或卷积的需求。这种设计有助于实现高效的并行计算，并允许模型捕获全局上下文依赖关系。

请添加图片描述

与 Transformer 的离散注意力机制不同，扩散模型提供了一个概率性的、噪声驱动的生成框架。这些模型通过两个阶段运行：一个是正向扩散阶段，它会逐渐用噪声破坏数据；另一个是反向学习阶段，它会从噪声输入中重建数据（参见图 (b)）。

虽然 Transformer 和扩散模型取得了显著的成功，但这两种架构在扩展到长序列或复杂的生成过程时都遇到了限制。为了应对这些挑战，Mamba 架构引入一种基于连续时间 SSM 的新方法，在长序列处理中实现了线性时间复杂度并提升了效率（参见图 ©）。

单智体具身人工智能

具身人工智能的主流研究主要集中在单智体设置下，即单个智体在静态环境中运行以完成各种任务。在此背景下，现有方法大致可分为经典方法和基于现代学习的技术。早期的研究主要依赖于知识驱动、针对特定任务的规划和控制策略 [100, 107, 195]。然而，随着智体越来越多地部署在动态和非结构化的环境中，为每个场景手动设计定制的规划器和控制器已变得不可行。因此，基于学习的方法具有固有的适应性，并且在各种任务中具有强大的泛化能力，已成为在复杂动态环境中赋予具身智体的主流范式 [205, 204, 249]。近年来，生成模型的进步进一步增强了具身智体的潜力，使其能够表现出更具适应性、应用范围更广的行为。

下表是单智体 EAI 方法比较：GM = 生成模型

请添加图片描述

经典控制与规划

为了在物理世界中完成长远任务，具身智体必须有效地规划和控制其运动，并基于感知和特定任务的输入生成轨迹。经典规划方法大致可分为基于约束、基于采样和基于优化的方法 [251]。基于约束的方法将任务目标和环境条件编码为逻辑约束，将规划领域转化为符号表示，并采用符号搜索等约束求解技术来识别可行的解决方案 [112, 33]。然而，这些方法通常侧重于可行性而非解决方案的质量，往往忽略了最优性。此外，当感知输入为高维或结构复杂时，约束求解的复杂性会显著增加。基于采样的方法通过随机采样技术（例如快速探索随机树 (RRT) 及其变体）逐步探索可行解空间，逐步构建树或图结构以发现可行的运动轨迹，从而解决了这些局限性 [93, 224, 135]。

为了进一步优化可行域内的运动规划，基于优化的方法将任务目标和性能指标明确建模为目标函数，同时将可行性条件表示为硬约束。然后利用高级优化技术在受限解空间内搜索最优解。代表性的基于优化的方法包括多项式轨迹规划 [123]、MPC [90] 和 OC [47]。其中，多项式轨迹规划通常具有相对较低的计算成本，能够确保实时响应和平滑的轨迹生成，特别适用于复杂场景下的自主导航任务 [219, 142, 173, 191, 49]。

相比之下，MPC 和 OC 方法更适合于需要时间最优机动的高度受限场景，例如无人机操作期间的防撞 [47, 56, 256, 225]。例如，如图所示，文献 [225] 引入一个积极的包含碰撞的运动规划框架，该框架策略性地利用碰撞来提高受限环境中的导航效率。该方法集成了一个增强型包含碰撞的快速探索随机树 (ICRRT) 用于生成可变形运动原语，以及一种由滚动时域决策 (RHD) 策略指导的轨迹优化方法用于自主碰撞处理。实验结果证明了该方法的有效性，与传统的无碰撞方法相比，任务完成时间大幅减少（约 58.2%），凸显了其在实际应用中的巨大潜力。

请添加图片描述

基于学习的方法

传统的控制和规划方法因其能够提供高精度解决方案而长期被用于受限实时决策。然而，这些方法通常计算量大，限制了可扩展性和响应能力，尤其是在高维、非线性或非平稳系统中。此外，它们通常对未知场景或动态变化的环境表现出较差的泛化能力。为了克服这些限制，基于学习的决策范式越来越受到关注，旨在通过直接从交互式数据中学习来提供具有更高鲁棒性和泛化能力的实时性能。其中，端到端强化学习已成为一种突出的方法，因为它能够通过与环境的交互实现直接的策略优化。然而，在目标复杂或状态-动作空间较大的任务中，由于探索空间过大，端到端强化学习存在样本效率低和训练时间过长的问题。为了缓解这一问题，引入了分层强化学习 (IL)，它将复杂任务分解为一系列更简单的子任务，从而提高学习效率和可扩展性。尽管取得了这些进展，但端到端和分层强化学习方法从根本上都依赖于精心设计的奖励函数，而这些奖励函数在现实环境中通常难以定义或不切实际。

在这种情况下，模仿学习（IL）提供了一种引人注目的替代方案，它使智体能够直接从专家演示中获取有效策略，从而规避了显式奖励工程的需要，并促进了实践中更快的部署。

端到端学习。在复杂的环境中，OC 问题通常表现出非凸性，这使得经典的规划和控制方法难以在合理的计算时间内找到可行的解决方案。解决此问题的一种自然方法是以端到端的方式优化整个系统，采用强化学习技术，通过神经网络将感知信息直接映射到行动决策。这些方法通过最大化 (3) 中定义的预期累积奖励来优化策略，从而确保稳定且高频的控制输出（参见下图）。因此，端到端学习被广泛认为是迈向具身人工智能的终极途径，因为它消除了手动分解、对齐和调整单个模块的必要性，使代理能够将原始感知输入直接转化为有效的行动。事实上，端到端强化学习在配备多模态输入的各种机器人平台上都取得了令人瞩目的表现，包括无人机 [208, 51]、自动驾驶汽车 [52]、机械臂 [55] 和足式机器人 [14, 66]。

请添加图片描述

分层学习。在处理目标复杂或状态-动作空间较大的任务时，端到端强化学习常常面临样本效率低和由于探索空间过大而导致训练时间延长的挑战。为了解决这个问题，研究人员经常采用将强化学习与经典控制方法相结合的分层框架。在这样的框架中，强化学习通常负责高级规划或策略生成，而鲁棒的低级控制器（如模型预测控制 (MPC) 或比例积分微分 (PID) 控制器）则执行精确可靠的动作命令 [162, 46, 70]。这种分层方法使具身智能体能够有效地应对具有挑战性的非结构化问题。例如，单凭经典方法，引导无人机在最短时间内通过动态摆动的门（如图所示）尤其困难，因为门的位置会随着时间推移而变化，因此定义一个固定的优化目标并不切实际。相反，强化学习可以学习确定中间目标状态和 MPC 规划范围的策略，利用由遍历成功率和时间塑造的奖励信号来生成高效的轨迹 [162]。此外，当门的动态特性未知时，可学习的混合系数可以动态调整控制策略，基于实时状态信息实现追踪和通过行为之间的平滑过渡，从而增强轨迹的连续性 [46]。此外，精心构建的层次化设计可以自然地扩展此框架，以支持复杂具身场景中的多智能体协作任务 [70]。

请添加图片描述

从演示中学习。与 OC 方法不同，强化学习等基于学习的方法，需要通过反复试验的方式与环境交互来收集大量数据，这在现实世界的具身环境中会产生高昂的成本。此外，强化学习通常严重依赖于精心设计的目标函数或奖励信号，由于灵活性和适应性的必要性，在复杂和非结构化的环境中，准确指定这些目标函数或奖励信号变得具有挑战性。在这些情况下，从专家演示中学习（通常称为 IL）是一种更实用的替代方案。例如，[80] 使用经典的 IL 方法 BC 成功地将绘画策略从模拟器迁移到现实世界的机械臂，展示了高水平的绘画和书法技巧，如图所示。除此之外，一系列更先进的 IL 技术已被引入，以进一步增强具身智能，提高泛化能力和鲁棒性，包括交互式 IL [132]、约束 IL [155] 和 IRL [234]。

请添加图片描述

基于生成模型的方法

尽管传统的学习方法取得了进展，但它们往往受限于表征能力，无法处理多目标或多任务决策等复杂场景。这些方法通常存在学习性能不佳、外部先验知识利用效率低以及样本效率低等问题。为了应对这些挑战，研究人员开始探索利用具有更强大表征能力的生成模型，以实现更高效、更灵活的具身智能 [52, 196]。

生成模型最直接的应用是充当端到端控制器，直接输出可执行操作，从而将其内部先验和预训练知识迁移到具身系统中。然而，许多具身智能任务涉及细粒度的低级行为，生成模型通常难以理解和有效控制这些行为。受分层学习原则的启发，越来越多的研究采用生成模型来生成高级规划，同时依靠传统的控制或基于学习的方法来执行低级技能。除了直接决策之外，生成模型还被广泛用于支持学习过程。其应用包括整合感官信息以进行感知、生成奖励函数以及合成数据以提高样本效率。

端到端控制。为了在决策过程中更好地利用先验知识并处理复杂的多模态观察数据，越来越多的研究探索使用生成模型（尤其是大视觉-语言模型）作为直接决策器，如图 (a) 所示。早期的方法通常包括将状态和目标等输入格式化为自然语言，并将其输入到预训练的生成模型中，从而无需额外训练即可进行动作推理 [28, 82]。然而，由于预训练涵盖的场景范围有限，这些模型往往难以推广到广泛的现实世界决策任务。因此，更多研究集中于使用域特定数据对生成模型进行微调 [215, 76, 37, 85, 121, 78]，或将其与其他网络集成 [35, 154, 11]，以便更有效地融合领域知识和生成能力。

请添加图片描述

任务规划。由于生成模型在理解许多任务的低级控制方面能力有限，并且特定领域的微调需要大量的资源和成本，因此直接使用预训练的生成模型进行高级任务规划是一种更简单、适用范围更广的方法。利用预训练生成模型固有的推理 [200] 和反思能力 [212, 102, 73, 75]，这些模型可以在接收环境描述、状态和目标 [77, 161, 181] 等输入后，通过迭代推理和反思过程有效地生成面向目标的规划，如图 (b) 所示。例如，给定一个像“倒一杯水并放在桌子上”这样的高级任务，LLM 可以将其分解为清晰的可操作步骤序列：(1) 从桌子上拿起杯子，(2) 找到饮水机，(3) 将杯子与饮水机的喷嘴对齐，(4) 启动饮水机并等待杯子装满，以及 (5) 将装满的杯子放回桌子上。同时，近年来，具身人工智能规划的安全性越来越受到关注 [243, 220]。

感知。除了决策之外，生成模型强大的表达能力也使其能够有效地辅助具身智体进行环境感知。例如，HPT [189] 利用 Transformer 架构强大的序列处理能力，融合来自图像、IMU 传感器和雷达等各种来源的跨多个时间步长感知数据，生成高效的观测表征，如图 © 所示。类似地，许多方法利用 Transformer、扩散模型和 Mamba 架构进行感知融合 [97, 122, 95, 213, 253, 175]。此外，利用预训练的 VLM 对多模态感知数据进行语义理解，为支持具身智能体执行感知任务提供了另一种有效方法 [252]。

奖励设计。为了应对在复杂的现实场景中设计高质量奖励函数的挑战，利用预训练的生成模型进行奖励设计也已成为一种有效的方法，有助于具身智体学习超越感知的策略。奖励设计方法大致可分为奖励信号生成和奖励函数生成。在奖励信号生成方法中，生成模型在每个决策步骤接收状态、动作和目标信息，实时产生奖励信号 [91, 94]。虽然这种方法提供了灵活性并允许动态适应环境变化，但由于训练期间频繁调用生成模型，会产生大量的计算成本。相比之下，奖励函数生成方法只需要在训练前对生成模型进行几次预训练调用，即可根据任务描述和目标生成奖励函数 [226, 115, 211, 238, 168]，如图 (d) 所示。在训练过程中，每一步都使用奖励函数而不是生成模型，从而显著降低了计算开销。

数据高效学习。此外，由于真实物理环境中的交互成本高昂，并且机器人操作中的错误可能导致物理损坏或系统故障，因此采用生成模型进行数据生成以提高样本效率是辅助策略学习的另一个重要方法。基于 Transformer 模型和 Diffusion 模型等生成模型架构学习世界模型，并通过这些世界模型生成数据，是提高样本效率的主流方法 [72, 81, 245, 246, 120, 192]，如图 (e) 所示。在高级语言抽象环境中，一些方法直接使用预训练的生成模型作为未来轨迹预测的世界模型 [130]。另一类方法不是学习显式世界模型，而是利用生成模型创建多样化的模拟环境，通过智能体与模拟环境的交互生成额外数据 [197, 190, 218, 235]。