当前位置：首页 > news >正文

面向具身人工智能的二维世界模型综合综述

news 2025/10/28 16:09:54

https://arxiv.org/pdf/2510.16732

摘要—具身人工智能（Embodied AI）要求智能体能够感知、行动并预测其行为将如何重塑未来的环境状态。世界模型作为一种内部模拟器，能够捕捉环境动态，从而支持感知、预测和决策的前向与反事实推演。本综述为具身人工智能中的世界模型提出了一个统一的框架。具体而言，我们形式化了问题设定和学习目标，并提出了一个包含三个轴的分类法：(1) 功能性，即决策耦合型与通用目的型；(2) 时间建模，即序列模拟与推断 vs. 全局差异预测；(3) 空间表征，即全局潜在向量、令牌特征序列、空间潜在网格和分解渲染表征。我们系统化了机器人、自动驾驶和通用视频场景中的数据资源和评估指标，涵盖了像素预测质量、状态级理解和任务性能。此外，我们对最先进模型进行了定量比较，并提炼出关键的开放性挑战，包括统一数据集的稀缺性、需要超越像素保真度来评估物理一致性的评估指标、模型性能与实时控制所需的计算效率之间的权衡，以及在长时程预测中实现时间一致性同时减轻误差累积的核心建模难题。最后，我们在 https://github.com/Li-Zn-H/AwesomeWorldModels 维护了一份精选的参考文献目录。

索引术语—世界模型，具身人工智能，时间建模，空间表征。

1 引言

具身人工智能（Embodied AI）旨在赋予智能体感知复杂多模态环境、在其中行动并预测其行为将如何改变未来世界状态的能力[1], [2]。其核心是世界模型，这是一种内部模拟器，用于捕捉环境动态，以支持感知、预测和决策的前向与反事实推演[3], [4]。本综述聚焦于为具身智能体产生可操作预测的世界模型，将其与静态场景描述符或不捕捉可控动态的纯生成式视觉模型区分开来。

认知科学表明，人类通过整合感官输入来构建世界的内部模型。这些模型不仅预测和模拟未来事件，还塑造感知并指导行动[5]-[7]。受此观点启发，早期关于世界模型的人工智能研究植根于基于模型的强化学习（RL），其中潜在状态转移模型被用来提高样本效率和规划性能[8]。Ha 和 Schmidhuber 的开创性工作[9]确立了“世界模型”这一术语，并启发了 Dreamer 系列[10]–[12]，突显了学习到的动态如何驱动基于想象的策略优化。最近，大规模生成建模和多模态学习的进步已将世界模型从其最初的策略学习重点扩展到能够高保真度预测未来的通用环境模拟器，例如 Sora[13] 和 V-JEPA2[14]。这种扩展使功能角色、时间建模策略和空间表征多样化，同时也导致了不同子社区之间术语和分类法的不一致。

忠实地捕捉环境动态需要同时处理状态的时间演化和场景的空间编码[3]。长时程推演容易产生误差累积，这使得连贯性成为视频预测和策略想象中的一个核心挑战[15], [16]。同样，粗糙或以2D为中心的布局无法为处理遮挡、物体永久性和几何感知规划等挑战提供足够的几何细节。相比之下，神经场[17]和结构化体素网格[18]等体素或3D占据表征提供了更好的几何结构，从而更好地支持预测和控制。综上所述，这些要点确立了时间建模和空间表征作为核心设计维度，它们从根本上影响着具身智能体的预测时程、物理保真度和下游性能。

几篇近期的综述已经对快速增长的世界模型文献进行了整理。总体而言，这些综述遵循两种主要方法。第一种是功能导向的视角。例如，Ding 等人[4]根据理解和预测这两个核心功能对相关工作进行了分类，而 Zhu 等人[19]则提出了一个基于世界模型核心能力的框架。第二种方法是应用驱动的，专注于特定领域，如自动驾驶。值得注意的是，Guan 等人[20]和 Feng 等人[21]概述了用于自动驾驶的世界模型技术。

为了解决具身人工智能背景下缺乏统一分类法的问题，本工作引入了一个以功能性、时间建模和空间表征三个核心轴为中心的框架。在功能层面，该框架区分了决策耦合模型和通用目的模型。在时间层面，它区分了序列模拟与推断和全局差异预测。最后，在空间层面，它涵盖了从潜在特征到显式几何和神经场的一系列表征。该框架为组织现有方法提供了一个统一的结构，并整合了标准化的数据集和评估指标。这一结构有助于进行定量比较，并为未来研究提供了一个全景式、可操作的知识图谱。

图1展示了本文的结构和分类法概览。我们在第2节中概述了世界模型的核心概念和理论基础。第3节介绍了我们的三轴分类法，并将代表性方法映射到该框架上。第4节综述了用于训练和评估的数据集和评估指标。第5节对最先进模型进行了定量比较。第6节讨论了开放性挑战和有前景的研究方向，第7节对本综述进行了总结。

2 背景

2.1 核心概念

如第1节所述，世界模型充当环境动态的内部模拟器。其功能建立在三个方面：

模拟与规划：利用学习到的动态生成合理的未来场景，使智能体能够通过想象评估潜在行动，而无需进行真实世界的交互。
时间演化：学习编码状态如何演化，从而实现时间上一致的推演。
空间表征：以适当的保真度对场景几何进行编码，使用潜在令牌或神经场等格式为控制提供上下文。

这三个支柱为第3节中引入的分类法提供了概念基础，并在随后的数学框架中进行了形式化。

2.2 世界模型的数学形式化

我们将环境交互形式化为一个POMDP[24]。为了符号一致性，我们在 $t = 0$ 时定义一个空的初始动作 $a_{0}$ ，这使得动态可以被统一地书写。在每个步骤 $t≥1t\geq1$ 时，智能体接收一个观测 $o_{t}$ 并采取一个动作 $a_{t}$ ，而真实状态 $s_{t}$ 保持未观测。为了处理这种部分可观测性，世界模型使用一步滤波后验来推断一个学习到的潜在状态 $z_{t}$ ，其中假设前一个潜在状态 $z_{t-1}$ 总结了相关历史。最后， $z_{t}$ 被用来重构 $o_{t}$ ；
$Posterior:⁡qϕ(zt∣zt−1,at−1,ot)Reconstruction:⁡pθ(ot∣zt).\begin{array}{l l}{\operatorname{Dynamics\;Prior:}}&{p_{\theta}(z_{t}\mid z_{t-1},a_{t-1})}\\ {\operatorname{Filtered\;Posterior:}}&{q_{\phi}(z_{t}\mid z_{t-1},a_{t-1},o_{t})}\\ {\operatorname{Reconstruction:}}&{p_{\theta}(o_{t}\mid z_{t})}\\ \end{array}.$
与马尔可夫结构一致，观测和潜在状态的联合分布可分解为：
$pθ(o1:T,z0:T∣a0:T−1)=pθ(z0)∏t=1Tpθ(zt∣zt−1,at−1)pθ(ot∣zt),(2)p_{\theta}(o_{1:T},z_{0:T}|a_{0:T-1})=p_{\theta}(z_{0})\prod_{t=1}^{T}p_{\theta}(z_{t}|z_{t-1},a_{t-1})p_{\theta}(o_{t}|z_{t}),(2)$
为了推断潜在状态，我们必须用一个时间分解的变分分布来近似难以处理的真实后验 $pθ(z0:T∣o1:T,a0:T−1)p_{\theta}(z_{0:T}|o_{1:T},a_{0:T-1})$ ：
$zt−1,at−1,ot),(3)q_{\phi}(z_{0:T}\thinspace\vert\thinspace o_{1:T},a_{0:T-1})=q_{\phi}(z_{0}\thinspace\vert\thinspace o_{1}){\displaystyle\prod_{t=1}^{T}}q_{\phi}(z_{t}\thinspace\vert\thinspace z_{t-1},a_{t-1},o_{t}),(3)$
当忽略动作输入时，这确实简化为无动作的情况。直接最大化对数似然 $log⁡pθ(o1:T∣a0:T−1)\log p_{\theta}(o_{1:T}\mid a_{0:T-1})$ 是不可行的。相反，我们使用近似后验 $qϕq_{\phi}$ 优化一个ELBO，它为学习模型参数提供了一个可行的目标：
$dz0:T≥Eqϕ[log⁡pθ(o1:T,z0:T∣a0:T−1)qϕ(z0:T∣o1:T,a0:T−1)]=:L(θ,ϕ).\begin{aligned}{\operatorname{log}p_{\theta}(o_{1:T}\thinspace\vert\thinspace a_{0:T-1})=}&{{}\operatorname{log}\int p_{\theta}(o_{1:T},z_{0:T}\thinspace\vert\thinspace a_{0:T-1})\thinspace d z_{0:T}}\\ {\geq\mathbb{E}_{q_{\phi}}\Big[\operatorname{log}\frac{p_{\theta}(o_{1:T},z_{0:T}\vert a_{0:T-1})}{q_{\phi}(z_{0:T}\vert o_{1:T},a_{0:T-1})}\Big]=:\mathcal{L}(\theta,\phi).}\\ \end{aligned}$
在 $pθp_{\theta}$ 和 $qϕq_{\phi}$ 都采用马尔可夫分解的假设下，该ELBO分解为一个重构目标和一个KL正则化项：
$L(θ,ϕ)=∑t=1TEqϕ(zt)[log⁡pθ(ot∣zt)]−DKL(qϕ(z0:T∣o1:T,a0:T−1)∥pθ(z0:T∣a0:T−1))\begin{aligned}\mathcal{L}(\theta,&\phi)=\sum_{t=1}^{T}\mathbb{E}_{q_{\phi}(z_{t})}\big[\log p_{\theta}(o_{t}\mid z_{t})\big]\\&-D_{\mathrm{KL}}\big(q_{\phi}(z_{0:T}\mid o_{1:T},a_{0:T-1})\parallel p_{\theta}(z_{0:T}\mid a_{0:T-1})\big)\end{aligned}$
因此，现代世界模型采用了一种重构-正则化的训练范式：似然项 $log⁡pθ(ot∣zt)\log p_{\theta}(o_{t}|z_{t})$ 鼓励忠实的观测预测，而KL正则化项则使滤波后验 $qϕ(zt∣zt−1,at−1,ot)q_{\phi}(z_{t}|z_{t-1},a_{t-1},o_{t})$ 与动态先验 $pθ(zt∣zt−1,at−1)p_{\theta}(z_{t}|z_{t-1},a_{t-1})$ 对齐。这些世界模型可以用循环模型[25]-[27]、基于Transformer的架构[28][30]或基于扩散的解码器[31]-[35]来实现。在所有情况下，学习到的潜在轨迹 $z_{1:T}$ 都作为紧凑的、可预测的记忆，以支持下游的策略优化、模型预测控制和具身AI中的反事实推理。

3 分类法

我们沿着三个核心维度对世界模型进行分类，这为本综述后续的分析奠定了基础。
第一个维度，决策耦合，区分了决策耦合型和通用目的型世界模型。决策耦合模型是任务特定的，学习针对特定决策任务优化的动态。相比之下，通用目的模型是任务无关的模拟器，专注于广泛的预测，从而能够泛化到各种下游应用。
第二个维度，时间推理，划定了两种不同的预测范式。序列模拟与推断以自回归的方式对动态进行建模，一次展开一个未来的状态。相比之下，全局差异预测直接并行地估计整个未来状态，在可能牺牲时间连贯性的情况下提供更高的效率。
第三个维度，空间表征，包括当前研究中用于建模空间状态的四种主要策略：

全局潜在向量表征将复杂的世界状态编码成一个紧凑的向量，能够在物理设备上实现高效的实时计算。
令牌特征序列表征将世界状态建模为令牌序列，专注于捕捉令牌之间复杂的空间、时间和跨模态依赖关系。
空间潜在网格表征通过利用鸟瞰图（BEV）特征或体素网格等几何先验，将空间归纳偏置纳入世界模型。
分解渲染表征涉及将3D场景分解为一组可学习的基元，例如3D高斯泼溅（3DGS）[36]或神经辐射场（NeRF）[37]，然后使用可微渲染来实现高保真的新视角合成。

图 1. 本综述的结构。该图沿三个轴对世界模型进行分类，并展示了每种方法的代表性示例，为该领域提供了统一的视图。图示设计部分参考了[12], [14], [22], [23]。

下表应用此分类法对代表性工作进行了分类。表1回顾了机器人领域的研究方法，而表2则聚焦于自动驾驶。它们共同为后续章节的详细分析提供了路线图。

3.1 决策耦合型世界模型

3.1.1 序列模拟与推断

全局潜在向量。早期的决策耦合型世界模型将序列推断与全局潜在状态相结合。这些方法主要使用循环神经网络（RNN）来实现高效的实时和长时程预测。
Ha和Schmidhuber[9]引入了一种早期的世界模型，该模型将观测编码到潜在空间，并使用RNN对动态进行建模以进行策略优化。在此基础上，PlaNet [38]引入了循环状态空间模型（RSSM），将确定性记忆与随机组件融合，以实现稳健的长时程想象。后续模型Dreamer、DreamerV2和DreamerV3 [10]-[12]进一步推进了这一公式，启发了后续大量研究。

在RSSM的基础上，一些变体修改或消除了解码器，以更好地捕捉动态。例如，Dreaming [110]使用对比学习和线性方法来缓解状态偏移，而DreamerPro [111]则用原型替换了解码器，以抑制视觉干扰。为了进一步增强鲁棒性，提出了HRSSM [25]，其采用双分支架构，在不进行重构的情况下对齐潜在观测并共享信息。除了架构上的改进，DisWM [112]将语义知识与视频内容解耦，并将其提炼到一个世界模型中，从而实现跨域泛化。

近期RSSM扩展的一个统一主题是可迁移性，这反映了在模态、任务和实体之间泛化的能力，以实现稳健的真实世界机器人应用。在表征层面，PreLAR [52]学习隐式动作抽象，以弥合视频预训练表征和控制微调之间的差距。同样，Wang等人[113]使用光流作为与实体无关的动作表征来优化行为克隆策略，促进了在不同实体间的迁移。SENSEI [114]提炼了一个视觉-语言模型（VLM）以推导语义奖励，并采用一个RSSM在内部学习预测和传播这些奖励。在有限监督下，SR-AIF_[115]利用先前的偏好学习和自我修正，以在稀疏奖励、连续控制的环境中实现自适应学习。为了缓解Sim-to-Real（S2R）差距，ReDRAW [116]在仿真中进行预训练，并使用少量无奖励数据在真实环境中进行适应，对潜在动态应用残差修正。为了解决不匹配问题，AdaWM [117]识别出学习到的动态与规划器之间的差异，并选择性地微调关键组件。其他方法如WMP [118]解决了具有挑战性任务的S2R迁移，而DayDreamer [43]展示了在物理机器人上的样本高效部署。为了拓宽迁移性，FOUNDER [119]将基础模型的表征与世界模型状态空间对齐，使用时间距离预测来处理灵活的目标，而LUMOS [120]引入了一种语言条件的模仿框架，该框架在潜在空间中以策略内的方式运行，并使用内在奖励，实现了向真实世界机器人的零样本迁移。

基于RSSM的模型也已为自动驾驶开发。MILE [81]利用离线专家数据来实现用于规划的想象未来状态。SEM2 [83]将语义过滤与多源采样相结合，以提取与驾驶相关的特征并平衡数据分布。Popov等人[121]通过一个潜在生成世界模型解决了协变量偏移问题，该模型将策略与专家状态重新对齐。

令牌特征序列。令牌特征序列范式的核心是建模离散令牌之间的依赖关系。这种表征支持因果推理、多模态集成以及大型语言模型（LLM）的重用。

近期以RSSM为中心的研究开始利用令牌级依赖关系来加强表征学习和时间推理。例如，MWM [41]通过掩码自编码器将视觉令牌与基于RSSM的动态解耦，提高了性能和数据效率。NavMorph [129]引入了一个具有上下文演化记忆的自演化RSSM，用于在线适应。为了进行时间抽象，WISTER [130]采用了动作条件的对比预测编码来训练一个TSSM，以捕捉高层次的时间特征。同样，TWM [29]在训练期间使用Transformer将多模态令牌与历史状态对齐，而在推理时则依赖于轻量级策略。为了处理长时程任务，一些方法将LLM与RSSM集成，将目标分解为子任务。例如，EvoAgent [131]使用LLM来指导低级动作并对RSSM更新进行正则化。相比之下，RoboHorizon [132]通过密集奖励增强了任务识别，并通过掩码自编码器利用关键任务片段。

在自动驾驶中，基于令牌的序列表征越来越多地被采用来建模跨模态交互和时空结构。DrivingWorld[133]将用于时间动态的下一状态预测与用于空间结构的下一令牌预测配对。对于多模态控制，Doe-1 [134]将闭环驾驶表述为对感知-描述-动作令牌的自回归预测，从而统一了感知、预测和规划，而DrivingGPT [23]则交错视觉和动作令牌，并将世界建模和轨迹规划视为下一令牌预测。为了增强多样性和安全性，LatentDriver [135]将未来动作建模为混合分布，并使用规划器采样的中间动作来驱动世界模型。同时，Vasudevan等人[136]提出了一种自适应模型，该模型预测周围智能体以实现安全导航。

基于令牌的范式也扩展到了更广泛的机器人领域。在强化学习中，IRIS [44]和TWM [137]利用离散令牌通过想象或混合推演来实现数据高效的策略学习。DyWA [138]通过以轨迹动态为条件并联合预测未来状态（结合单视图点云和本体感知模态）来改进动作学习。EgoAgent [139]在Transformer中交错状态-动作序列建模，实现了统一的感知、预测和动作推理。令牌化表征统一了多模态输入，包括视觉、语言和动作（VLA），如WorldVLA [67]所示，实现了具有跨域适应能力的通用智能体。近期研究将环境状态编码为离散的符号令牌，并以动作为条件进行下一令牌预测，如DCWM [140]和TrajWorld [141]所展示的。

近期研究加强了令牌化表征与规划之间的联系，特别是通过以对象为中心的方法。这些模型，如CarFormer [142]、Jeong等人的工作[143]和Dyn-O [69]，将场景表示为一组槽（slots）。CarFormer以自回归方式建模这些槽在鸟瞰图（BEV）中的关系。Jeong等人增加了语言引导的操控，而Dyn-O则使用Mamba和dropout调度进行时间建模，以将静态元素与动态元素解耦。∆-IRIS[144]引入了一种混合Transformer，将令牌与随机∆-令牌集成以捕捉动态。D2PO[145]采用偏好学习来联合优化状态预测和动作选择，增强了模型对底层动态的理解。为了提高效率，MineWorld [59]通过并行预测序列加速了令牌生成，并引入了IDM作为可控性度量。同时，PIVOT-R [146]和ReOI [147]将VLM集成到控制中。PIVOT-R解析指令以生成基于路点的计划，由动作模块解码为低级控制，而ReOI则检测不合理的预测元素，重新想象干扰物，并重新整合修正后的内容。

基于令牌化，一些研究采用自回归扩散来实现稳定生成和长时程规划。Epona [148]将时空建模（由Transformer处理）与长时程多模态生成（通过轨迹和视觉扩散Transformer（DiTs）实现）解耦。Goff等人[149]使用DiT来实例化状态转移，从而实现策略内训练和多秒闭环推演。SceneDiffuser++ [150]进一步将其推进到城市级交通仿真，对智能体和交通灯应用多张量扩散，以产生稳定的闭环推演。对于导航，NWM [66]引入了一种高效的条件DiT来模拟视觉轨迹，用于零样本规划。

另一个新兴方向是使用LLM和思维链（CoT）将显式推理注入世界模型。NavCoT [58]将导航分解为想象、过滤和预测，实现了参数高效的领域内训练，而ECoT[54]则利用一个基础模型管道生成推理标签，用于训练VLA策略。MineDreamer [79]等变体引入了想象链（CoI），其中多模态LLM想象未来观测以引导扩散并指导动作，而FSDrive [101]则生成物理约束的未来场景，并将其视为CoT监督，使VLM能够作为IDM进行规划。

其他方法直接将LLM与世界模型耦合，以实现规划和数据生成。Dyna-Think [151]通过一个蒸馏的LLM融合推理和行动，而RIG [152]则端到端地统一了推理和想象，形成一个通用策略。在显式动态和长时程方面，Gkountouras等人[153]训练了一个因果世界模型模拟器，该模拟器将LLM与环境因果推理和规划技能相结合，Statler [46]使LLM能够保持一个结构化的世界状态，使用一个读取器进行规划，一个写入器进行更新，而Inner Monologue [42]则将闭环反馈纳入LLM，使智能体能够更像人类一样进行推理和思考。最后，WoMAP [154]合成了3DGS场景并训练了一个世界模型，该模型可以细化VLM指令以实现精确执行。

空间潜在网格。通过在几何对齐的网格上编码特征或结合显式空间先验，该范式保留了局部性，支持高效的卷积或基于注意力的更新以及流式推演。

在自动驾驶中，许多研究将基于RNN的动态与空间网格耦合以指导规划。例如，DriveDreamer [91]和GenAD [92]在网格或以实例为中心的令牌上采用基于GRU的动态来预测运动并解码轨迹。相比之下，DriveWorld[87]和Raw2Drive[155]在BEV令牌上实例化RSSM动态。DriveWorld以令牌和动作为条件进行联合预测，而Raw2Drive则采用双流设计进行时空学习。

大量研究专注于自回归地预测未来的3D占据表征，以实现自动驾驶的运动规划。一种思路是将场景离散化为占据令牌进行序列预测，以OccWorld [93]和RenderWorld [156]为例。另一种思路是直接预测体素特征或嵌入，如Drive-OccWorld[157]和PreWorld [158]所示。自监督变体从当前线索预测未来表征。例如，LAW [159]以当前表征和轨迹为条件，SSR [160]将场景压缩为稀疏的BEV令牌以预测未来的BEV特征，而NeMo[161]将多帧图像体素化并预测占据，以支持基于模仿的规划。在这些表征的基础上，FASTopoWM [162]采用统一解码器对齐来自车辆姿态的快慢系统，实现车道拓扑推理，而WoTE[107]在BEV中模拟候选轨迹，并使用奖励模型进行选择。扩展该范式，OccLLaMA [18]将占据、动作和文本统一到单个令牌词汇表中，并采用LLaMA进行下一令牌预测、规划和问答。

除了自动驾驶，类似的公式已扩展到机器人学的更广泛领域。WMNav [163]利用VLM维持一个好奇心驱动的价值图，并采用分阶段决策，以实现零样本、以对象为导向的导航。RoboOccWorld [164]通过预测具有姿态条件的自回归Transformer的细粒度3D占据来针对室内机器人，从而支持探索和决策。为了实现高保真动态，EnerVerse [34]应用分块自回归视频扩散和稀疏记忆机制来产生4D潜在动态，并集成4DGS以缓解机器人执行中的S2R差距。对于操控，ParticleFormer [165]使用基于Transformer的粒子化动态模型预测未来点云，能够稳健地处理多对象和多材料交互。在表征层面，DINO-WM [70]在DINOv2特征空间中学习动态并预测未来状态，以支持零样本规划。

分解渲染表征。该范式使用显式的可渲染基元（如NeRF和3DGS）来表示场景，通过更新它们来模拟动态并渲染未来观测。它提供了视图一致的预测、对象级的组合性以及与物理先验和数字孪生的无缝集成，从而支持长时程推演。

基于3DGS，GAF [74]通过可学习的运动属性增强泼溅点以预测未来状态，并使用扩散来优化初始动作。ManiGaussian [53]预测每个点的变化，以在当前状态和动作下生成未来的高斯场景用于操控，而ManiGaussian++ [80]增加了分层的领导者-跟随者设计，带有面向任务的泼溅点，以建模多体和双手技能的基元变形。

在仿真和数字孪生耦合方面，DreMa [60]将GS与物理模拟器集成，为模仿学习构建孪生体以进行数据合成，Abou-Chakra等人[166]引入了双高斯-粒子表征，其中高斯点附着在由视觉损失力驱动的粒子上，DexSim2Real2 [167]使用生成模型构建铰接对象的孪生体，并使用基于采样的规划进行精确操控，PIN-WM [168]将3DGS与可微物理结合，从有限观测中估计物理参数，并生成数字表亲以实现零样本S2R策略学习，而PWTF [169]构建了一个交互式孪生体，该孪生体模拟候选动作结果并使用VLM进行评估和选择。在表征层面，DTT [98]采用三平面表征和多尺度Transformer以自回归方式捕捉增量变化，形成用于预测和规划的4D世界模型。

3.1.2 全局差异预测

令牌特征序列。紧凑的全局潜在向量表征丢弃了细粒度的时空细节，因此很少用于全局预测。相比之下，令牌特征序列并行预测未来序列，减少了误差累积，同时实现了多模态多样性。

在表征方面，TOKEN [95]将场景标记化为对象级令牌，使世界表征与推理对齐，并利用LLM预测长尾场景的完整未来轨迹。GeoDrive[170]提取3D表征，渲染轨迹条件视图，并编辑车辆位置以指导DiT生成可编辑的内容。对于控制，FLARE [171]将扩散策略与潜在未来表征对齐，避免了像素空间的视频生成，并从无动作视频中有效学习。类似地，LaDi-WM [172]通过与视觉基础模型对齐的潜在空间中的交互扩散来预测未来状态，集成几何和语义特征，同时迭代优化扩散策略以提高性能和泛化能力。villa-X [76]和VidMan [55]都将基于扩散的模型与IDM耦合用于控制。villa-X推断潜在动作，将其与自我中心的前向动态对齐，并通过联合扩散进行映射，而VidMan则使用自注意力适配器将预训练的视频扩散模型改编为IDM，以实现精确的动作预测。

空间潜在网格。空间网格模型从自我稳定的视图中并行预测BEV或体素地图，保留了局部性和不确定性，同时生成可供规划器直接使用的地图，以实现快速控制。

基于扩散的世界模型常用于并行生成。EmbodiedDreamer [173]将可微物理与视频扩散耦合，渲染出逼真且物理一致的未来。TesserAct [78]通过联合生成RGB、深度和法线视频来重建4D时空一致的场景，用于基于IDM的动作学习。DFIT-OccWorld [174]将预测重新表述为解耦的体素扭曲，并采用图像辅助的单阶段训练，以实现可靠且高效的动态场景建模。对于指令条件控制，RoboDreamer [49]将指令分解为低级基元，以引导视频扩散，合成超出训练分布的新颖组合场景，同时通过IDM实现执行接地，而ManipDreamer [175]则通过动作树先验以及深度和语义指导扩展了这一设计，以改善指令遵循和时间一致性。

在规划方面，3DFlowAction [176]采用预训练的3D光流世界模型，将未来运动视为统一的动作线索，通过闭环优化实现无标签和跨机器人操控。Imagine-2-Drive [177]将视频扩散与多模态扩散策略集成，以加速策略学习。Drive-WM [88]使用多视图扩散和基于图像的奖励来选择更安全的轨迹，而World4Drive [178]则利用基于视觉的先验构建意图感知的世界模型，支持自监督的多意图想象。COMBO [179]使用扩散组合多智能体动作，利用VLM推断目的，并集成树搜索进行在线协作规划。

3.2 通用目的世界模型

3.2.1 序列模拟与推断

令牌特征序列。通用目的模型预训练任务无关的动态，以捕捉环境物理并生成未来场景，优先考虑可迁移性而非特定任务。

一些通用世界模型越来越多地在未标记视频上进行预训练，并使用令牌化的潜在空间进行稳健的预测和生成。iVideoGPT [56]在大规模交互视频上进行预训练，用于无动作预测，然后适应下游控制。Genie [50]学习离散的潜在动作和时空令牌，通过自回归动态实现用户可控的交互环境。RoboScape[180]联合学习视频生成与时间深度和关键点动态，以提高物理真实性。PACT [181]将多模态感知和动作标记化，并训练一个因果Transformer以获得用于多样化任务的统一表征，而DiNOworld[182]通过预测来自大规模未标记视频语料库的DINOv2特征的时间演化来学习可泛化的动态。基于语言先验，EVA [71]引入了一种生成反思（RoG）策略，该策略使用VLM进行迭代自我修正，加强长时程预期。同样，Owl-1 [183]采用VLM根据当前状态和生成的片段预测世界动态，显式地指导后续片段，实现连贯的长时程视频合成，而World4Omni [68]则采用反思世界模型，其中VLM从图像生成器细化子目标图像，并将其与预训练模块集成，用于零样本机器人操控。

近期工作将视频扩散模型改编为可控世界模型，以自回归方式想象未来场景。AdaWorld [72]引入了一种动作感知的预训练方案，该方案从相邻帧之间提取自监督的潜在动作以调节扩散，从而实现最少交互的高效迁移。Vid2World [184]通过因果化和因果动作引导机制，将预训练的视频扩散模型改编为自回归交互世界模型。GenAD [90]采用两阶段策略，将扩散改编为以文本和动作为条件的通用视频预测模型，实现大规模驾驶仿真和规划。Pandora [47]使用指令调优的LLM以自回归方式引导一个独立的视频扩散生成器，以实现显式、目标导向的控制，而Yume [75]将相机运动量化为文本令牌，以引导掩码视频DiT，实现动态3D探索世界的自回归合成。

为了保持几何保真度和长时程稳定性，近期方法将显式3D先验与时间一致性模块耦合在基于扩散的世界模型中。在几何层面，Geometry Forcing [185]将潜在特征与几何基础模型对齐，以注入显式3D先验，提高几何一致性，而DeepVerse [64]则集成视觉和几何预测目标，并引入几何感知记忆，以维持一致的长时程生成。为了时间稳定性，VRAG [186]提出了一种视频检索增强生成（RAG）框架，该框架根据全局状态检索历史帧以稳定自回归推演，StateSpaceDiffuser [63]将Mamba与扩散结合，以缓解短上下文窗口下的长期记忆丢失和内容漂移，而InfinityDrive [187]在DiT中注入记忆并采用自适应损失，生成具有高保真度、时间一致性和多样化内容的分钟级驾驶视频。作为这些设计的补充，LongDWM [188]通过蒸馏缓解长时程视频生成中的误差累积——其中细粒度DiT学习连续运动以指导粗略模型，而MiLA [189]则采用从粗到细的策略，预测稀疏的锚点帧并在插值期间对其进行细化，以提高时间一致性和长期保真度。最后，对于动态和条件，Orbis [190]采用连续空间流匹配公式，与离散令牌方案相比，在长时程推演中表现出更强的鲁棒性，而DriVerse [109]则利用多模态轨迹提示与潜在运动对齐，从单张图像和导航轨迹合成长时程驾驶视频。

序列世界模型越来越多地充当学习模拟器，为策略评估和训练提供动作条件推演。WorldGym [191]和WorldEval [192]生成动作条件推演，并使用基于VLM的评论家进行评估，而WorldEval进一步利用潜在动作表征来驱动基于DiT的合成器。RLVR-World [62]使用具有可验证奖励的强化学习（RLVR）对世界模型进行微调，使用显式指标来弥合预训练-任务目标差距。对于安全风险预测，Guan等人[193]提出了一个用于自动驾驶事故预测的框架，该框架使用领域感知的世界模型扩充数据，并使用图和时间卷积增强时空推理。

除了扩散，序列模型拓宽了长程一致性的能力。Po等人[194]将块状状态空间模型（用于长期记忆）与局部注意力（用于短期一致性）集成，实现了具有持续记忆和一致动态的视频生成。S2-SSM [61]采用Mamba层对对象槽的独立演化进行建模，并采用稀疏正则化的交叉注意力机制来捕捉它们的因果交互，从而实现对环境的因果推理。

空间潜在网格。通过使用自监督时空目标对几何对齐的空间地图进行预训练，空间潜在网格范式保留了局部性，并支持高效推演、多模态融合和可迁移的规划器就绪地图。

基于此范式，结构化网格和物理信息方法对几何和动态进行编码，以实现可控推演。PhyDNet [195]将表示为偏微分方程的物理先验与视觉因素解耦，从而改善预测。ViDAR [89]通过点云预测的预训练任务和潜在渲染算子，统一了语义、几何和动态，为下游自动驾驶任务提供了一个可扩展的基础。FOLIAGE [196]使用累积图网络和基于Transformer的预测器对动态进行建模，在模拟数据上执行推演。作为这些网格和物理路线的补充，MindJourney [73]将VLM与可控世界模型耦合，沿着计划的相机轨迹渲染自我中心推演，实现多视图推理。

基于网格的表征，基于扩散的预测已成为稳定长时程生成的主流。在以网格为中心的预测器中，DOME [94]将观测编码到连续潜在空间，并应用时空DiT进行场景预测，Copilot4D [82]将点云标记化，并将时空Transformer与离散扩散耦合，以提高保真度和一致性，而LidarDM [100]生成布局条件的静态场景，将其与动态对象组合，并集成LiDAR模拟以产生可控视频。对于长视频生成，Vista [96]采用两阶段大规模训练方案，以产生可控、高保真的驾驶视频，而Delphi [86]则通过共享噪声和特征对齐以及故障驱动框架来强制执行长时程多视图一致性，以合成针对性数据来改善规划。为了加强长时程稳定性，GEM [102]通过大规模训练和对运动、动态和姿态的细粒度控制实现可控的自我视觉生成，Zhou等人[197]维持一个持久的RGB-D 3D记忆地图以指导后续帧，而STAGE[198]则引入了分层时间特征转移和多阶段训练。

分解渲染表征。场景被分解为显式基元，以在长时程上合成视图一致、可模拟的轨迹。在此范式中，GaussianWorld [103]将场景演化建模为自我运动、对象动态和新观察区域，迭代更新3D高斯基元，以实现准确高效的动态感知。InfiniCube[22]引入了一个混合管道，结合了基于体素的生成、视频合成和动态高斯重建，能够根据高清地图、边界框和文本生成大规模动态3D驾驶场景。作为补充，Wu等人[199]使用重建几何为基础的长期空间记忆和情景记忆来增强视频世界模型，两者共同调节序列生成，以实现长程一致性。

3.2.2 全局差异预测

令牌特征序列。对于通用目的世界模型，令牌化特征序列通过掩码和生成建模支持全局预测，实现具有全局约束和多模态条件的并行长时程推演。

在联合嵌入预测架构（JEPA）[200]中，V-JEPA [51]将此架构扩展到视频，通过预测被遮挡时空区域的潜在特征，学习用于外观和运动的可泛化表征，而无需像素重构或对比学习。在此基础上，V-JEPA 2 [14]将预训练扩展到大规模互联网视频，使用更大的模型，并结合有限的机器人交互数据进行后训练，迁移到机器人规划。AD-L-JEPA [201]将JEPA适应到BEV LiDAR，以自监督方式预测掩码嵌入。除了JEPA风格的预测，WorldDreamer [45]将世界建模表述为掩码视觉序列预测，以学习物理和运动，用于多样化视频生成和编辑，而MaskGWM [104]则将扩散与掩码特征重构和双分支掩码策略结合，以提高长时程一致性和泛化能力。

同时，基于扩散的方法已成为全局差异建模的核心。Sora [13]将视频表示为统一的时空块，并使用DiT大规模生成长而连贯的序列。ForeDiff [202]通过添加确定性预测流并将预训练预测器用于引导生成，将条件与去噪解耦，从而提高准确性和一致性。

对于领域特定合成，AirScape [203]引入了一个航空视频意图数据集，应用监督微调以实现可控性，并利用VLM施加时空约束；MarsGen [204]使用几何基础模型从NASA稀疏的漫游车立体图像中构建多模态火星数据集，然后训练一个可控生成器，以产生视觉逼真、几何一致的火星视频。在临床指导中，EchoWorld [205]提出了一种运动感知世界模型，用于超声心动图探头控制，在区域和运动结果预测上进行预训练，并微调注意力以融合视觉和运动线索，实现精确指导。

空间潜在网格。空间网格模型并行预测体素网格，并将多视图视觉特征融合到统一地图中，学习一个通用目的世界模型。

近期工作汇聚于统一场景理解和未来预测。UniFuture [206]将双潜在共享与多尺度潜在交互耦合，以联合建模未来驾驶场景中的外观和深度，而HERMES [108]将多视图BEV特征集成到LLM中，通过世界查询将场景理解与未来预测链接到单一框架内。BEVWorld [207]通过统一标记器将图像和LiDAR映射到紧凑的BEV潜在空间，并应用潜在BEV扩散模型进行同步多模态预测。网格和占据预测的进展包括Khurana等人[208],[209]提出的用于传感器无关运动学习的代理重构可微光线投射，以及Mersch等人[210]提出的LiDAR到距离图像的3D时空卷积。Cam4DOcc [211]建立了第一个纯视觉基准，并提供了E2E 3D CNN基线，而Liu等人[212]则通过高压缩比和潜在流匹配增强了跨任务迁移。

在生成方面，标记化的4D表征实现了可控场景合成。OccSora [85]使用4D标记器推导出紧凑表征，用于轨迹条件扩散，而DynamicCity[99]则使用VAE将4D占据编码为HexPlanes表征，并采用条件DiT实现高保真可控动态。通过COME [213]中的自我运动与场景演化解耦、DrivePhysica [214]中的物理信息约束、Liu等人[215]中的跨视图点图对齐以及PosePilot [216]中的基于光度扭曲的监督，保真度和一致性得到改善。对于可控条件，DriveDreamer 2 [97]将提示翻译为智能体轨迹和高清地图，以实现可定制的视频生成，EOTWM [217]将自我和周围轨迹编码为轨迹视频，以实现轨迹一致的合成，而ORV[65]则使用4D语义占据序列来引导动作条件视频，并实现S2R迁移。AETHER[77]在合成4D数据上训练，统一了动态4D重建、动作条件视频预测和基于视觉的规划，并在真实世界场景中实现了零样本泛化。

分解渲染表征。该范式通过将显式3D结构与视频生成先验结合来执行全局预测。

一个趋势是将视频生成与高斯泼溅结合。DriveDreamer4D [105]利用复杂的驾驶轨迹（如变道）来引导视频合成并优化4DGS模型，从而从新视角增强重建保真度和时空一致性。ReconDreamer [106]引入了一个在线恢复模块以及渐进数据重用，以纠正高斯渲染视图中的伪影，并实现大规模轨迹的可靠重建。MagicDrive3D[84]根据BEV地图、3D框和文本生成多视图街道场景，并通过容错GS将其进一步转换为完整的3D环境。相比之下，隐式场方法用连续神经表征替换了GS。UnO[17]利用未来点云学习NeRF风格的4D占据场，允许无标注预测，并在点云预测中超越监督基线，实现强大的迁移性能。

4 数据资源与指标

具身人工智能中的世界模型需要应对涵盖操控、导航和自动驾驶的多样化任务，这需要异构的资源和严格的评估。因此，我们在4.1节介绍数据资源，在4.2节介绍指标，重点关注最广泛采用的平台和评估措施，作为跨领域评估的统一基础。

4.1 数据资源

为了满足具身人工智能的多样化需求，我们将数据资源分为四类：仿真平台、交互式基准、离线数据集和真实世界机器人平台，如下文各小节所述。表3对这些资源进行了全面概述。

4.1.1 仿真平台

仿真平台为训练和评估世界模型提供了可控且可扩展的虚拟环境。

MuJoCo [218] 是一个可定制的物理引擎，因其在机器人和控制研究中对铰接系统和接触动力学的高效机器人仿真而被广泛采用。
NVIDIA Isaac 是一个端到端、GPU加速的仿真堆栈，包括Isaac Sim、Isaac Gym [221]和Isaac Lab [222]。它提供逼真的渲染和大规模强化学习能力。
CARLA [219] 是一个基于虚幻引擎的开源城市自动驾驶模拟器，提供逼真的渲染、多样化的传感器和闭环评估协议。
Habitat [220] 是一个用于具身人工智能的高性能模拟器，专精于逼真的3D室内导航。

4.1.2 交互式基准

交互式基准提供标准化的任务套件和协议，用于可重现的闭环评估世界模型。

DeepMind Control (DMC) [224] 是一个基于MuJoCo的标准控制任务套件，为比较从状态或基于像素的观测中学习的智能体提供了一致的基础。
Atari [223] 是一套基于像素、离散动作的游戏，用于评估智能体性能。Atari100k [239]特别通过将交互限制在10万步来评估样本效率。
Meta-World [225] 是一个多任务和元强化学习的基准，包含50个在MuJoCo中使用Sawyer机械臂的多样化机器人操控任务，并采用标准化评估协议。
RLBench [226] 提供了100个模拟的桌面操控任务，具有稀疏奖励和丰富的多模态观测，旨在测试复杂技能和快速适应。
LIBERO [228] 是一个终身机器人操控的基准，提供130个程序生成的任务和人类演示，以评估样本高效和持续学习。
nuPlan [227] 是一个用于自动驾驶的规划基准，使用轻量级闭环模拟器和超过1500小时的真实驾驶日志来评估长时程性能。

表 3

用于训练和评估具身世界模型的数据资源概览。

类别	名称	年份	任务	输入	领域	规模	协议1
平台	MuJoCo [218]	2012	连续控制	本体感知	仿真	-
	CARLA [219]	2017	驾驶仿真	RGB-D/分割/LiDAR/雷达/GPS/IMU	仿真	-
	Habitat [220]	2019	具身导航	RGB-D/分割/GPS/指南针	仿真	-
	Isaac Gym [221]	2021	连续控制	本体感知	仿真	-	-
	Isaac Lab [222]	2023	机器人学习套件	RGB-D/分割/LiDAR/本体感知	仿真	-	二
基准	Atari [223]	2013	离散动作游戏	RGB/状态	仿真	55+ 游戏
	DMC [224]	2018	连续控制	RGB/本体感知	仿真	30+ 任务
	Meta-World [225]	2019	多任务操控	RGB/本体感知	仿真	50 任务
	RLBench [226]	2020	机器人操控	RGB-D/分割/本体感知	仿真	100 任务
	nuPlan [227]	2021	驾驶规划	RGB/LiDAR/地图/本体感知	真实	1.5k 小时
	LIBERO [228]	2023	终身操控	RGB/文本/本体感知	仿真	130 任务
数据集	SSv2 [229]	2018	视频-动作理解	RGB/文本	真实	220k 视频	169k/24k/27k
	nuScenes [230]	2020	驾驶感知	RGB/LiDAR/雷达/GPS/IMU	真实	1k 场景	700/150/150
	Waymo [231]	2020	驾驶感知	RGB/LiDAR	真实	1.15k 场景	798/202/150
	HM3D [232]	2021	室内导航	RGB-D	真实	1k 场景	800/100/100
	RT-1 [233]	2022	真实机器人操控	RGB/文本	真实	130k+ 轨迹
	Occ3D [234]	2023	3D 占据	RGB/LiDAR	真实	1.9k 场景	600/150/150; 798/202/-
	OXE [235]	2024	跨实体预训练	RGB-D/LiDAR/文本	真实	1M+ 轨迹	-
	OpenDV [90]	2024	驾驶视频预训练	RGB/文本	真实	2k+ 小时	-
	VideoMix22M [14]	2025	视频预训练	RGB	真实	22M+ 样本	-
	Franka Emika [236]	2022	操控	本体感知	真实	-	-
机器人	Unitree Go1 [237]	2021	四足运动	RGB-D/LiDAR/本体感知	真实	-	-
	Unitree G1 [238]	2024	人形操控	RGB-D/LiDAR/本体感知/音频	真实	-	二

1协议：训练/验证/测试划分。对于交互式基准，为任务数量。

4.1.3 离线数据集

离线数据集是大规模、预先收集的轨迹，消除了交互式推演，并为世界模型的可重现评估和数据高效预训练提供了基础。

RT-1 [233] 是一个用于机器人学习的真实世界数据集，在17个月内由13个Everyday Robots移动操控机器人收集。它包含13万次演示，涵盖700多个任务，将语言指令和图像观测与离散化的11自由度手臂和移动底座动作配对。
Open X-Embodiment (OXE) [235] 是一个语料库，汇集了来自21个机构的60个来源，涵盖22种机器人实体、527种技能和超过一百万条轨迹，采用统一格式进行跨实体训练。在OXE上训练的模型表现出超越单机器人基线的强大迁移能力，凸显了跨平台数据共享的有效性。
Habitat-Matterport 3D (HM3D) [232] 是一个包含1000个室内重建的大规模数据集，拥有112,500平方米的可导航区域，大大扩展了具身AI仿真的范围和多样性。为Habitat平台发布，它提供了无缝使用所需的元数据和资源。
nuScenes [230] 是一个大规模多模态驾驶数据集，配备360度传感器套件，包括六个摄像头、五个雷达、一个LiDAR和GPS/IMU。它包含在波士顿和新加坡收集的1000个二十秒场景，对23个类别和高清地图进行了密集的3D标注，为多模态融合和长时程预测提供了核心基准。
Waymo [231] 是一个多模态自动驾驶基准，包含来自旧金山、凤凰城和山景城的1150个二十秒场景，频率为10Hz。它包括五个LiDAR和五个摄像头，约有1200万个3D和2D标注，是建模交通动态的大规模资源。
Occ3D [234] 从环绕视图图像中定义3D占据预测，提供体素标签以区分自由、占据和未观察状态。Occ3D-nuScenes包含约40,000帧，分辨率为0.4米，而Occ3D-Waymo提供约200,000帧，分辨率为0.05米。这种体素级监督实现了超越边界框的整体场景理解。
Something-Something v2 (SSv2) [229] 是一个用于细粒度动作理解的视频数据集。它包含174个类别中的220,847个片段，由众包工作者根据文本提示（例如，“将某物放入某物”）收集，划分为168,913个训练、24,777个验证和27,157个测试视频。
OpenDV [90] 是GenAD提出的用于自动驾驶的最大规模视频-文本数据集，支持视频预测和世界模型预训练。它包含2,059小时和6510万帧，来自YouTube和七个公共数据集，覆盖40多个国家和244个城市。该数据集提供命令和上下文标注，以实现语言和动作条件的预测和规划。
VideoMix22M [14] 是与V-JEPA 2一起引入的大规模数据集，用于自监督预训练。它从200万扩展到2200万个样本，源自YT-Temporal-1B[240]、HowTo100M [241]、Kinetics [242]、SSv2和ImageNet [243]。最大的来源YT-Temporal-1B通过基于检索的过滤进行整理以抑制噪声，而ImageNet图像则被转换为静态视频片段以保持一致性。

4.1.4 真实世界机器人平台

真实世界机器人平台为交互提供物理实体，支持闭环评估、高保真数据收集和在真实世界约束下的Sim-to-Real（S2R）验证。

Franka Emika [236] 是一个具有关节扭矩传感器的7自由度协作机器人手臂，用于精确的力控制。通过控制接口，它支持1kHz的扭矩控制，适用于接触丰富的任务，其ROS集成使其成为一个多功能平台。
Unitree Go1[237] 是一款经济高效且被广泛采用的四足机器人，配备全景深度感应套件、1.5 TFLOPS的板载计算能力和4.7 m/s的最大速度，使其成为运动和具身AI研究的标准平台。
Unitree G1 [238] 是一款用于研究的紧凑型人形机器人，提供高达43自由度和120 N·m的膝关节扭矩，集成3D LiDAR和深度摄像头。凭借多模态传感、板载计算、ROS支持和可更换电池，这个低成本平台为训练和评估具身世界模型提供了一个实用的真实机器人试验台。

4.2 指标

指标评估世界模型捕捉动态、泛化到未见场景和随额外资源扩展的能力。我们将它们组织为三个抽象层次：4.2.1 像素预测质量、4.2.2 状态级理解、和4.2.3 任务性能，代表了从低级信号保真度到高级目标达成的进展。

4.2.1 像素生成质量

在最基本层面，世界模型通过其重建感官输入和生成逼真序列的能力进行评估。指标评估图像保真度、时间一致性和感知相似性，提供模型捕捉原始环境动态程度的定量度量。

Fréchet Inception Distance (FID) [244]。FID是评估生成图像真实性和多样性的指标。它在ImageNet预训练的Inception-v3 [245]的特征空间中比较真实和生成的图像分布，将嵌入建模为均值为 $μx,μy\boldsymbol{\mu}_{x},\boldsymbol{\mu}_{y}$ 和协方差为 $Σx,Σy\mathbf{\Sigma}_{x},\mathbf{\Sigma}_{y}$ 的高斯分布。定义为
$FID(x,y)=∥μx−μy∥22+Tr(Σx+Σy−2(ΣxΣy)1/2),(9),\mathrm{F I D}(x,y)=\|\pmb{\mu}_{x}-\pmb{\mu}_{y}\|_{2}^{2}+\mathrm{T r}\left(\pmb{\Sigma}_{x}+\pmb{\Sigma}_{y}-2(\pmb{\Sigma}_{x}\pmb{\Sigma}_{y})^{1/2}\right),(9),$
较低的FID表示真实和生成分布之间更紧密的对齐。通过比较一阶和二阶矩，它惩罚了保真度损失（均值偏移）和模式崩溃（协方差不匹配），提供了生成性能的整体度量。
Fréchet Video Distance (FVD) [246]。FVD将FID扩展到视频，评估每帧质量和时间一致性。它用在Kinetics-400 [248]上预训练的I3D [247]替换了基于图像的Inception网络。在运动感知特征上使用与 $Eq\mathrm{Eq}$ . (6)相同的Fréchet距离，FVD产生一个整体的视频质量分数。较低的值表示在外观和动态方面分布对齐更紧密，同时惩罚了不自然运动或闪烁等时间伪影。
Structural Similarity Index Measure (SSIM) [249]。SSIM是用于图像质量的感知度量，比较生成图像与其参考图像之间的亮度、对比度和结构。对于均值为 $μx,μy\boldsymbol{\mu}_{x},\boldsymbol{\mu}_{y}$ 、方差为 $Σx2,Σy2\mathbf{\Sigma}_{x}^{2},\mathbf{\Sigma}_{y}^{2}$ 、协方差为 $Σxy\mathbf{\Sigma}_{x y}$ 的两个块x和y，SSIM定义为
$SSIM(x,y)=(2μxμy+C1)(2Σxy+C2)(μx2+μy2+C1)(Σx2+Σy2+C2).\mathrm{S S I M}(x,y)=\frac{(2\pmb{\mu}_{x}\pmb{\mu}_{y}+C_{1})(2\pmb{\Sigma}_{x y}+C_{2})}{(\pmb{\mu}_{x}^{2}+\pmb{\mu}_{y}^{2}+C_{1})(\pmb{\Sigma}_{x}^{2}+\pmb{\Sigma}_{y}^{2}+C_{2})}.$
最终分数通过对滑动窗口取平均SSIM获得，值越接近1表示相似度越高。
Peak Signal-to-Noise Ratio (PSNR) [250]。PSNR测量重建与其参考之间的像素级失真。设N个像素上的均方误差（MSE）为
$MSE=1N∑i=1N(xi−yi)2,\mathrm{M S E}=\frac{1}{N}\sum_{i=1}^{N}\left(x_{i}-y_{i}\right)^{2},$
并设MAX表示最大可能的像素值（例如，RGB为255，归一化图像为1）。则
$PSNR(x,y)=10⋅log⁡10(MAX2MSE).\mathrm{P S N R}(x,y)=10\cdot\log_{10}\left(\frac{\mathrm{M A X}^{2}}{\mathrm{M S E}}\right).$
更高的PSNR值表示更低的失真和更高的保真度。
Learned Perceptual Image Patch Similarity (LPIPS) [251]。LPIPS是一种与人类判断相关的度量，通过比较从预训练网络中提取的特征。设 $f^xl\hat{f}_{x}^{l}$ 和 $f^ˉyl\bar{\hat{f}}_{y}^{l}$ 表示输入x和y在第l层的单位归一化激活，w为通道权重。LPIPS定义为
$LPIPS(x,y)=∑l1HlWl∑h,w∥wl⊙(f^h,w,xl−f^h,w,yl)∥22.\mathrm{L P I P S}(x,y)=\sum_{l}\frac{1}{H_{l}W_{l}}\sum_{h,w}\left\|w_{l}\odot\left(\hat{f}_{h,w,x}^{l}-\hat{f}_{h,w,y}^{l}\right)\right\|_{2}^{2}.$
较低的LPIPS值意味着更高的相似度，与基于像素的度量相比提供了增强的保真度，并对失真具有鲁棒性。
VBench [252]。VBench是一个用于视频生成的综合基准，评估16个维度的性能，分为两类：视频质量（例如，主体一致性、运动平滑度）和视频-条件一致性（例如，对象类别、人类动作）。它提供精心策划的提示套件和大规模人类偏好标注，以确保强大的感知对齐，从而实现对模型能力和局限性的细粒度评估。

4.2.2 状态级理解

超越像素保真度，状态级理解评估模型是否捕捉到对象、布局和语义，并能预测其演化。指标涵盖语义、BEV和3D分割、检测、占据、几何和轨迹准确性，强调超越外观的结构理解。

mean Intersection over Union (mIoU)。mIoU通过在类别上平均交并比（IoU）来评估语义分割。对于类别c，
$IoU=TPTP+FP+FN,\mathrm{I o U}={\frac{\mathrm{T P}}{\mathrm{T P}+\mathrm{F P}+\mathrm{F N}}},$
其中TP、FP和FN分别表示真阳性、假阳性和假阴性。IoU量化了与真实情况的重叠，同时惩罚分割错误。数据集级分数为
$mIoU=1∣C∣∑c∈CIoUc.\mathrm{m I o U}={\frac{1}{|C|}}\sum_{c\in C}\mathrm{I o U}_{c}.$
更高的mIoU反映了更精确的语义场景理解。
mean Average Precision (mAP)。mAP通过平均每个类别的平均精度（AP）来评估检测和实例分割。对于IoU阈值τ下的类别c，预测按置信度排序，并在 $IoU≥τ\mathrm{I o U}\geq\tau$ 时与真实情况一对一匹配——未匹配的预测计为FP，未匹配的真实情况计为FN。精度和召回率为
$Precision=\frac{TP}{TP+FP},\quad Recall=\frac{TP}{TP+FN}.$
设 $Pc,τ(r)P_{c,\tau}(r)$ 表示通过单调插值得到的精度-召回包络线。阈值τ下类别c的AP为
$APc,τ=∫01Pc,τ(r)dr.\mathrm{A P}_{c,\tau}=\int_{0}^{1}P_{c,\tau}(r)\mathrm{d}r.$
mAP在类别和阈值T上平均AP：
$mAP=1∣C∣∑c∈C(1∣T∣∑τ∈TAPc,τ).\mathrm{m A P}=\frac{1}{|C|}\sum_{c\in C}\left(\frac{1}{|T|}\sum_{\tau\in T}\mathrm{A P}_{c,\tau}\right).$
更高的mAP表示更好的实例识别、更准确的定位和更校准的置信度估计。
位移误差。位移误差度量通过测量关键点、对象中心和轨迹路点的空间准确性来评估状态级理解。L2轨迹误差计算预测路点与真实路点之间的欧几里得距离。常见变体包括平均位移误差（ADE），它计算平均位移，以及最终位移误差（FDE），它测量最后一步的位移。较低的值表示更准确的定位。
Chamfer Distance (CD) [253]。CD通过在两个集合之间求和最近邻距离的平方来量化预测 $S_{1}$ 与真实 $S_{2}$ 之间的几何相似性：
$CD(S1,S2)=∑x∈S1min⁡y∈S2∥x−y∥22+∑y∈S2min⁡x∈S1∥x−y∥22.(16)\mathrm{CD}(S_1,S_2)=\sum_{x\in S_1}\min_{y\in S_2}\left\|x-y\right\|_2^2+\sum_{y\in S_2}\min_{x\in S_1}\left\|x-y\right\|_2^2.(16)$
与像素级度量不同，CD捕捉表面、占据、BEV和3D结构，其可微性使其既可用作训练损失，也可用作补充IoU的评估度量。

4.2.3 任务性能

最终，世界模型的价值在于支持有效的决策制定，任务级指标在具身环境中评估在安全和效率约束下的目标达成情况。

成功率 (SR)。SR将性能量化为满足预定义成功条件的评估情节的比例。在导航和操控中，条件通常是二元的，例如到达目标或正确放置对象。在自动驾驶中，要求更严格，要求在无碰撞或重大违规的情况下完成路线。最终SR报告为所有测试情节中二元结果的平均值。
样本效率 (SE)。SE量化达到目标性能所需的样本数量。它通过固定预算基准（例如，Atari-100k）、数据-性能曲线或在机器人中通过实现给定成功率所需的演示数量进行评估。
奖励。在强化学习中，奖励是时间步t的信号 $r_{t}$ 。目标是最大化折扣回报 $Gt=∑k=0∞γkˉrt+k+1\begin{array}{r}{G_{t}=\sum_{k=0}^{\infty}\gamma^{\bar{k}}r_{t+k+1}}\end{array}$ 。结果报告为累积奖励或平均回报，通常进行归一化以进行跨任务比较。
碰撞。安全性通过基于碰撞的度量进行评估。主要度量是碰撞率，即至少发生一次碰撞的评估情节比例，在室内导航中很常见。在自动驾驶中，使用暴露归一化的变体，例如每公里或每小时的碰撞次数。

5 性能比较

鉴于世界模型变体的激增和异构的度量，我们按任务目标组织比较，并依赖标准化基准，报告简洁的表格，突出每种方法的优势和局限性。

表 4

在nuScenes上视频生成的性能比较。

方法	发表	分辨率	$\mathbf{FID}{\downarrow}$	FVD↓
MagicDrive3D [84] Delphi [86]	arXiv'24	224 × 400	20.7	164.7
Drive-WM [88]	arXiv'24 CVPR'24	512× 512	15.1 15.8	113.5
		192 × 384		122.7
GenAD [90]	CVPR'24	256 × 448	15.4	184.0
DriveDreamer [91]	ECCV'24	128 × 192	52.6	452.0
Vista [96]	NeurIPS'24	576 × 1024	6.9	89.4
DrivePhysica [214]	arXiv'24	256 × 448	4.0	38.1
DrivingWorld [133]	arXiv'24	512 × 1024	7.4	90.9
DriveDreamer-2 [97]	AAAI'25	256 × 448	11.2	55.7
UniFuture [206]	arXiv'25	320 × 576	11.8	99.9
MiLA [189]	arXiv'25	360 × 640	4.1	14.9
GeoDrive [170]	arXiv'25	480 × 720	4.1	61.6
LongDWM [188]	arXiv'25	480 × 720	12.3	102.9
MaskGWM [104]	CVPR'25	288× 512	8.9	65.4
GEM [102]	CVPR'25	576 × 1024	10.5	158.5
Epona [148]	ICCV'25	512 × 1024	7.5	82.8
STAGE [198]	IROS'25	512× 768	11.0	242.8
DriVerse [109]	ACMMM'25	480 × 832	18.2	95.2

5.1 像素生成

在nuScenes上生成。驾驶视频生成被视为一项世界建模任务，它在固定长度的片段中合成合理的场景动态。典型协议生成短序列，并使用FID评估外观保真度，使用FVD评估时间一致性。为了在nuScenes验证集上进行公平比较，近期方法取得了显著进展，如表4所示。DrivePhysica提供了最佳的视觉保真度，而MiLA实现了最强的时间一致性，共同建立了新的最先进性能。

5.2 场景理解

在Occ3D-nuScenes上进行4D占据预测。4D占据预测被视为一项代表性世界建模任务。给定2秒的过去3D占据，模型预测后续3秒的场景动态。评估遵循Occ3D-nuScenes协议，并报告mIoU和每个时间范围的IoU。如表5总结所示，我们按输入模态、辅助监督和自我轨迹使用情况比较方法，以揭示时空预测的设计选择。使用占据输入的方法优于仅使用相机的变体，而使用真实自我轨迹的辅助监督进一步缓解了2-3秒时的性能衰减。在所有方法中，COME（使用真实自我轨迹）实现了最佳的平均mIoU和每个时间范围的IoU。

5.3 控制任务

在DMC上评估。大多数研究探讨了世界模型学习控制相关动态的能力，通常采用基于像素的设置，观测为 $64×64×364\times64\times3$ 。主要指标是情节回报，定义为1000步内的累积奖励，给定 $rt∈[0,1]r_{t}\in[0,1]$ 时理论最大值为1000。为了可比性，表6报告了步数预算，并按任务分数和任务数量总结了性能。结果表明数据效率有所提高，近期模型在少得多的训练步数内就达到了强大的性能。然而，不一致的评估协议和任务子集阻碍了对泛化的公平评估，构建一个在任务、模态和数据集之间广泛可迁移的模型仍然是一个开放的挑战。

表 5

在Occ3D-nuScenes基准上4D占据预测的性能比较1。

方法	输入	辅助监督	自我轨迹	mIoU(%)↑					IoU (%) ↑
方法	输入	辅助监督	自我轨迹	重建	1s	2s	3s	平均	重建	1s	2s	3s	平均
复制粘贴2	占据	无	预测	66.38	14.91	10.54	8.52	11.33	62.29	24.47	19.77	17.31	20.52
OccWorld-O [93]	占据	无	预测	66.38	25.78	15.14	10.51	17.14	62.29	34.63	25.07	20.18	26.63
OccLLaMA-O [18]	占据	无	预测	75.20	25.05	19.49	15.26	19.93	63.76	34.56	28.53	24.41	29.17
RenderWorld-O [156]	占据	无	预测	=	28.69	18.89	14.83	20.80	一	37.74	28.41	24.08	30.08
DTT-O [98]	占据	无	预测	85.50	37.69	29.77	25.10	30.85	92.07	76.60	74.44	72.71	74.58
DFIT-OccWorld-O [174]	占据	无	预测	=	31.68	21.29	15.18	22.71	二	40.28	31.24	25.29	32.27
COME-O [213]	占据	无	预测	=	30.57	19.91	13.38	21.29	二	36.96	28.26	21.86	29.03
DOME-O [94]	占据	无	真实	83.08	35.11	25.89	20.29	27.10	77.25	43.99	35.36	29.74	36.36
COME-O [213]	占据	无	真实	-	42.75	32.97	26.98	34.23	=	50.57	43.47	38.36	44.13
OccWorld-T [93]	相机	语义LiDAR	预测	7.21	4.68	3.36	2.63	3.56	10.66	9.32	8.23	7.47	8.34
OccWorld-S [93]	相机	无	预测	0.27	0.28	0.26	0.24	0.26	4.32	5.05	5.01	4.95	5.00
RenderWorld-S [156]	相机	无	预测	-	2.83	2.55	2.37	2.58	-	14.61	13.61	12.98	13.73
COME-S [213]	相机	无	预测	-	25.57	18.35	13.41	19.11	-	45.36	37.06	30.46	37.63
OccWorld-D [93]	相机	占据	预测	18.63	11.55	8.10	6.22	8.62	22.88	18.90	16.26	14.43	16.53
OccWorld-F [93]	相机	占据	预测	20.09	8.03	6.91	3.54	6.16	35.61	23.62	18.13	15.22	18.99
OccLLaMA-F [18]	相机	占据	预测	37.38	10.34	8.66	6.98	8.66	38.92	25.81	23.19	19.97	22.99
DFIT-OccWorld-F [174]	相机	占据	预测	-	13.38	10.16	7.96	10.50	-	19.18	16.85	15.02	17.02
DTT-F [98]	相机	占据	预测	43.52	24.87	18.30	15.63	19.60	54.31	38.98	37.45	31.89	36.11
DOME-F [94]	相机	占据	真实	75.00	24.12	17.41	13.24	18.25	74.31	35.18	27.90	23.44	28.84
COME-F [213]	相机	占据	真实	-	26.56	21.73	18.49	22.26	-	48.08	43.84	40.28	44.07

1注：方法变体通过其输入来源表示：O（真实占据）；相机为基础的包括D（TPVFormer）、F（FBOCC）（带语义LiDAR的TPVFormer）和S（监督TPVFormer）。2复制粘贴：一个天真的基线，将最后一个输入帧重复用于所有未来预测。

表 6

在DMC基准上的性能比较1。

方法	步数	情节回报↑				平均 / 总计
方法	步数	Reacher Easy	Cheetah Run	Finger Spin	Walker Walk	平均 / 总计
PlaNet [38]	5M	469	496	495	945	333/20
Dreamer [10]	5M	935	895	499	962	823/20
Dreaming [110]	500k	905	566	762	469	610/12
TransDreamer [28]	2M	-	865	-	933	893/4
DreamerPro [111]	1M	873	897	811	-	857/6
MWM [41]	1M	=	670		-	690/7
HRSSM [25]	500k	910		960	=	938/3
DisWM[112]	1M	960	820		920	879/5

1注：在DMC上的性能比较。带下划线的条目表示从各自奖励曲线近似的分数。平均分数（Avg.）仅作为粗略指标提供，因为任务难度各异。

在RLBench上评估。RLBench使用7自由度模拟Franka手臂评估操控，被广泛用于评估世界模型是否捕捉到任务相关动态并支持条件动作生成。主要指标是成功率，定义为在步数限制内达到目标的情节比例。如表7总结所示，实现方式在情节预算、分辨率和模态上有所不同，这使得直接比较变得复杂。尽管存在这种异质性，但仍可看出几个趋势。近期方法越来越多地利用多模态输入并采用更强的骨干网络，如3DGS和DiT。VidMan在最广泛的任务上实现了很高的平均成功率，揭示了IDM作为一种有前景的架构方向。

在nuScenes上规划。开环规划被视为nuScenes验证集上的一项世界建模任务，模型从有限的历史中预测自我运动。方法观察2秒的过去轨迹，并预测接下来3秒的2D BEV路点。评估报告多个时间范围的L2误差和碰撞率，表8按输入模态、辅助监督和度量设置总结了结果。在此共享协议下，一个明显的权衡出现了。UniAD+DriveWorld通过广泛的辅助监督实现了最低的L2误差，而SSR在没有额外监督的情况下以有竞争力的L2误差获得了最佳的碰撞率。基于相机的方法现在超越了使用特权占据的方法，反映了端到端规划日益成熟。

表 7

在RLBench上操控任务的性能比较。

标准		方法 VidMan [55] ManiGaussian [53] ManiGaussian++ [80]
设置	情节	125	25	25	DreMa [60] 250	TesserAct [78] 100
	像素	224	128	256	128	512
	深度		√	√	√	√
	语言	√	√	√		√
	本体感知	√	√	√
	特征	IDM	GS	双手	GS	DiT
成功率 (%)	堆叠方块	48	12		12	-
	关闭罐子	88	28	-	51	44
	打开抽屉	94	76		-	80
	扫入簸箕	93	64	92	-	56
	滑动方块	98	24	-	62	-
	平均1 / 总计	67/18	45/10	35/10	25/9	63/10

平均：仅作为粗略指标报告平均分数，因为任务难度各异。

表 8

在nuScenes验证集上开环规划的性能比较1。

方法	输入	辅助监督2	L2 (m) ↓				碰撞率 (%) ↓
方法	输入	辅助监督2	1s	2s	3s	平均	1s	2s	3s	平均
UniAD [254]	相机	地图 & 框 & 运动 & 轨迹 & 占据	0.48	0.96	1.65	1.03	0.05	0.17	0.71	0.31
UniAD+DriveWorld [87]	相机	地图 & 框 & 运动 & 轨迹 & 占据	0.34	0.67	1.07	0.69	0.04	0.12	0.41	0.19
GenAD [92]	相机	地图 & 框 & 运动	0.36	0.83	1.55	0.91	0.06	0.23	1.00	0.43
FSDrive [101]	相机	地图 & 框 & 问答	0.40	0.89	1.60	0.96	0.07	0.12	1.02	0.40
OccWorld-T [93]	相机	语义LiDAR	0.54	1.36	2.66	1.52	0.12	0.40	1.59	0.70
Doe-1 [134]	相机	问答	0.50	1.18	2.11	1.26	0.04	0.37	1.19	0.53
SSR [160]	相机	无	0.24	0.65	1.36	0.75	0.00	0.10	0.36	0.15
OccWorld-S [93]	相机	无	0.67	1.69	3.13	1.83	0.19	1.28	4.59	2.02
Epona [148]	相机	无	0.61	1.17	1.98	1.25	0.01	0.22	0.85	0.36
RenderWorld [156]	相机	无	0.48	1.30	2.67	1.48	0.14	0.55	2.23	0.97
Drive-OccWorld [157]	相机	无	0.32	0.75	1.49	0.85	0.05	0.17	0.64	0.29
OccWorld-D [93]	相机	占据	0.52	1.27	2.41	1.40	0.12	0.40	2.08	0.87
OccWorld-F [93]	相机	占据	0.45	1.33	2.25	1.34	0.08	0.42	1.71	0.73
OccLLaMA-F [18]	相机	占据	0.38	1.07	2.15	1.20	0.06	0.39	1.65	0.70
DTT-F [98]	相机	占据	0.35	1.01	1.89	1.08	0.08	0.33	0.91	0.44
DFIT-OccWorld-V [174]	相机	占据	0.42	1.14	2.19	1.25	0.09	0.19	1.37	0.55
NeMo [161]	相机	占据	0.39	0.74	1.39	0.84	0.00	0.09	0.82	0.30
OccWorld-O [93]	占据	无	0.43	1.08	1.99	1.17	0.07	0.38	1.35	0.60
OccLLaMA-O [18]	占据	无	0.37	1.02	2.03	1.14	0.04	0.24	1.20	0.49
RenderWorld-O [156]	占据	无	0.35	0.91	1.84	1.03	0.05	0.40	1.39	0.61
DTT-0 [98]	占据	无	0.32	0.91	1.76	1.00	0.08	0.32	0.51	0.30
DFIT-OccWorld-O [174]	占据	无	0.38	0.96	1.73	1.02	0.07	0.39	0.90	0.45

1注：结果按照UniAD[254]协议报告。方法变体通过其输入来源表示：O（真实）、V（相机预测）、D（TPVFormer）、F（FBOCC）等。2辅助监督：辅助监督的缩写，指除真实轨迹外的额外训练信号。

6 挑战与趋势

本节回顾了具身人工智能中世界模型的开放挑战和新兴方向。我们从三个维度进行讨论：6.1 数据与评估、6.2 计算效率、和6.3 建模范式。

6.1 数据与评估

挑战。从数据角度看，核心挑战在于现有语料库的稀缺性和异质性。尽管具身人工智能涵盖了导航、操控和自动驾驶等多样化领域，但仍然缺乏一个统一的大规模数据集。这种碎片化限制了世界模型的能力，并严重阻碍了其泛化能力。

评估实践也面临类似限制。FID和FVD等指标强调像素保真度，而忽略了物理一致性、动态和因果关系。近期的基准，如EWM-Bench [255]，引入了新度量，但仍局限于特定任务，缺乏跨领域标准。

未来方向。近期的倡议，如OpenDV-2K [90]和VideoMix22M [14]，突显了对大规模预训练和更广泛模态覆盖的日益关注，但资源仍然碎片化且领域特定。未来工作应优先构建统一的多模态、跨领域数据集，以实现可迁移的预训练，同时推进评估框架，超越感知真实性，评估物理一致性、因果推理和长时程动态。

6.2 计算效率

挑战。具身人工智能任务在计算效率方面面临重大挑战，尤其是在实时应用中。尽管Transformer和扩散网络等模型表现出强大的性能，但其高昂的推理成本与机器人系统实时控制的需求相冲突。因此，RNN和全局潜在向量等传统方法仍然被广泛采用，因为它们提供了更高的计算效率，尽管在捕捉长期依赖方面存在局限性。

未来方向。为了解决这一挑战，未来研究应专注于使用量化、剪枝和稀疏计算等技术优化模型架构，以在不损害性能的情况下减少推理延迟。此外，探索新的时间方法，如状态空间模型（SSMs），可以在保持实时效率的同时增强长程推理，为机器人系统提供一个有前景的解决方案。

6.3 建模范式

挑战。尽管取得了快速进展，世界模型在长时程时间动态和高效空间表征方面仍然面临困难。主要难点在于平衡循环模拟和全局预测：自回归设计紧凑且样本高效，但会随着时间的推移累积误差，而全局预测通过牺牲大量计算和较弱的闭环交互性来提高多步连贯性。在空间方面，效率仍然是一个瓶颈。潜在向量、令牌序列和空间网格各自在效率和表现力之间存在权衡，而分解渲染方法（例如，NeRF 和 3DGS）虽然提供了高保真度，但在动态场景中扩展性较差。总的来说，时间和空间建模仍然受到结构性权衡的制约，限制了其可扩展性和适应性。

未来方向。已经出现了几个有希望的途径来解决当前的瓶颈。状态空间模型（SSM）（例如，Mamba）与自回归建模相一致，提供了线性时间的可扩展性和强大的长时程推理潜力。相比之下，掩码方法（例如，JEPA）更接近全局预测，可以改进表征学习和效率，尽管它们在闭环控制中的集成仍然具有挑战性。此外，一个有希望的方法在于结合自回归和全局预测方法的优势。显式记忆或分层规划可以增强长时程预测的稳定性，而受CoT启发的任务分解可以通过中间目标设定来提高时间一致性。未来的框架应优先优化长程推理、计算效率和生成保真度，同时将时间和空间建模无缝集成到统一的架构中，在效率、保真度和交互性之间取得有效平衡。

结论

本综述使用一个新颖的三部分框架（功能性、时间建模和空间表征）来组织具身人工智能中的世界模型。基于此，我们回顾了现有研究、数据集和指标，以建立一个比较标准。然而，仍然存在重大挑战，包括缺乏统一的数据集和忽视物理因果关系的评估方法。一个核心的建模挑战在于调和高效的自回归方法与鲁棒的全局预测范式之间的权衡。未来的工作应通过创建统一的、基于物理的基准和探索高效架构来解决这些差距。开发在保真度、效率和交互性之间取得平衡的混合方法是关键，因为世界模型通过统一感知、预测和决策，构成了下一代具身人工智能的基础。

查看全文

http://www.dtcms.com/a/538194.html