当前位置：首页 > news >正文

读文章 Critiques of World model

news 2025/7/15 12:37:22

论文名称：对世界模型的批判
作者单位： CMU， UC SD
原文链接：https://arxiv.org/pdf/2507.05169
摘要：

世界模型（World Model）——即真实世界环境的算法替代物，是生物体所体验并与之互动的环境——近年来成为了一个新兴的研究热点，这主要是由于人们日益需要开发具备人工（通用）智能的虚拟代理（virtual agents）。关于什么是真正的“世界模型”、如何构建它、如何使用它以及如何评估它，目前学界仍存在诸多争论。本文从经典的科幻名著《沙丘》（Dune）中获得灵感，并借鉴心理学文献中的“假设性思维”（hypothetical thinking）概念，对几种主流的世界建模思想进行了批判性分析。我们主张，世界模型的主要目标应是为有目的的推理与行动，模拟现实世界中所有可操作的可能性。
在这些批判的基础上，我们提出了一种适用于通用世界的新型架构：该架构基于分层式、多层级、混合连续/离散表示（hierarchical, multi-level, and mixed continuous/discrete representations），并采用生成式与自监督学习框架（generative and self-supervised learning framework）。我们展望，通过这种模型可以实现一个具有物理性、能动性与嵌套结构（Physical, Agentic, and Nested, 简称PAN）的通用人工智能（AGI）系统。
个体帮助哭泣的个体，通过模拟和感同身受进行

引言：
大型语言模型（Large Language Model, LLM）可以模拟人类语言中的下一个词，这一能力催生了如ChatGPT这样的系统。这些系统可以通过语言协助人们完成广泛的任务，例如日常对话、标准化考试、专业写作以及高级数学推理，其表现水平已能与人类智能相媲美。

那么，如果你能够完美地模拟“下一个世界”——也就是我们所处环境中所有可能的未来——你会做些什么呢？科幻经典《沙丘》（Dune）启发了乔治·卢卡斯的《星球大战》（Star Wars）和宫崎骏的《风之谷》等作品，它大胆地设想了这样一种可能性。这部系列小说的核心人物是“预知者”（Kwisatz Haderach），一位被预言会继承祖先记忆、并能模拟所有可能计划结果的人类，从而为实现目标规划出最佳路径。这种超凡的能力使他能够指挥军队赢得星际战争，或监督全球规模的生态工程，将一颗荒芜的沙漠星球改造成绿色的天堂。我们是否可以采用类似的方法，构建出具有类似功能的计算机系统？

不同于聊天机器人，人类具备一个由多个层次组成的能力体系：从即时而具体的技能（例如身体控制/动作/行为、阅读/倾听、说话/绘画），到深远而抽象的能力（例如计划、协作和战略制定）。此外，同一个人虽然未必能做到完美，却能够在广泛的各类任务中表现出色（例如做家务、进行危险探险、开展调查研究、应对社交情境、管理复杂企业），这一切都依赖于人类大脑这一统一的认知架构。那么，是否存在可能设计出一种人工智能（AI）系统，也能胜任所有这些任务？

我们可以将每一个问题看作是一个以目标为导向的智能体在多模态环境中的行为，这需要对大规模时空、社会-物理、情感-认知等多层次的复杂性进行有目的的推理。传统基于逻辑推理（例如归纳、演绎、溯因）的方法往往难以应对如此复杂的挑战。由此看来，面对这类复杂性进行广义决策的关键，就在于像《沙丘》中那样“预见未来”的能力——心理学文献中正式称之为“假设性思维”（Hypothetical Thinking），在日常实践中也被称为“思想实验”（thought experiments）——即通过内在的世界模型来模拟“下一个世界”。我们将这种内在模型称为世界模型（World Model）。

具体而言，一个世界模型（World Model, WM）是一种生成模型，用于模拟各种不同情境下的可能性（例如物理世界、心理世界、社会世界和进化世界）。从操作层面来看，世界模型接收先前的世界状态 s 和动作 a，并通过一个转换函数（如条件概率分布）来预测或模拟下一个世界状态 s′：
$\sim p(s'|s,a)$
对于一个agent而言，最有的定义应该是这样

拥有一个世界模型（WM）后，机器便可以通过在复杂情境中（包括反事实情境）模拟各种行为与计划，并从中提取最优方案来进行“思想实验”。这与一个关于人类推理方式的假设是一致的：人类并非仅仅依靠线性逻辑规则朝目标推进（例如，设想一个利己主义者看到别人哭泣时立即提供帮助，目的是让对方停止哭泣，如图1所示），这种行为通过确定性优化算法即可实现；更重要的是，人类也依赖于基于内在心理模型的模拟过程（例如，设想同一个人通过心理模拟多个可能结果——包括自己筋疲力尽、对方停止哭泣、她继续哭泣但心存感激等，并根据预期奖励选择最佳行动）[21, 40]。

这样的世界模型还能使知识迁移到新任务的求解中，因为现实世界的动态机制尽管出现在不同场景中，却往往具有许多机制上的共性。例如，潜水员在水下低重力环境中对身体运动的体验，可能有助于其适应月球行走；登山者擅长预测地形如何隐藏个体行动，这一能力在他们领导山地伏击时同样有用；一位经验丰富的游戏玩家则深谙数字角色对控制信号的响应方式，这将有助于他日后成为无人机操作员。因此，正如人类经常借助心理模型从过去经验中推演出新的应对策略一样，机器也可以利用世界模型，在陌生环境中实现“零样本”（zero-shot）的能力。

我们应如何构建这样一个通用的世界模型？在构建和训练世界模型的过程中，关键需求主要包括以下五个方面：

识别并准备包含所需世界信息的训练数据；
采用一种通用的表示空间来编码潜在的世界状态，其语义可能比直接观察到的数据更加丰富；
设计一种能够有效对这些表示进行推理的架构；
选择一个能正确引导模型训练的目标函数；
确定如何在一个决策系统中使用该世界模型。

近年来，学界在构建世界模型方面投入了大量努力。本文对其中若干尝试进行了实证和技术层面的批判性分析，特别针对一些明确提出上述五方面系统性建议的世界建模流派。

我们在批判的基础上，简要预览了一种替代架构——PAN（Physical, Agentic, and Nested，即物理性、能动性与嵌套结构）世界模型。我们认为，这种模型具备实现真正通用且可操作的世界模型的潜力，其设计原则如下：

使用来自所有感知模态的经验数据；
采用混合连续与离散的表示方式；
基于增强版大语言模型（LLM）主干的分层生成式建模，结合生成式潜在预测架构；
以观察数据为基础定义生成式损失函数；
利用世界模型模拟经验，用于强化学习（RL）代理的训练。

有关 PAN 世界模型的完整细节及实验结果将在另一篇专门的手稿中详述 [19]。

单个Agent知道的东西太少了，因此模仿是它该做的

2 世界模型与智能体决策

\textbf{世界模型}（World Model）的提出，源于对\textbf{智能体决策}（agent decision-making）的研究。一个\textbf{智能体}（agent）是一个能够在环境中——这个环境既包括物理世界，也包括社会世界——采取行动以实现目标的自主系统（例如登山、赢得军事战役等）。我们考虑一个具有离散时间步长的环境，时间用 $t$ 表示（连续时间步长可以通过无限小的离散时间步长来近似）。形式上，智能体接收当前世界状态 $s_t$ ，并根据分布 $pπ(at∣st)p_\pi(a_t \mid s_t)$ 输出下一个动作 $a_t$ ，这在强化学习文献中被称为“策略”（policy）。因此，最优智能体是指在所有环境中都能最好地实现其目标的智能体。而\textbf{世界模型}的概念，则是在一般智能体推理中作为环境的替代物而出现的。

2.1 智能体-环境模型与最优智能体

考虑一个智能体与环境之间的顺序交互过程（如图2所示）。在时间步 $t$ ，智能体输出动作 $a_t$ ，宇宙（即环境） $μ\mu$ 接收当前状态 $s_t$ 和动作 $a_t$ ，并根据分布 $pμ(st+1∣st,at)p_\mu(s_{t+1} \mid s_t, a_t)$ 输出下一个状态 $s_{t+1}$ 。那么，在给定当前状态 $s_t$ 的前提下，直到时间步 $T$ 的交互轨迹（action-state序列） $a_t, s_{t+1}, ..., a_{T−1}, s_T)$ 的联合分布可以表示为：
$pμπ(at,st+1,...,sT∣st)=∏k=tT−1pπ(ak∣sk)⋅pμ(sk+1∣sk,ak)p^\pi_\mu(a_t, s_{t+1}, ..., s_T \mid s_t) = \prod_{k=t}^{T−1} p_\pi(a_k \mid s_k) \cdot p_\mu(s_{k+1} \mid s_k, a_k)$

在每一个状态 $s_t$ ，智能体还会基于其目标 $g$ 获得一个奖励 $r(g, s_t)$ 。我们通过其\textbf{折扣累计奖励}（discounted cumulative reward）来评估智能体的表现，记作：
$Vπ,μg(st):=Eπ,μ[∑k=t∞γkr(g,sk)∣st]=lim⁡T→∞∑(at,st+1,...,sT)∑k=tTγkr(g,sk)⋅pμπ(at,st+1,...,sT∣st)V^g_{\pi,\mu}(s_t) := \mathbb{E}_{\pi,\mu} \left[ \sum_{k=t}^{\infty} \gamma_k r(g, s_k) \mid s_t \right] = \lim_{T \to \infty} \sum_{(a_t, s_{t+1}, ..., s_T)} \sum_{k=t}^{T} \gamma_k r(g, s_k) \cdot p^\pi_\mu(a_t, s_{t+1}, ..., s_T \mid s_t)$

基于公式 (2) 和 (3)，我们可以定义在这个环境 $μ\mu$ 中的\textbf{最优智能体}为最大化价值函数的智能体，形式化表示如下：
$πμ∗:=arg⁡max⁡πVπ,μg\pi^*_\mu := \arg\max_{\pi} V^g_{\pi,\mu}$

一些简单的推导表明，在状态 $s_t$ 下的最优智能体会基于以下决策规则 $πμ∗(st)\pi^*_\mu(s_t)$ 来选择动作 $a_{t:T−1}$ ：
$πμ∗(st)=arg⁡max⁡at:T−1[∑k=tT−1γkr(g,sk)+γTVπ,μg(sT)]⋅∏i=tT−1pμ(si+1∣si,ai)\pi^*_\mu(s_t) = \arg\max_{a_{t:T−1}} \left[ \sum_{k=t}^{T−1} \gamma_k r(g, s_k) + \gamma_T V^g_{\pi,\mu}(s_T) \right] \cdot \prod_{i=t}^{T−1} p_\mu(s_{i+1} \mid s_i, a_i)$

该式表明：最优智能体在规划未来动作时，会综合考虑从当前到未来的预期奖励，并模拟环境可能的反应路径，从而做出最优决策。
词向量空间中的世界模型框架

2.2 世界模型与模拟推理

值得注意的是，公式 (5) 中定义的最优决策要求智能体能够访问来自宇宙 $μ\mu$ 的真实世界状态以进行体验和优化。然而，除了像围棋和国际象棋这样的简单场景 [33, 34] 外，这通常并不现实——想象一下构建一个登陆火星的智能体，或者是在日常环境中依赖嘈杂传感器的真实机器人。因此，世界模型（World Model）作为预测环境对一般智能体反应的关键组件应运而生。具体而言，如图3所示，一个世界模型 $f$ 运行在一个内部（连续或离散）的世界状态表示上，称为信念状态 $s^t\hat{s}_t$ ，该状态从感官输入 $o_t$ 经过编码器 $h$ 得出（与§2.1中描述的可以直接访问真实世界状态 $s_t$ 的最优智能体不同）。给定一个提议的动作 $a'_t$ （不同于最优智能体使用的实际动作 $a_t$ ），世界模型根据分布 $pf(s^t+1∣s^t,at′)p_f(\hat{s}_{t+1} \mid \hat{s}_t, a'_t)$ 预测下一个信念状态 $s^t+1\hat{s}_{t+1}$ 。这种预测的信念状态使智能体可以提出下一个动作，继续预测和行动的循环直到期望的时间范围 $T^{'}$ 。

智能体可以模拟多个这样的提议动作和信念状态序列，并基于一些外部函数（例如评估结果与给定目标对比的批评者Critic）选择实际动作 $a_t$ （在观察到 $o_t$ 后）。因此，世界模型本质上是一个可能未来世界状态的生成模型，它实现了模拟推理或“思想实验”。对于配备了世界模型 $f$ 并处于信念状态 $s^t\hat{s}_t$ 的最优智能体 $πf∗\pi^*_f$ ，我们按照如下方式定义基于模拟的决策规则（公式6）：
$πf∗(s^t)=arg⁡max⁡at:T′−1′[∑k=tT′−1γkr(g,s^k)+γT′Vπ,fg(s^T′)]⋅∏i=tT′−1pf(s^i+1∣s^i,ai′)\pi^*_f(\hat{s}_t) = \arg\max_{a'_{t:T'-1}} \left[ \sum_{k=t}^{T'-1} \gamma_k r(g, \hat{s}_k) + \gamma_{T'} V^g_{\pi,f}(\hat{s}_{T'}) \right] \cdot \prod_{i=t}^{T'-1} p_f(\hat{s}_{i+1} \mid \hat{s}_i, a'_i)$

通用的世界模型能够在广泛的领域内模拟多种可能性，使得智能体无需直接与环境交互即可推断结果。这包括但不限于以下示例：

物理动力学：如水如何流动、抛掷物体时的运动轨迹，或机器在不同条件下的操作。
具身体验：如平衡感、姿势等内部身体状态，感觉（如热、痛、晕眩），以及复杂的运动活动如穿衣服或系鞋带。
情绪状态：情感反应如快乐、悲伤或恐惧，这些有助于在充满情感的情境下规划（如治疗或社交互动）。
社会情境：他人的行为和内在状态，包括他们的具身或情感体验、需求、意图和期望。
心理世界：抽象的“思维过程”如逻辑、战术和策略，特别是在多智能体或对抗性设置中。
反事实世界：替代现实或“如果…会怎样”的情景，用于指导在不确定或信息不完全情况下的更好决策。
进化世界：如遗传继承、适应和生物生存的世代动态。

正如前面所述，世界模型的一个主要功能是实现模拟推理——通过使用世界模型模拟计划的结果，智能体执行一系列的思想实验，从而选择最佳计划。这种方法与AI系统中探索的其他方法形成对比，比如由人类某种心智活动启发的逻辑推理，旨在从一组前提开始通过严格的推理或论证得出结论，然后使用逐步关系形式推理（如Lambda演算）来得出由这些前提支持的结论；或是过程工业中化学工厂和炼油厂使用的基于模型预测控制的推理，通过数学编程（如凸优化）推导出满足一组约束的最佳动作序列。由世界模型支持的模拟推理的特点在于其灵活性、通用性和可扩展性，相对于变化的计算资源、内存、环境和问题复杂度，这得益于世界模型固有的跨域模拟所有可能性的能力。在这方面，世界模型与现代LLM（如ChatGPT）在语言智能空间中主体无关的操作有着重要的经验相似性（例如端到端体验）。实际上，正如我们后面讨论的那样，通用世界模型可以将LLMs用作其关键构建块。

结合从任意感官观察估计世界状态信念的编码器，世界模型支持机器以受控深度（即步骤数）和宽度（即轨迹数）执行计算上的思想实验。例如，AlphaGo [33] 可以被视为使用已知（简单的）世界模型通过蒙特卡洛树搜索（MCTS）进行模拟推理的一个特例。在物理世界中， $模拟推理使自动驾驶汽车能够通过预测未来的街道场景安全驾驶\color{red}{\textbf{模拟推理使自动驾驶汽车能够通过预测未来的街道场景安全驾驶}}$ ，或使军事指挥官通过预期部队调动的结果制定赢得战斗的战术 [36]。世界模型还支持在不同时间尺度上的模拟，允许回答关于地球上数十亿年进化路径的问题，或只是假设火星文明中的几个瞬间。

3 世界模型的现状

近年来关于世界建模的研究催生了多种系统，其中许多都针对特定领域或模拟类型进行了优化。有趣的是，尽管这些系统形式多样，但它们有一个共同点：都高度重视视频/图像生成，并强调所生成内容的视觉质量。

游戏世界模型（Gaming World Models）

如 Genie 2 [28]（Google DeepMind）、Muse [22]（Microsoft）和 Oasis [11]（Decart and Etched）等系统使用生成模型来模拟视频游戏环境。这些模型能够从视觉输入和动作指令中渲染出合理的轨迹，产生最多1到2分钟的连续游戏内容。

尽管取得了一定进展，但这些系统仍具有明显的领域局限性——例如，Genie 2 和 Muse 依赖于限制性的“控制台式”输入，而 Oasis 仅适用于类似 Minecraft 的设置。此外，它们的时间一致性仍然较浅，当前的生成时间范围（1-2分钟）远未达到完整的游戏会话时长（通常达数小时）。因此，目前的游戏世界模型在应对更开放、以智能体驱动的任务时，缺乏所需的灵活性、通用性和长期推理能力。

三维场景世界模型（3D Scene World Models）

如 World Labs [47] 及其相关工作专注于风格化的三维场景生成与第一人称导航。虽然这些模型在视觉上令人印象深刻，但技术细节仍然匮乏。从现有演示来看，这些模型似乎只能模拟静态环境，缺乏动态智能体、物理机制或丰富的交互性。

这导致其模拟不完整，在涉及物理因果关系、多智能体行为或目标驱动规划的任务中表现不足。尽管这些系统推动了空间真实感的边界，但它们并不支持面向决策或智能体学习的完整世界建模。

物理世界模型（Physical World Models）

像 Wayve GAIA-2 [32] 和 NVIDIA Cosmos [1] 这样的生成模型专门用于物理控制任务，包括自动驾驶、机器人操作和具身导航。这些系统在不同条件下（如变化的天气、光照和地理环境）展示了对低层物理机制和感知-运动控制的高度保真建模。

然而，这些模型与其各自的领域高度耦合，常常依赖特定任务的传感器、数据或控制架构。它们在其受限环境中表现出色，但仍未能解决更广泛的挑战：如何模拟复杂、多智能体或多社会背景下的世界。

视频生成模型（Video Generation Models）

另一类流行模型专注于通用视频生成，近期代表包括 OpenAI 的 Sora [7] 和 Google DeepMind 的 Veo [15]。这些模型旨在根据文本提示和/或先前帧生成高质量的视频序列。

尽管视觉效果惊艳，但这些模型只能生成固定的轨迹，不支持基于替代动作的交互。具体而言，它们缺乏明确的状态、动作概念，甚至可能缺少对象级或概念级的表示。此外，它们也不提供任何用于反事实结果推理或评估不同决策的模拟控制机制。因此，这些系统超出了世界模型用于推理和规划的定义范畴，更适合理解为严格的视频生成工具（专注于像素级合成），而非决策系统的组成部分。

联合嵌入预测模型（Joint Embedding Predictive Models）

最后值得一提的是联合嵌入预测架构（JEPA）家族，包括 Meta FAIR 开发的 V-JEPA 系列 [5, 3]、DINO-WM [50] 和 PLDM [35]。由于其概念上的优雅性，这类方法在世界建模领域引起了广泛关注。

这些模型放弃了像素级生成，而是通过编码器-编码器结构预测未来的潜在嵌入，并常使用基于能量的损失函数在潜在空间中进行监督。这种设计有望提高可计算性，但在实际可用性方面的证据仍然有限，因为这些模型主要在具有简单启发式和动作空间的玩具环境中展示过性能。

最新的 V-JEPA 2 [3] 在机器人手臂操作任务中应用了联合嵌入预测，标志着向前迈出的重要一步。但尚不清楚此类模型是否能在更多样化的任务（如做早餐）中泛化，或是否能扩展到具有长期依赖的高复杂度环境（如登山）。

总结

综上所述，尽管上述系统在建模世界的某些方面取得了显著进展，但由于在范围、抽象能力、可控性、交互性和通用性等方面的限制，大多数系统尚未能够在现实世界的应用中实现有目的的推理和规划。

尤其值得注意的是，除了 JEPA 架构之外，当代世界模型系统几乎无一例外地将视频生成作为核心功能，但这一重点尚未经过充分审视，也缺乏有力的理论支撑。这种倾向可能反映了对一个根本问题的理解模糊，甚至是误解——什么是世界模型？

我们认为，世界模型的核心并不是生成视频，而是作为一个推理和思想实验的沙盒。接下来的讨论将以这一定义为基础，评估当前世界建模技术路径的合理性与可行性。

4 对世界建模的批判性分析

有一种颇具影响力的观点流派 [23]，从构建世界模型所需的五个维度——数据、表示、架构、目标和用途——提出了若干主张，我们认为这些观点值得深入审视：

感官输入优于文本，因为来自物理世界的数据量更大（例如，“一个四岁的孩子已经处理了 1.114 字节的视觉数据”，而用于训练现代大语言模型的所有文本数据总量仅为 0.914 字节）。
世界状态应通过连续嵌入（continuous embeddings）来表示，而不是使用离散 token，以支持基于梯度的优化。
自回归生成模型（如大语言模型 LLMs）“注定失败”，因为它们最终一定会犯错，并且无法建模结果的不确定性。
基于概率的数据重建目标（例如编码器-解码器框架）不可行，因为这类方法在计算上难以处理，并且会迫使模型预测与任务无关的细节。
世界模型应被用于模型预测控制（MPC），而不是强化学习（RL）框架，因为后者需要大量的试错过程。

这一学派还提出了一种替代性的世界模型框架，如图4所示，其核心思想是“下一表示预测”（next representation prediction），而非“下一数据预测”（next data prediction）。该框架主要包括以下几个关键组成部分：

无文本预训练（Text-Free Pretraining）：该框架完全摒弃了文本数据，转而使用视频、音频、气味等连续感官数据进行训练。
固定大小的连续状态嵌入（Fixed-Size, Continuous State Embeddings）：给定感官输入 $o$ ，一个编码器 $h$ 将世界状态估计为一个具有固定维度的抽象连续嵌入 $s^=h(o)\hat{s} = h(o)$ （例如 $s^∈Rd\hat{s} \in \mathbb{R}^d$ ）。
编码器-编码器架构（Encoder-Encoder Architecture）：根据动作输入 $a$ ，世界模型 $f$ 确定性地预测下一个状态嵌入 $s^′=f(s^,a)\hat{s}' = f(\hat{s}, a)$ 。特别的是，该架构并不使用解码器 $g$ 来重建下一个观测 $o^′\hat{o}'$ ，而是再次应用编码器来从真实观测 $o^{'}$ 中提取嵌入 $s^′∗=h(o′)\hat{s}'^* = h(o')$ ，作为监督信号的真实标签。
潜在空间中的重建损失（Reconstruction Loss in Latent Space）：不同于通过比较重建的下一感官输入 $o^′\hat{o}'$ 与实际数据 $ o’$ 来监督世界模型，该框架通过比较预测的下一状态 $s^′\hat{s}'$ 与引导出的真实状态 $s^′∗\hat{s}'^*$ 来进行学习（例如使用 L2 损失 $∥s^′−s^′∗∥\| \hat{s}' - \hat{s}'^* \|$ ）。
基于 MPC 的动作选择（Action Selection via MPC）：给定当前观测 $o_t$ ，该框架倾向于先提出一个初始动作序列 $a_t, a_{t+1}, ..., a_{T−1})$ ，然后使用世界模型 $f$ 模拟下一状态序列 $s_{t+1}, s_{t+2}, ..., s_T)$ ，并根据目标进展 $V^g(s_T)$ 对动作进行优化。

尽管这些观点对当前世界建模领域的一些做法提出了有价值的质疑，并提供了看似有吸引力的解决方案，但我们认为，当将其应用于面向智能体推理和决策的通用、可扩展、鲁棒的世界建模时，这些假设中的每一个都会引入关键性的限制。在接下来的讨论中，我们将从构建世界模型的五个维度——数据、表示、架构、目标和用途——对上述主张和提议进行逐一分析和批判。

4.1 数据：信息密度，而不仅仅是数据量

有人认为，由于更大的数据量，世界模型需要从感官输入中训练。例如，LLM使用了0.914字节的文本数据，而一个四岁的孩子处理了1.114字节的视觉数据。然而，尽管视频等感官数据流在原始体积上显得庞大，但其中大部分数据语义含量低且高度冗余[14, 44]。相比之下，自然语言是人类经验经过世代抽象交流和概念推理优化后的压缩形式[24, 30]。

文本不仅捕捉物理现实，还包括心理、社会和反事实现象，这些现象通常难以或无法直接观察到[10]。例如，“正义”、“动机”或“遗憾”等概念在语言中被丰富地编码，但没有直接的感官对应物。此外，语言提供了一个通往集体人类记忆（如记录的观察、科学发现、工程失败）的接口，仅靠原始感知输入很难甚至不可能从中推导出结论[42]。实际上，基于文本训练的模型可以编写软件[43]或解决奥林匹克级别的数学问题[8]，而仅基于原始视觉和运动数据训练的模型更适合于物理导航[45]或操作任务[2]。

因此，通向通用世界建模的道路必须利用所有体验模式——无论是文本、图像、视频、触觉、音频还是更多。关键的是，这些模式不可互换，而是反映了体验的不同层次（例如，视频捕捉了具身和物理世界的时空动态，而语言编码了抽象概念和社会规范）。过分强调某些模式（如视频优于文本）反映出对什么是世界模型及其功能的基本感知上的局限性或偏见。因此，成功的世界模型必须从这种分层的体验结构中学习，以跨多样化的任务进行泛化。忽略任何层面，无论是低级感知还是高级抽象，都可能遗漏智能行为所需的关键信息。

4.2 表示：连续？离散？还是两者兼有？

主张不使用离散token，世界状态应通过连续嵌入表示，以便实现基于梯度的优化。但是，人类在推理过程中是否执行基于连续神经信号的梯度优化（例如SGD），或者是在离散概念上的模式搜索（例如KNN），我们并不确定。我们知道的是，推理可以是认知性的、生理性的，或两者兼有，不太可能有一种算法适合所有情况。

虽然连续表示允许更平滑的梯度流动，但这一观点忽视了与连续感官输入相关的固有噪声和高变异性，这使得它们在推理时脆弱。人类认知已经进化为通过将原始感知分类成离散概念来对抗这种变异性[6]，这些概念是我们通常在语言、符号和结构化思维中编码的内容（图5，左）。
基于词典的Token是离散且高效的推理模式

基于词汇的token因此不是负担，而是资产：它们提供了稳定、可组合的媒介，用于在不同抽象层次上表示概念。它们构成了设计和构建今日基于语言的AI系统（如LLMs）的基础，这些系统基于一系列离散单词进行推理，这些单词是对应于来自宇宙（物理的、精神的或社会的世界）的各种感知的人类token，并允许通过实施（理想情况下是动态可控的）上下文长度来运用一种长期记忆。尽管并非完全准确，但考虑到语言空间作为一个人类通过进化和学习创造的潜空间，它是描述人类生活的可感知和可描述宇宙的一个重要子集是有道理的。受益于大规模基于文本的预训练，LLM能够学习模拟由自然语言形成的这个潜空间中的内容。确实，最近的工作表明，在自然语言中表示世界状态对于各种实际任务的推理和规划取得了成功[18, 12]。除了自然语言token之外，现代技术如VQ-VAE[39]使我们能够进一步将感官数据（如图像或音频）转换为保留结构和语义的离散token。

尽管这样的离散表示有望提供像自然语言token一样的稳定性及符号结构，但一个自然的关注点是它们能否忠实地捕捉高维连续感官数据的丰富性，因为蒸馏过程存在信息丢失的风险。随着世界的复杂性增加，这种担忧也随之增长：离散token是否足以区分微妙不同的世界状态？确实，世界往往包含比通过感官输入直接可观测到的更深的意义层（例如，木偶的动作可能反映木偶师隐藏的意图）。捕捉这种潜在结构需要表达能力可扩展的表示方法。

为了更深入理解使用离散token的潜力和局限性，我们提出了一项理论结果，表明原则上，只要适当地扩展规模，离散表示可以保持任意精细的真实值输入之间的区分度。具体来说，我们考虑了两种直观的策略来增加表示容量：

学习更大的模式tokenizer（向上扩展）：保持token数量不变，增加词汇量，使每个token编码的信息块更加细化。
找到更长的语言表达（向外扩展）：保持词汇量不变，增加序列长度并结合更多的token来表达更复杂的输入。

正如我们在下面的定理1中展示的那样，通过增加编码长度向外扩展更为高效。

定理 1（语言表示的完备性）

假设：实数输入序列为 $x = [x_1, ..., x_T]$ ，其中每个 $xt∈RDx_t \in \mathbb{R}^D$ 且满足 $x_t\| < K$ 。
对于任意给定的精度 $ϵ>0\epsilon > 0$ ，存在一种语言系统 $Lϵ=(V,N,fϵ)L_\epsilon = (V, N, f_\epsilon)$ ，其中：

$V$ 是词汇表（vocabulary），
$\infty$ 是最大句子长度（maximal sentence length），
$fϵ:RTD→VNf_\epsilon: \mathbb{R}^{TD} \to V^N$ 是一个映射函数，

使得对于所有 $\in \mathbb{R}^{TD}$ ，只要 $∥x−x′∥>ϵ\|x - x'\| > \epsilon$ ，就有 $fϵ(x)≠fϵ(x′)f_\epsilon(x) \neq f_\epsilon(x')$ 。

解释

如果你有一系列连续的传感器读数或数据点，无论你希望区分两个序列之间多么微小的差异，你总是可以构造出一种语言系统（即一套词语或符号体系），能够唯一地表示这些序列。

证明概要

我们将证明其逆否命题成立：
如果 $fϵ(x)=fϵ(x′)f_\epsilon(x) = f_\epsilon(x')$ ，则必有 $∥x−x′∥≤ϵ\|x - x'\| \leq \epsilon$ 。

我们提出两种扩展离散编码的方式：

情形1（学习更大的模态tokenizer）：保持编码长度为常数 $ T $，将词汇量扩大至
$Mϵ=⌈TD⋅K~⋅ϵ−1⌉DM_\epsilon = \lceil \sqrt{TD} \cdot \tilde{K} \cdot \epsilon^{-1} \rceil^D$ （即“向上扩展”）。
情形2（寻找更长的语言表达）：保持词汇量为常数 $ M $，将最大句子长度增加到
$Nϵ=TD⋅⌈log⁡M(TD⋅K~⋅ϵ−1)⌉N_\epsilon = TD \cdot \lceil \log_M (\sqrt{TD} \cdot \tilde{K} \cdot \epsilon^{-1}) \rceil$ （即“向外扩展”）。

详细证明见附录A。如证明所示，使用基于词汇的离散token是可以实现完备表示的。但如何扩展这种表示方式至关重要（见图5右）。

在情形1中，词汇量必须以 $O((TD)^D)$ 的速度增长，即随输入规模呈指数级增长，这在实践中难以持续。
而在情形2中，只需将序列长度以 $\log TD)$ 的速度增长，这种扩展方式更加可控。

因此，理论上讲，通过扩展token序列（例如通过增强的LLM，结合视觉token生成器和词汇合并/切换机制），是一种更为灵活且高效的方式来捕捉数据中的复杂结构。在实际应用中，模型也可以通过动态调整词典大小来高效表示复杂输入，并通过观察更多新样本不断扩展词汇量，从而描述新的输入内容。

总结

鉴于离散与连续的潜在表示分别提供了互补的抽象层次、表达能力和可操作性，我们主张采用混合表示的方法：

使用离散token来进行更稳健、可解释、具有符号意义的推理；
同时保留连续嵌入用于捕捉细微的感官差异。

虽然这种表示方式仍处于早期阶段，但已有研究表明它在世界建模的泛化能力[48]及其他形式的推理任务（例如[26]）中展现出巨大潜力。

4.3 架构：自回归生成不是敌人

抛弃自回归、生成式模型；采用联合嵌入预测架构（JEPA），以避免token生成误差的指数级累积，并吸收信号变异性。

JEPA 的支持者提倡一种非自回归、非生成式的编码器-编码器框架，直接预测下一个潜在状态，绕过重建原始观测的需求。然而，正如我们在本节中所讨论的那样，这种框架的架构本质上仍然是自回归和生成式的。

形式上，JEPA 定义了两个核心函数（见图6左）：

$s^=h(o),s^′=f(s^,a)\hat{s} = h(o), \quad \hat{s}' = f(\hat{s}, a)$

其中 $ h $ 是从观测到潜在状态的编码器，$ f $ 是世界模型，根据当前状态和动作预测下一个潜在状态。这两个操作符的递归应用定义了一个潜在状态转移模型，它在功能上是自回归且生成式的，即使它在符号层面没有显式地使用概率解码器来生成可与真实下一观测数据比较的内容。（这并不意味着这样的比较被完全避免，事实上，在输出端使用的第二个编码器仍然间接进行了比较，但正如我们在下一节将讨论的那样，这种方式在数学控制性方面较差。）

更准确地说，JEPA 可以被视为指定了一个退化的条件分布，非正式地表示如下：

$pf(s^′∣s^,a)=δ(s^′−f(s^,a)),p_f(\hat{s}' | \hat{s}, a) = \delta(\hat{s}' - f(\hat{s}, a)),$

其中 $ \delta(\cdot) $ 是位于确定性预测处的狄拉克δ函数。因此，JEPA 在概率意义上不是生成式的（即它不建模不确定性或从结果分布中采样），但在函数意义上它是生成式的——通过递归模拟潜在状态随时间的演变过程。因此，它也面临与自回归模型相同的问题。

但这并不是说自回归模型本质上就因为误差积累而存在缺陷。许多现实世界系统（例如三体问题、流体动力学或金融市场）本质上是混沌的，微小偏差会随时间呈指数增长 [29]。在这种情况下，无论模型类别如何，精确预测都是不可能的。然而，结构良好的自回归模型（例如用于连续情况的卡尔曼滤波器和用于离散情况的隐马尔可夫模型 HMM）仍然可以学习系统的有用抽象属性（例如水是否会溢出、价格走势方向），这些属性往往出人意料地稳定和可预测——这一洞见源自遍历理论和统计力学 [27]。

对于传统的编码器-解码器架构（其额外定义了一个函数 $ o’ = g(\hat{s}') $，其中 $ g $ 是从潜在状态还原为观测的解码器），人们常有的担忧是，它们可能迫使模型重建那些本质上不可预测或对任务表现无关紧要的环境部分。常见例子包括细粒度视觉细节、无关事件或场景外内容，这些可能会误导模型学习不稳定或虚假的相关性。

因此，仅使用编码器的架构的支持者认为，通过省略重建步骤，所得的世界模型可以更有选择地专注于可预测且与任务相关的内容。虽然这种动机是可以理解的，但目前尚不清楚去除解码器是否是有效的解决方案。在 JEPA 这类架构中，监督仅发生在潜在空间而非观测空间，这意味着用“不可定义性”换取了“像素级变异性”的挑战：预测的潜在状态并未直接基于可观测数据，这使得诊断模型是否学习到了有意义的动力学特征，还是陷入了平凡解变得困难，我们将在 §4.4 中对此进行更正式的讨论。

实际上，面对数据信号变异性的下一状态预测性能下降，可能更多源于连续嵌入本身的使用——它将大量信息压缩到一个固定维度的有限子空间中（参见 §4.2）。此外，通常用于下一潜在状态预测的能量型损失函数也可能带来额外的不稳定性，这类函数通常需要基于启发式的正则化项，其行为难以理解和控制。再者，信号变异性问题可能在视觉相关领域尤为突出，而许多下游推理任务（例如自动驾驶）并不一定要求对视觉世界的像素级精确模拟。

因此，与其为了回避信号变异性而放弃生成建模，不如采用一种替代且已被验证的方法：通过我们称为“生成式潜在预测”（Generative Latent Prediction, GLP）的架构实现分层抽象（见图6右）。
JEPA和GLP

GLP 并不在单一细节层次上建模整个世界，而是将问题分解为多个潜在状态预测层，每一层专精于不同的表示粒度，无论是连续感知特征还是离散概念token。这样可以让每一层在其合适的抽象层次上运作，同时保持生成性和预测性。例如：

最底层：下一嵌入预测器（如潜在扩散模型）可以处理原始连续感知数据（如像素、音频、本体感觉）中的随机性和细粒度变化。这些模型包含生成机制（如编码器-解码器架构），其预测直接基于可观测数据，从而提供更强的监督信号，正如我们在 §4.4 中所示。
中间层：下一 token 预测器（如自回归 Transformer 解码器）可以在通过 VQ-VAE 类编码器获得的离散模态 token 上进行推理，捕捉符号性和组合性结构。
最高层：一个运行在由语言 token 组成的“思维空间”中的大语言模型（LLM），可以支持长视野规划、心智模拟和反事实推理。结合中间层，这两层离散推理可以通过增强版 LLM 架构共同实现下一 token 预测。

GLP 范式不仅通过下一潜在状态预测支持结构化、抽象化的推理，还保留了对输入世界的详细重建能力，从而实现生成式监督和外部使用。这不仅通过将低层变异性隔离在底部的编码器-解码器层中，缓解了预测误差的累积问题，还在更高抽象层次上实现了更具表达力的推理和泛化能力。更重要的是，它允许模型灵活地混合使用连续嵌入来捕捉感知细微差别，以及离散 token 来表示抽象结构——这与我们在 §4.2 中关于表示方式的讨论是一致的。

正如我们在 §4.4 中进一步阐述的那样，这种“编码器-世界模型-解码器”的设计相比 JEPA 等仅使用编码器的方法，能够带来更强的监督信号和更稳定的训练动态。

4.4 目标函数：在数据空间中学习，还是在潜在空间中学习？

摒弃基于概率的数据重建目标；采用基于能量的潜在空间重建目标以提高可操作性。

JEPA 框架背后的一个关键主张是：重建原始观测（例如视频中的像素）是不必要的，而在潜在空间中进行学习更有效。这导致了对“潜在空间重建目标”的偏好——这种目标绕过了解码器，直接监督编码状态之间的转换。

形式上，给定编码器 $h$ 和世界模型 $f$ ，潜在空间重建损失定义如下：

$Llatent(h,f)=E(o,a,o′)∼D[∥f(h(o),a)−h(o′)∥],(7)\mathcal{L}_{\text{latent}}(h, f) = \mathbb{E}_{(o,a,o') \sim \mathcal{D}} \left[ \| f(h(o), a) - h(o') \| \right], \tag{7}$

其中模型预测下一个潜在状态 $ \hat{s}’ $，并将其与下一观测 $ o’ $ 的编码形式进行比较，而不重建观测本身 $ o’ $。

尽管这一目标函数表面上看起来简洁，但它容易出现表示崩溃（collapse），正如我们在 命题1（Proposition 1） 中所展示的那样：
模型可以通过将所有观测映射为一个常量向量，并学习一个不变的状态转移函数，来轻易地最小化损失。为了对抗这种倾向，JEPA 类系统通常需要引入复杂的正则化项（例如最大化潜在状态的信息量 $ I(\hat{s}) $）。然而，这些正则化项往往难以调节且不易理解，这使得训练过程变得脆弱，并限制了系统的可扩展性。

相比之下，生成式重建损失通过引入解码器 $ g $，将学习目标锚定在可观测数据上，并直接监督预测的下一观测，如下所示：

$Lgen(h,f,g)=E(o,a,o′)∼D[∥g∘f(h(o),a)−o′∥].(8)\mathcal{L}_{\text{gen}}(h,f,g) = \mathbb{E}_{(o,a,o') \sim \mathcal{D}} \left[ \| g \circ f(h(o), a) - o' \| \right]. \tag{8}$

事实上，生成式损失 $Lgen\mathcal{L}_{\text{gen}}$ 将学习到的表示与感官世界的结构联系起来，从而避免了潜在损失 $Llatent\mathcal{L}_{\text{latent}}$ 所面临的崩溃问题，正如我们在 命题2（Proposition 2） 中所证明的那样。

基于潜在空间重建和基于替换生成数据重建目标的比较

命题1（潜在重建损失的崩溃）

给定：观测空间 $O$ 、潜在空间 $S$ 和动作空间 $\subseteq \mathbb{R}^d$ ，以及函数 $\to S$ （编码器）， $\times A \to S$ （世界模型），和潜在重建损失：

$Llatent(h,f)=E(o,a,o′)∼D[∥f(h(o),a)−h(o′)∥]\mathcal{L}_{\text{latent}}(h, f) = \mathbb{E}_{(o,a,o') \sim \mathcal{D}} \left[ \| f(h(o), a) - h(o') \| \right]$

存在： $h^*, f^*)$ 和 $\in S$ ，使得对于所有 $\in O$ 有 $h^*(o) = c$ ，且对于所有 $\in A$ 有 $f^*(c, a) = c$ ，满足：

$Llatent(h∗,f∗)=min⁡h,fLlatent(h,f)\mathcal{L}_{\text{latent}}(h^*, f^*) = \min_{h,f} \mathcal{L}_{\text{latent}}(h,f)$

解释：如果你有一个编码器和一个世界模型，并使用潜在重建损失进行训练，则模型有一种作弊配置可以最小化损失而不学习任何关于真实动态的信息。

证明概要：如果我们构造这样一个退化解 $h^*, f^*)$ ，这个解满足 $Llatent(h∗,f∗)=0\mathcal{L}_{\text{latent}}(h^*, f^*) = 0$ ，这是一个全局最小值，因为对于所有的 $(h, f)$ 都有 $Llatent(h,f)≥0\mathcal{L}_{\text{latent}}(h,f) \geq 0$ 。

命题2（生成式损失不会崩溃）

给定：函数 $\to S$ （编码器）， $\times A \to S$ （世界模型）， $\to O$ （解码器），和生成式损失：

$Lgen(h,f,g)=E(o,a,o′)∼D[∥g∘f(h(o),a)−o′∥]\mathcal{L}_{\text{gen}}(h,f,g) = \mathbb{E}_{(o,a,o') \sim \mathcal{D}} \left[ \| g \circ f(h(o), a) - o' \| \right]$

假设： $∃(o1,a1,o2),(o3,a3,o4)∈D\exists (o_1, a_1, o_2), (o_3, a_3, o_4) \in \mathcal{D}$ 使得 $o_2 = o_4$ ，则给定 $(h^{'}, f^{'})$ 和固定的 $g^{'}$ 及 $\in S$ ，使得对于所有 $\in O$ 有 $h^{'} (o) = c$ ，且对于所有 $\in A$ 有 $f^{'} (c, a) = c$ ，存在 $(h~,f~)(\tilde{h}, \tilde{f})$ 使得：

$Lgen(h~,f~,g′)<Lgen(h′,f′,g′)\mathcal{L}_{\text{gen}}(\tilde{h}, \tilde{f}, g') < \mathcal{L}_{\text{gen}}(h', f', g')$

解释：如果你在模型中添加一个解码器并使用生成式损失进行训练，并假设数据包含不同的下一观测目标，则总存在另一组编码器和世界模型，其损失低于之前的作弊配置。

证明概要：给定退化解 $(h^{'}, f^{'})$ 和固定的 $g^{'}$ ，构造 $(h~,f~)(\tilde{h}, \tilde{f})$ 在每个点上等于 $(h^{'}, f^{'})$ ，除了 $o_1, a_1, o_2)$ 和 $o_3, a_3, o_4)$ 这两个点，其中 $o_2 = o_4$ 。在这种情况下，常量值 $(h^{'}, f^{'})$ 将获得非零损失。相反，设置 $(h~,f~)(\tilde{h}, \tilde{f})$ 完美匹配这两个目标，使其获得零损失。因此我们有：

$Lgen(h~,f~,g′)<Lgen(h′,f′,g′)\mathcal{L}_{\text{gen}}(\tilde{h}, \tilde{f}, g') < \mathcal{L}_{\text{gen}}(h', f', g')$

通过这种方式，我们可以确保生成式损失能够避免因模型选择恒定映射而引起的崩溃问题，从而更好地捕捉数据的真实结构。这种设计不仅增强了模型的学习能力，还提高了训练过程的稳定性和可扩展性。

两个命题的证明细节分别见附录 B 和 C。

除了“表示崩溃”问题之外，潜在重建目标还有一个更根本的结构性局限：它本质上只是观测层级一致性的一个宽松代理（loose surrogate），正如我们在 定理2 中所展示的那样。这意味着，最小化 $Llatent\mathcal{L}_{\text{latent}}$ 并不能保证模型与智能体在现实中观察到的内容一致，这可能导致表示不一致或不稳定。我们认为，在通用场景中，通过生成式损失以下一观测 $o^{'}$ 作为锚点，能够提供一个更加稳定且机制上可解释的训练信号。

潜在损失小于生成损失

定理 2（潜在重建是生成式重建的一个上界代理）

假设我们有一个足够强大的编码器 $ h: \mathcal{O} \to \mathcal{S} $ 和解码器 $ g: \mathcal{S} \to \mathcal{O} $，使得对于所有潜在状态 $s^∈S\hat{s} \in \mathcal{S}$ ，满足往返重建误差：

$∥h∘g(s^)−s^∥≤ϵ,\| h \circ g(\hat{s}) - \hat{s} \| \leq \epsilon,$

其中 $ϵ>0\epsilon > 0$ 是一个小量。

再给定世界模型 $ f: \mathcal{S} \times \mathcal{A} \to \mathcal{S} $ 和转移数据 $\sim \mathcal{D}$ ，定义如下两种损失函数：

潜在空间损失：
$Llatent=∥f(h(o),a)−h(o′)∥\mathcal{L}_{\text{latent}} = \| f(h(o), a) - h(o') \|$
生成式损失：
$Lgen=∥g∘f(h(o),a)−o′∥\mathcal{L}_{\text{gen}} = \| g \circ f(h(o), a) - o' \|$

进一步假设编码器 $h$ 、解码器 $g$ 和世界模型 $f$ 引导出以下条件分布：

$s^∣o∼N(h(o),I)\hat{s} | o \sim \mathcal{N}(h(o), I)$ ，
$o^∣s^∼N(g(s^),I)\hat{o} | \hat{s} \sim \mathcal{N}(g(\hat{s}), I)$ ，
$s^′∣s^,a∼N(f(s^,a),I)\hat{s}' | \hat{s}, a \sim \mathcal{N}(f(\hat{s}, a), I)$ ，

那么有如下不等式成立：

$Llatent≤Lgen+ϵ,\mathcal{L}_{\text{latent}} \leq \mathcal{L}_{\text{gen}} + \epsilon,$

当且仅当对所有 $s^∈S\hat{s} \in \mathcal{S}$ 有 $ h \circ g(\hat{s}) = \hat{s} $，并且 $\text{supp}(\mathcal{D}) \subseteq \text{Im}(g) $ 时， $Llatent=Lgen\mathcal{L}_{\text{latent}} = \mathcal{L}_{\text{gen}}$ 。

解释

如果你的编码器和解码器近似互为逆操作，那么 JEPA 的潜在重建损失就被生成式损失加上一个小的重建误差所上界限制。只有当编码器-解码器完全互为逆操作时，这两个损失才相等——这在实践中并不现实。

因此，最小化潜在损失并不能保证与观测数据的一致性，而这种一致性正是最小化生成式损失所需要的（如图8所示）。

证明概要

观察到两个损失 $Llatent\mathcal{L}_{\text{latent}}$ 和 $Lgen\mathcal{L}_{\text{gen}}$ 分别是潜在空间和观测空间中高斯预测分布的缩放 KL 散度。

将编码器 $h$ 应用于 $Lgen\mathcal{L}_{\text{gen}}$ 中的观测预测和真实观测分布上，根据数据处理不等式（data processing inequality），增强后的 KL 散度被原始的 $Lgen\mathcal{L}_{\text{gen}}$ 所上界限制。

然后应用三角不等式（triangle inequality），可以证明 $Llatent\mathcal{L}_{\text{latent}}$ 被这个增强 KL（由 $Lgen\mathcal{L}_{\text{gen}}$ 上界限制）和往返重建误差（由 $ϵ\epsilon$ 上界限制）之和所上界限制，从而完成证明。

（详细证明见附录 D。）

两种世界模型的使用对比

实践中的意义

在实际中， $ϵ\epsilon$ 通常很小（现代自编码器往往具有良好的重建能力），所以通常有：

$Llatent≤Lgen\mathcal{L}_{\text{latent}} \leq \mathcal{L}_{\text{gen}}$

这意味着潜在损失可能忽略一些语义上重要的错误，而生成式损失会对这些错误进行惩罚。

此外，使用 Llatent 作为目标函数时，通常还需引入一些理解不够充分的正则化项，这使得其结果在没有观测数据提供的必要边界条件下变得更加难以评估。

结论

我们的观点并不是说世界模型必须在像素空间中运行，而是它们应该从像素空间中学习。

将“下一潜在表示预测”与“下一下观测预测”对立起来是一种虚假的二分法（false dichotomy），这会导致理论上的模糊性和实践中的不稳定性。

预测下一观测的目的在于确保预测的潜在表示在现实世界中具有意义，无论是概念层面还是物理层面。

相反，潜在空间中的可靠预测依赖于通过可观测数据的持续验证。

数学上，任何对现实世界信号的潜在表示都内在地面临可识别性和稳定性的问题。因此，与真实数据的对齐和校准对于确保表示的意义性和鲁棒性至关重要。

生成式重建目标将学到的表示锚定在可观测世界中，提供了更丰富、更稳定的训练信号，支持有意义的区分、广泛的可用性以及人类的可解释性。这些特性对于下游任务至关重要，无论是在轨迹规划中，还是在强化学习中训练智能体（详见 §4.5）。

4.5 使用方式：MPC 还是 RL？

放弃强化学习（RL）；采用模型预测控制（MPC），以减少训练所需的试验次数。

除了世界模型的训练之外，还有一个持续存在的争论是：在使用世界模型进行推理时，是否应该优先选择模型预测控制（MPC） 而不是 强化学习（RL），这主要是出于样本效率和安全性的优势 [13]。

下面我们描述一个典型的 MPC 设置（图9，左），这也是近年来许多工作 [35, 3] 所采用的方式：

在推理的时间步 $t$ ，智能体推断其当前的潜在状态 $s^t=h(ot)\hat{s}_t = h(o_t)$ ；
然后提出一个初始动作序列 $a_t, ..., a_{T−1})$ ，直到某个决策视野 $T$ ；
并使用世界模型来预测相应的下一状态序列 $(s^t+1,...,s^T)(\hat{s}_{t+1}, ..., \hat{s}_T)$ ；
这些模拟的状态可以通过一个目标函数 $C(g,s^)C(g, \hat{s})$ 来评估（例如， $s^\hat{s}$ 和编码后的目标 $s^g=h(g)\hat{s}_g = h(g)$ 之间的 L2 距离）；
基于这些评估结果，智能体可以提出下一个成本更低的动作。

因此，决策过程就转化为寻找使成本函数最小的动作序列的问题，形式化如下：

$(at∗,…,aT−1∗)=arg⁡min⁡at,…,aT−1∑k=tT−1C(g,f(s^k,ak))(a^*_t, \ldots, a^*_{T−1}) = \arg\min_{a_t,\ldots,a_{T−1}} \sum_{k=t}^{T−1} C(g,f(\hat{s}_k,a_k))$

在实践中，这种（连续）动作优化通常使用传统的数值算法完成（如 MPPI [46] 和 CEM [31]），涉及 1–20 步的决策视野，以及成百上千次的动作采样；然后智能体会执行最终动作序列中的第一个动作 $a^*_t$ ，并在下一步 $t + 1$ 重新规划。

MPC 的吸引力在于它可以从离线轨迹 $(o1,a1,…,oT)∼D(o_1, a_1, \ldots, o_T) \sim D$ 中学习，而无需在现实世界中进行可能不安全的探索，并且有望通过基于世界模型的仿真实现更高质量的决策。

然而，MPC 也可能面临实际限制。例如，使用世界模型对潜在轨迹进行仿真必须在推理过程中每个时间步重复执行，导致高计算开销，使其难以在快速变化的环境中有效响应。

除了计算效率外，MPC 通常只规划少数几步（例如最多 10–20 步）的搜索视野。这限制了它的远见能力，因为较长的规划视野（例如数百步）由于轨迹数量爆炸增长和世界模型误差累积而变得困难。随着视野的增加，MPC 实现和优化也变得更加困难，因为提案分布必须一次性在整个规划视野内对整个动作序列进行采样。这就是为什么 MPC 通常依赖相对简单的提案分布，例如均匀随机采样或多变量高斯分布。

事实上，到目前为止，MPC 主要在简化设置中显示出前景（例如围棋），其中环境动态简单、慢节奏决策受到奖励，但在现实任务（例如客户服务）中表现不佳，这些任务通常涉及复杂的动态，并需要结合短期和长期决策。

另一方面，RL 是一种通用、灵活且可扩展的方法，用于训练智能体，不受决策方法或搜索视野的限制。特别是，我们可以用世界模型 $f$ 替代真实宇宙来进行探索和学习（参见 §2.2）。下面描述一个 RL 设置（图9，右），其中智能体与世界模型交互而非真实环境 [17]：

在每一个时间步 $t$ ，智能体拥有世界状态表示 $s^t\hat{s}_t$ （可能是从某些观测数据 $o_t$ 编码而来，或者完全从零开始想象出来）；
智能体采取动作 $at∼pπ(at∣s^t)a_t \sim p_\pi(a_t | \hat{s}_t)$ ；
世界模型 $f$ 模拟下一状态 $s^t+1∼pf(s^t+1∣s^t,at)\hat{s}_{t+1} \sim p_f(\hat{s}_{t+1} | \hat{s}_t, a_t)$ ；
这个过程可以一直重复到某个 rollout 视野 $T$ 或无限延续下去。

在每一步根据目标 $g$ 计算奖励 $r(g,s^t)r(g, \hat{s}_t)$ ，最优智能体 $πf∗\pi^*_f$ 可以通过最大化预期折扣累计奖励来学习（使用良好设计的折扣调度 ${γk}k=t∞\{\gamma_k\}_{k=t}^\infty$ 以确保数值稳定性），定义如下：

$KaTeX parse error: Expected 'EOF', got '}' at position 318: …\hat{s}_i,a_i)}}̲ \left[ \sum_{k…$

从操作上来看，正如我们上面所展示的那样，MPC 和 RL 都可以使用世界模型，前者仅用于决策，后者还用于学习。我们将后者视为更广泛范式的一部分：“从经验中学习” [20]。

在这个框架中，智能体模型不断与由世界模型模拟的无限想象世界进行交互并从中学习。无数假想的轨迹可以被用来通过 RL、模仿学习或其他学习信号来训练智能体，充分利用所有经验。这些更新可以完全离线进行，使用来自世界模型的 rollout 批次，而不需要与真实环境交互。

与 MPC 在决策阶段计算昂贵相比，使用世界模型的 RL（如公式 9 所示）将部分计算成本转移到了训练阶段。与其每次都在每一步从头开始规划，不如离线使用世界模型训练一个策略网络，之后可以在每个状态下快速选择动作。

关键在于，RL 和 MPC 以及世界模型都可以作为智能体模型内部的组件，既负责深思熟虑的规划，也负责反应性行动；同时还可以有一个快速策略，在需要时迅速做出反应。像最近的工作 o1、o3 和 R1 [16] 可以看作是一种数学和编程上的特例，其中无模型策略方法实现了快速反应行为，而我们的观点是推广这一模式：

智能体应当既能对其模拟的世界进行推理，又能从中学习，从而实现灵活的决策、持续改进，并让智能随着经验的积累自然涌现。

总结

如上所述，与 MPC 不同，RL 可以学习一个反映长期累计奖励的策略函数，使得在更长时间范围内进行更具战略性的推理成为可能。这使得 RL 更适用于诸如目标导向的机器人操作、多轮对话系统或自动驾驶等实际应用场景。
PAN-世界框架图

5 PAN 世界模型

基于对现有世界模型（World Model, WM）框架的批判性分析，我们总结出一个通用世界模型的设计原则：

使用来自所有经验模态的数据；
采用混合连续与离散表示；
采用分层生成模型范式：包括扩展LLM主干网络（用于基于概念的离散推理），以及生成式嵌入预测模块（用于基于梯度的连续推理）作为推理引擎；
基于观测数据的生成损失进行训练；
利用世界模型模拟经验以通过强化学习训练智能体。

在本节中，我们将简要介绍一种基于上述设计原则的新架构——PAN（Physical, Agentic, and Nested）世界模型。关于 PAN 的详细内容和初步实验结果将在 [19] 中展示。

5.1 一个具有启发性的用例

一个真正多功能且可泛化的世界模型必须植根于能够反映现实世界推理复杂性的任务中。这些任务应具备以下特征：

多模态数据变化（如语言、视觉、感官输入）；
时空范围广泛（从房间内的一秒到国家范围内的数天）；
动作粒度多样（如精细运动控制、身体移动、表达性手势）；
决策层级丰富（从即时行动、战术到长期战略）。

然而，许多现有的世界模型仅在简化、玩具式的任务上验证（如操作厨房工具）或简单场景中（如三维世界的几秒到几分钟视频），这些设定远不足以体现真实世界中智能体的经验复杂性。

因此，围绕这些任务设计的世界模型难以扩展到现实应用所需的复杂程度。例如，一个仅能支持厨房工具操作的世界模型，无法胜任餐厅端到端用餐服务的规划与执行。

相比之下，PAN 的设计灵感来源于一个更复杂、更现实的用例：登山探险。

在这个场景中，世界模型必须整合多模态感知输入，并为一项结构化、要求高的任务模拟未来世界状态。这个任务自然分解为多个不同层次的子任务：

高层决策：装备选择、路线与路段规划、导航、天气评估、节奏控制等；
低级动作：攀爬、系绳、根据地形和表面状况进行精确的运动控制；
社交协作：通过语言和非语言交流与队友协调。

登山者的感官体验不仅包括视觉和听觉（如雪地、悬崖、前方伙伴的呼喊），还包括触觉和运动信号（如风、寒冷、肌肉紧张）。驱动有目的推理的可操作世界状态（如地形可行性、团队动态、潜在风险）存在于这些感知之下的多个抽象层级。

因此，PAN 首先接收这种连续的多模态信号流：包括视觉、声音、温度、运动，甚至疼痛等输入，它们各自可能适用于不同的任务，但共同构成了一个完整的现实体验。

5.2 PAN 架构

遵循“混合表示”和“多尺度推理”的设计原则，PAN 使用其 Sensory Encoder（h）处理多模态感知输入 o，该编码器通过离散和连续两种路径来捕捉世界的不同方面。

一方面（图10），一个 tokenizer 分层地将原始信号映射为基于 PAN 词汇表的离散 token。这些 token 可以是通过 VQ-VAE 类似方法[39]学习到的抽象 token，也可以是来自自然语言的具体词语。

这种表示可以包含灵活数量的 token，以紧凑地反映深层的世界信息：

我在哪里？
谁和我在一起？
我有哪些工具？
我的情绪状态如何？

正如第4.2节所讨论的，即使对于视频这样的连续数据，这种表示形式也能有效捕捉相关信息。

另一方面（图6右侧），PAN 还可以将低级细节编码为连续的潜在嵌入，以完整捕捉细微的感知体验。这些 token 和嵌入共同构成了一个分层的世界状态估计 $s^={s^i}i=1N\hat{s} = \{\hat{s}_i\}_{i=1}^N$ ，PAN 在此基础上进行模拟和有目的的推理。

给定一个提议的动作 $a$ （例如：“把锁扣扣在我的安全带上”），PAN 使用基于增强 LLM 和扩散模型的下一潜在嵌入预测器构建的 World Model Backbone（f）来预测下一个世界状态 $s^′\hat{s}'$ （例如，“我已安全固定”这一概念状态，或“那条绳子正在收紧”这一物理状态）。

这一设计是对第4.3节中介绍的 GLP 架构的具体实现（见图10）。基于 LLM 的主干网络可以在自然语言 token 和学习到的概念词汇之间进行推理——有些是显式的（如冰镐的特定形状），有些则是隐式或涌现出来的（如分享知识时产生的感受），从而支持跨领域的广泛泛化[12]。

在训练和推理过程中，模型还可以通过引入新 token 或合并已有 token 来动态扩展其词汇表，以最大化预测质量。

同时，基于扩散的嵌入预测器负责快速、低级、通常是潜意识层面的推理，这些推理对具身响应至关重要，却难以用语言表达。例如，判断某个落脚点是否稳固，或在攀登过程中身体重心的变化[48]。

一个Learned Switch机制允许 PAN 根据任务需求，自适应地结合 LLM 主干、多个词汇表和扩散模型嵌入预测器，分层预测下一个世界状态 ${s^i′}i=1N′\{\hat{s}'_i\}_{i=1}^{N'}$ 。

这些机制使 PAN-WM 能够跨越广泛的时空范围和动作粒度，满足通用可用性需求——从具体的物理场景（如登山和社交互动）到抽象的战略后果（如全国政策变化）。

为了监督其预测，并允许训练后的世界模型与外部智能体（或人类）交互，PAN 使用 Multimodal Decoder（g）重建下一个观测值 $o^′\hat{o}'$ ，并与实际观测值 $o^{'}$ 进行比较。

重要的是，解码器的输出不限于视频，而是包括完整的感官体验，可能包含声音、温度、运动、疼痛、其他具身信号，甚至文本。

正如第4.3和4.4节所述，这种生成式监督将预测的世界状态 $s^′\hat{s}'$ 置于感官现实中，确保表示保留了所有可能的信息，同时允许解码器 g 吸收残差变化。

这种方法与仅在潜在空间中进行监督的模型形成鲜明对比（如 V-JEPA 2 [3]），后者的目标最多只是生成目标的粗略代理，容易导致表示坍缩或不可识别问题，因为它们缺乏真实感官输入的基础支撑。

形式上，PAN 对给定当前观测 $o$ 和提议动作 $a$ 下一观测 $o^{'}$ 的条件分布建模如下：

$pPAN(o′∣o,a)=∑s^,s^′ph(s^∣o)(∏i=1Nph(s^i∣s^<i,o))⏟分层世界状态推断(∏j=1N′pf(s^j′∣s^<j′,s^,a))⏟Switch-based 下一状态预测pg(o′∣s^′)p_{\text{PAN}}(o' | o,a) = \sum_{\hat{s},\hat{s}'} p_h(\hat{s}|o) \underbrace{ \left( \prod_{i=1}^N p_h(\hat{s}_i|\hat{s}_{<i}, o) \right) }_{\text{分层世界状态推断}} \underbrace{ \left( \prod_{j=1}^{N'} p_f(\hat{s}'_j|\hat{s}'_{<j}, \hat{s}, a) \right) }_{\text{Switch-based 下一状态预测}} p_g(o'|\hat{s}')$

总结

综上所述，凭借其分层、多级、混合表示架构，以及贯穿感知输入 $o$ 、动作 $a$ 、信念 $s^i\hat{s}_i$ 、模拟信念 $s^i′\hat{s}'_i$ 和模拟世界 $o^{'}$ 的编码器-解码器流程，PAN 是一个用于模拟智能体可操作现实可能性的通用生成模型，我们将在第5.4节简要提及它的推理能力。

PAN 并没有回避原始感知输入的多样性，而是对其进行模块化和组织化，从而使每一层经验都能进行更丰富的内部模拟，进而实现更强的智能体推理与规划能力。

Pan世界模型的模拟推理的解释图

5.3 训练 PAN 世界模型

从登山任务的例子中可以明显看出，仅仅观看视频不足以学会完成最终目标所需的所有推理能力。这个目标可能需要数天时间、成千上万次动作和步骤，并建立在关于地理、气候、装备、运动甚至历史等丰富背景知识之上。

因此，PAN 世界模型的训练采用“分而治之”的策略：

首先独立预训练每个模块，通过自监督方式（如：LLM 针对文本数据，扩散模型针对视频数据）；
然后在后期训练阶段使用多模态数据、级联嵌入和梯度传播来对齐或整合这些模块。

对于操作连续嵌入的模块，可以使用标准的基于梯度的优化技术进行训练。
而对于使用离散 token 的组件，则可以从类似强化学习的无梯度方法中受益 [16]。

正如第4.4节所证明的那样，基于生成和数据重建的目标函数根植于观测数据，为整个系统提供了稳定可靠的学习信号。

PAN 架构的一个关键优势在于其数据效率，这得益于它对世界的多层次、分层视角。

以登山任务为例，在进行导航和路径规划时，世界状态不需要包含像素级别的雪地或岩石表面细节；而在决定攀爬过程中手脚落点时，又可以忽略地理上下文信息。

因此，模拟高度复杂可能性的世界模型并不需要依赖一次性捕捉所有复杂性的数据（例如全方位视觉覆盖登山全过程的视频），而是可以利用不同种类的数据提供不同层次的信息：

如旅行指南书用于路线和地图阅读；
室内视频用于岩壁攀登和装备使用。

毕竟，期望获得一个全面涵盖高山攀登各个方面的大规模视频语料库是不现实的。

许多通用能力（如社交推理、旅行计划、寒冷天气生存）都可以从丰富的语言数据中习得。
只有那些直接涉及身体动作的技能（如脚步放置、攀岩技巧）才需要视频或本体感觉等物理数据，这些数据可以在受控或模拟环境中获取。

事实上，PAN 的“先预训练再对齐/整合”策略使得感官信息（如来自视频扩散模型的信息）可以通过 LLM 被置于更高层次、更丰富的上下文中，从而促进跨模态泛化。

同时，LLM 中嵌入的抽象知识也可以与具体的具身经验相连接，提升系统推理的精确性和现实性 [49]。

结果是一个像人类一样，能从多样经验中获得常识理解的世界模型。它不需要为每个具体任务（如登山或自动驾驶）准备详尽的训练数据，而是能够从多个领域中提取概念知识。

我们认为，这种通用型世界模型非常适合用于智能体的决策模拟和/或训练，如下所述。

5.4 基于 PAN 的智能体推理

回想我们在第2节中描述的、使用世界模型进行模拟推理的智能体架构。PAN 很自然地契合这一范式，它不仅是一个视频生成器，更是一个用于模拟、实验和预见的丰富内部沙盒。

如图11所示，一个 PAN-Agent 在接收到目标提示并持续接收来自真实世界的感知流之后，应能够提出动作、计划（动作序列）或策略（考虑反事实情境的计划），这将涉及使用 PAN-WM 来预先计算并缓存一组多样化的可能世界状态、其中的可行动作及其模拟结果 [9]。

在决策时刻，智能体不必仅依赖昂贵的实时模拟，而是可以查阅这个缓存，并根据当前信念和预期奖励选择动作。

这种将模拟与动作选择分离的设计，使得智能体能够更加有意识、适应性更强、更具选择性地进行推理，避免了端到端 RL 中纯反应式策略的僵化性，也避免了 MPC 中不断前向 rollout 所带来的计算负担。

结果是一个更接近人类认知的智能体——它可以提前规划、应对不确定性，并以灵活且有远见的方式行动。

我们相信，这是迈向具备更丰富自主性的智能体的重要一步——不仅能进行模拟推理，还能有意图地在想象的未来中做出选择。这样的智能体最终可能达到人类智能所特有的适应性、韧性和自主性。

6 结论

我们探讨了通用世界模型的基础、争议以及实践中的挑战。

撰写这篇批判性分析的目的，是为了激发更多讨论和深入思考以下几个根本问题：

什么是世界模型？
世界模型的用途是什么？
如何构建一个具有实用性和通用性的世界模型？

我们认为：

世界模型不是为了生成视频或虚拟现实，而是为了模拟现实世界中的所有可能性；
这种模拟的结果也不是为了视觉愉悦，而是为了有目的的推理；
当前朝这个方向发展的范式和努力仍处于初级阶段。

我们期待未来的探索能真正实现一个既能推理又能学习、既具灵活性又富战略眼光的智能系统。

我们希望，通过对当前关于如何构建世界模型的一些主流思想进行批判性、但具有分析性和建设性的剖析，并提出我们自己的替代方案——PAN 架构，能够激发在更强有力的世界模型理论与实现方面的进一步发展。

我们所预览的 PAN 世界模型是一个旨在模拟所有可能世界、并支持智能体推理与规划的框架。通过结合多模态数据、分层表示、多层级生成建模以及基于观测的目标函数，PAN 支持跨物理与数字领域任务的长视野模拟与灵活决策。

展望未来，PAN 框架为多个有前景的研究方向打开了大门：

从单智能体模拟扩展到多智能体模拟（例如：企业行为、社会集体行为、公共卫生影响）；
拓展至不同时间尺度（例如：从毫秒到千年）；
提升各模态下的模拟保真度；
通过想象中的经验直接推动智能体学习。

随着世界模型日益成为推理、想象与行动的基础，我们相信像 PAN 这样的框架，凭借其对经验的根植性、多层次抽象能力以及实证可扩展性，为开发强大且通用的人工智能系统提供了一个极具吸引力的基础。

个人总结：
这篇论文的内容很丰富，从世界模型的灵感到具体应用的应该走的路线进行了一系列的理论和描述，并且分析了各种方式的存在的优缺点，特别是对MPC，RL以及本文提出 PAN 世界模型，这种范式的定义进一步为我们接下来的研究解释了可行性，我们的研究也将遵循我们的初心和这篇论文揭示的世界模型的一种角度的本质，去越走越深，越走越远。

查看全文

http://www.dtcms.com/a/279761.html