【论文阅读】理解世界还是预测未来?—— 世界模型全面综述
一项全面的调查系统地定义并分类了“世界模型”,依据其隐式表示(理解)和未来预测(模拟)的能力,分析了它们在自动驾驶、机器人和社交模拟等领域的应用,同时也概述了当前的局限性和未来的研究方向。
引言
“世界模型”的概念已成为人工智能领域最重要的范式之一,这得益于大型语言模型和 Sora 等视频生成系统的最新突破。从核心来看,世界模型代表了人工智能系统尝试理解和模拟世界基本动态的努力,是通往通用人工智能(AGI)的潜在途径。然而,该领域缺乏一个统一的框架来理解世界模型的构成以及不同方法之间的关系。
这项全面调查通过基于两种基本能力——构建隐式表示以理解世界机制的能力,以及预测未来状态以进行模拟和决策的能力——提出了一种系统化的世界模型分类方法,从而弥补了这一空白。这项研究由清华大学电子工程系的一个大型合作团队进行,综合了自动驾驶、机器人技术和社会模拟等各种应用领域的数百篇论文。
图 1:世界模型从框架系统理论(1974 年)到 Sora 和 UniSim 等现代应用的演变,展示了其在隐式表示和未来预测方面的双重分类,以及在机器人技术、社会模拟和自动驾驶中的关键应用。
通过双重功能定义世界模型
该调查将世界模型定义为旨在“理解世界动态并确定性(或在一定保证下)计算下一状态”的系统。这个总体目标被分解为两个相互关联但又独立的功能,构成了本文的分析框架。
第一个功能是外部世界的隐式表示,侧重于模型如何通过潜在变量和学习到的表示来内化环境机制。这包括传统的基于模型的强化学习方法,其中准确的转换动态支持策略优化,以及大型语言模型作为世界理解强大骨干的出现。这些模型展示了跨越空间、时间、物理和社会动态的卓越“世界知识”。
第二个功能是物理世界的未来预测,强调生成动态未来状态的能力。最近的视频生成模型(如 Sora)就是其例证,这些模型可以生成在时间上一致且似乎遵循物理原理的视觉序列。该调查追溯了从基本视频生成到能够准确模拟物理和空间交互的交互式、具身模拟的演变。
图 2:基于模型的强化学习(左)与基于语言模型的系统(右)中决策方法的比较,说明了世界模型如何充当环境理解和策略执行之间的桥梁。
用于世界理解的隐式表示
该调查对隐式表示的分析揭示了世界模型如何通过构建环境动态的内部模型来促进知情决策。在基于模型的强化学习中,这涉及到学习将状态和动作映射到后续状态的准确转换函数,通常使用自编码器进行状态表示以及 DreamerV3 等潜在动态模型。
一个特别重要的发展是大型语言模型作为世界模型骨干的出现。这些系统在编码各种形式的世界知识方面表现出卓越的能力,从常识推理到复杂的物理和社会理解。该调查将这些知识分为四个关键领域:
$$
\text{World Knowledge} = \{K_{\text{common}}, K_{\text{global}}, K_{\text{local}}, K_{\text{social}}\}
$$
其中 $$K_{\text{common}}$$ 代表一般常识,$$K_{\text{global}}$$包含对全球物理世界的理解,$$K_{\text{local}}$$ 涵盖本地环境知识(如认知地图),以及 $$K_{\text{social}}$$ 包括人类社会知识(如心智理论能力)。
图3:模型学习到的世界知识分类,涵盖从常识和一般知识到对全球物理世界、本地物理环境和人类社会动态的特定理解。
通过生成模拟进行未来预测
生成式AI,特别是视频生成模型的进展,极大地增强了世界模型的预测能力。该调查审视了Sora等系统如何充当“世界模拟器”,能够生成高质量、时间一致且似乎遵循物理定律的视频序列。
然而,分析揭示了当前方法的关键局限性。尽管这些模型擅长生成视觉上引人注目的内容,但它们在持续遵循物理原理和因果推理方面往往力不从心。该调查发现了一种趋势,即发展更复杂的具身环境,这些环境结合了空间和物理交互,超越了纯粹的视觉生成,以创建交互式模拟。
这些预测模型的数学基础通常涉及学习一个映射函数:
$$
f_{\theta}: (s_t, a_t) \rightarrow s_{t+1}
$$
其中 $$s_t$$ 代表当前状态,$$a_t$$ 是一个动作,而 $$s_{t+1}$$ 是预测的未来状态。更复杂的模型通过概率公式纳入不确定性:
$$
p_{\theta}(s_{t+1} | s_t, a_t) = \mathcal{N}(\mu_{\theta}(s_t, a_t), \Sigma_{\theta}(s_t, a_t))
$$
图4:世界模型作为具身环境的分类,范围从静态室内环境(AI2-THOR,iGibson)到室外模拟(MetUrban,UrbanWorld),再到随时间演变的动态环境(UniSim,Streetscapes)。
跨关键领域的应用
该调查展示了双重功能框架如何应用于三个主要应用领域,每个领域都有独特的要求和侧重点。
自动驾驶或许是最具挑战性的应用,它需要复杂的场景理解和精确的未来预测。该领域的世界模型必须处理多模态传感器数据(摄像头、激光雷达、高清地图),以构建全面的环境表示,同时生成逼真的交通场景以供规划和控制。
图5:用于自动驾驶的世界模型架构,展示了感知模型、世界模型以及用于场景理解和世界模拟的下游应用的整合。
机器人应用利用世界模型使机器人能够学习物体和3D空间的隐式表示,同时预测未来环境状态以进行主动规划。一个关键挑战是通过从模拟或人类视频数据中学习可泛化的动态来弥合“模拟到现实”的差距,从而减少对大量真实世界训练的依赖。
图6:2021年至2024年机器人领域世界模型的演变,展示了从CoSTAR等早期系统到DayDreamer、SWIM以及GR-1和GR-2等近期发展的更复杂方法的进展。
社会模拟代表了一种新兴的应用,其中由LLM驱动的智能体构建人类社会的隐含世界模型。这些系统利用心智理论能力、记忆和认知来模拟虚拟环境中真实的社会互动和涌现的集体行为。
图7:社会模拟的世界模型架构,说明了基于LLM的智能体如何通过信念、记忆和认知机制与环境及彼此互动。
挑战与未来方向
尽管取得了显著进展,本调查仍指出了世界模型要充分发挥其潜力必须解决的几个关键挑战。
物理规则和反事实模拟仍然是一个根本性的限制。当前数据驱动的方法难以学习稳健的物理定律并泛化到分布外场景。本调查建议将显式物理与生成模型相结合的混合方法作为有前途的方向。
模拟效率带来了实际限制,因为大型生成模型,特别是其自回归性质,的计算需求限制了实时模拟能力。随着应用需要越来越复杂和详细的世界表示,这一挑战变得更加严峻。
伦理和安全问题随着世界模型变得更加强大和普及而出现。问题包括来自大规模训练数据集的数据隐私、潜在的不安全场景模拟,以及AI生成内容(可能被滥用于深度伪造或虚假信息)的问责制。
缺乏标准化基准阻碍了对不同世界模型系统的多样化目标和技术方法的严格评估。本调查呼吁建立更全面、真实和标准化的评估框架。
意义和影响
本调查为人工智能领域做出了几项重要贡献。通过提供一个系统的分类框架,它为一个快速发展但往往模糊的研究领域带来了急需的结构。双重功能视角提供了一个统一的视角,研究人员可以通过它理解各种方法并识别看似不相关的子领域之间的联系。
对应用的全面分析展示了世界模型在从自主系统到社会模拟等关键领域的广泛潜在影响。通过识别关键挑战和未来研究方向,本调查为社区提供了一个路线图,以解决最紧迫的技术和伦理问题。
也许最重要的是,本调查将世界模型定位为追求AGI的核心,强调它们对于开发能够超越狭隘任务性能,展现更通用、适应性智能的AI系统的根本重要性。随着这些系统能力不断增强,它们在塑造人工智能未来中的作用只会越来越重要。
作者提供了包含代表性论文和代码的综合GitHub存储库,这进一步增强了本调查作为新老研究人员资源的实用性,促进了人工智能这一关键领域的可重现性和协作开发。