3D 和 4D 世界建模:综述(下)
25年9月来自新加坡国立、浙大、地平线机器人公司、慕尼黑工大、香港科大、清华、南京理工、澳门大学和上海AI实验室的论文“3D and 4D World Modeling: A Survey”。
世界建模已成为人工智能研究的基石,使智体能够理解、表征和预测其所处的动态环境。尽管先前的研究主要侧重于二维图像和视频数据的生成方法,但却忽略利用原生三维和四维表征(例如RGB-D图像、占用网格和激光雷达点云)进行大规模场景建模的快速增长研究成果。同时,由于缺乏“世界模型”的标准化定义和分类,导致文献中的观点支离破碎,有时甚至不一致。本综述全面阐述三维和四维世界建模与生成。其建立精确的定义,引入涵盖基于视频(VideoGen)、基于占用(OccGen)和基于激光雷达(LiDARGen)方法的结构化分类法,并系统地总结了针对三维/四维环境的数据集和评估指标。另外,本文进一步讨论实际应用,确定尚未解决的挑战,并强调有前景的研究方向。
。。。。。。继续。。。。。。
数据集
本综述讨论支持 3D 和 4D 世界建模研究的真实、模拟和增强数据集。这些数据集涵盖城市驾驶及相关场景,并提供 VideoGen、OccGen 和 LiDARGen 所需的丰富注释和条件。下表提供这些主流数据集中视频、占用、LiDAR 和其他相关数据格式的详细统计数据:
列项:总帧数;占用场景总数;LiDAR 场景总数;注释频率;单元格中的符号“-”表示未提供该信息。
任务:视频生成模型(VideoGen)、占用生成模型(OccGen)和 LiDAR 生成模型(LiDARGen)。
在现有的 3D/4D 数据集中,真实世界数据集提供真实性和多模态上下文以及可靠的标定。最近的网络规模语料库以严格的标定换取规模、多样性和文本监督。模拟器则提供完美的标签、可编辑的布局以及罕见或反事实的场景。这些数据源共同构成训练和评估可控且具有规划-觉察世界模型的互补基础。
基于视频的数据集提供长而连贯的视频序列,并带有可靠的标定、自我姿态和同步的多视角图像。有助于提高可控性的条件包括动作日志、高清地图和语言信号,例如字幕或驾驶指令。nuScenes [10] 和 Waymo Open [95] 等现实世界数据集提供环视图像、精确姿态和密集感知注释,使其成为基于地图或运动条件控制的视频生成坚实的基础。规划-觉察数据集(例如 NAVSIM [99] 和 nuPlan [98])将短场景与自我运动、CAN 信号和地图配对,以支持基于策略的视频建模。诸如 OpenDV-YouTube [96] 之类的网络规模视频通过字幕和自我动作标签贡献了广度和语言监督,以精确标定换取规模和多样性。像 CARLA [100] 这样的合成平台为反事实、罕见事件和受控消融提供姿态和可编辑布局。基于占用的数据集需要在一致的坐标系中进行体素化的 3D 监督,并带有语义标签并与传感器装置紧密对齐。稳定学习的条件包括高清地图、自我轨迹以及用于随时间锚定场域的多视角图像或激光雷达。在驾驶场景中,OpenOccupancy [242]、Occ3D-nuScenes [14]、NYUv2 [9] 和 SSCBench [243] 等现成的真实基准测试提供了标准化的体素网格和协议,用于训练和评估。像 CarlaSC [163] 这样的模拟数据集提供清晰的真值以及对布局和运动的完全控制,这对于消融和压力测试非常有用。像 SemanticKITTI [16] 这样的语义扩展将逐点标签与占用体相结合,实现几何和语义的联合学习。
基于 LiDAR 的数据集需要 LiDAR 获取的原始扫描数据,其中包含精确的外参、每次扫描的自我姿态和目标级注释。额外的 2D 和 3D 线索,例如高清地图、雷达和摄像头图像,可以实现跨模态调节,而跨天气调节和传感器配置的覆盖范围则可以提高鲁棒性。代表性的真实世界数据源包括 KITTI [11]、nuScenes [10]、Waymo Open [95] 和 Argoverse2 [97]。NAVSIM [99] 通过与控制信号配对的简短场景片段(snippet)对这些数据源进行了补充,以支持下游规划任务。在鲁棒性测试方面,最近的基准测试 [65]、[202]、[218] 捕捉了恶劣天气、注入了系统性损坏,并覆盖了多个平台以评估泛化能力。 CARLA [100] 等合成平台提供清晰的 LiDAR 模拟、可编辑的环境和可控的信号。
评估指标与协议
标准化评估为生成模型的开发奠定了基础。然而,现有文献忽视了建立系统性评估协议的重要性,尤其是在三维和四维领域。
世界模型的评估指标分为五个方面:
- 生成质量评估合成输出的真实性、连贯性和可控性。
- 预测质量评估基于部分观测的未来预测。
- 规划中心质量指标衡量规划的安全性和规则合规性。
- 重建中心质量考察生成模型重现或模拟新视图的能力。
- 下游评估任务测试世界模型如何支持检测、分割和推理等任务。
下表提供评估指标的综合摘要。这些指标共同涵盖具体决策及其他方面的感知保真度和效用。
生成质量
生成质量关注的是世界模型能否在给定提示或条件的情况下生成真实且连贯的输出。这涉及四个维度:保真度、一致性、可控性和人类参考性。
预测质量
预测质量超越无条件生成,它评估模型在给定部分观测值的情况下预测场景未来演变的准确性。在这里,预测质量在空间和时间域进行评估。
以规划为中心的质量
以规划为中心的指标评估模型的输出是否能够产生安全、高效且符合规则的决策,其评估分为开环和闭环。
以重建为中心的质量
以重建为中心的神经模拟器旨在将过去重投射到交互式传感器视图或新视角中。
下游评估
上述评估孤立地评估一个世界模型,而下游评估则衡量其集成到端到端感知和决策系统中时的效用。任务涵盖目标检测(mAP [261],nuScenes 检测分数 [10])、多目标跟踪(MOTA,MOTP [262])、语义和 BEV 图分割 (mIoU)、3D 占用预测和场景完成(体素级 IoU,体素化全景质量)。在基于语言的视觉问答等场景中,像 OccLLaMA [181] 这样的模型报告跨问题类型和难度级别的精确匹配 Top-1 准确率。这些评估反映学习的世界模型对下游推理、表征和控制任务的有效支持程度。
定量实验与分析
保真度、一致性和预测指标,以及下游感知和规划任务等指标,在标准化数据集上对模型进行评估。这些评估揭示当前方法的进展和局限性,突出真实性、几何精度、时间稳定性和可控性之间的关键权衡。
视频生成模型基准测试
生成保真度。下表报告单视图和多视图基于视觉的世界模型在 nuScenes 验证集上的 FID 和 FVD 结果。
比较结果表明,分辨率和帧速率对生成保真度有显著影响。此外,显式多视图建模具有挑战性;尽管许多方法可以降低 FID,但时间一致性仍然难以实现,这凸显了结构化 4D 表示的重要性。最后,将几何-觉察先验与时间推理相结合的方法,例如 DiST-4D 和 UniScene,表明联合增强空间结构和时间一致性对于可扩展的自动驾驶视频生成至关重要。
下游评估。下面两个表评估生成场景的下游感知和规划。
总体而言,结果表明,仅靠照片级真实感生成不足以改进下游任务;几何、时间一致性和运动动力学的明确建模至关重要。结合此类先验知识的模型不仅可以增强检测和分割,还可以通过减少碰撞和轨迹误差来支持更安全的规划。强大的分割保真度进一步证明多视图和结构-觉察模型在捕捉全局布局方面的优势,但与真实数据的性能差距仍然很大,凸显将生成保真度与任务级效用相结合的挑战。
占用生成模型基准测试
占用重建质量。下表评估基于 VAE 公式的占用世界模型的重建能力。
这些结果强调潜表征设计对重建保真度的决定性作用。三平面分解增强几何一致性并实现更精细的空间细节,而简单地增加潜维度(例如,具有 2048 个通道的 UrbanDiff [178])的回报有限。紧凑型 VAE(例如,UniScene [77])进一步表明,良好正则化的低维空间可以有效泛化,而过度压缩(例如,OccSora [179])则会牺牲准确性。总体而言,有效的压缩与明确的几何先验相结合是实现可扩展且准确的 3D 和 4D 场景建模的关键。
4D 占用预测质量。下表展示 1-3 秒时间段内的 4D 占用预测结果。
通过比较,有三个结论。首先,简单的自回归或生成方法在较长的视野下会迅速恶化,这凸显结构化先验的必要性。其次,三平面分解显著提高空间保真度,这体现在 T3 Former [196] 的表现上。第三,I2 World 表明,将可扩展的潜推理与时间建模相结合,可以在不同视野下实现最佳平衡。因此,准确的四维预测不仅需要生成能力,还需要能够增强几何和时间一致性的结构化表示。
端到端规划。下表报告端到端规划的性能,以轨迹误差 (L2) 和碰撞率来衡量。
结果表明,将占用世界模型集成到规划流程中,其效果始终优于单纯基于轨迹的方法。改进占用先验的混合设计,例如 Drive-OccWorld [186] 和 DFIT-OccWorld [185],在准确性和安全性方面均有提升,展现生成模型在下游领域的稳健性。总体而言,结构化占用表示为端到端自动驾驶奠定坚实的基础,能够在复杂场景下实现可靠的长视野规划。
LiDAR 生成模型的基准测试
生成保真度。下表报告近期 LiDAR 场景生成方法在 SemanticKITTI [16] 上,使用四种保真度指标(FRD、FPD、JSD 和 MMD)的性能。
结果显示 LiDAR 生成质量明显提升。在评估的方法中,WeatherGen [229] 通过使用 Mamba [265] 作为其骨干模型,在所有指标上均取得最佳性能。有趣的是,尽管 Text2LiDAR [223] 强烈依赖于文本输入,但它却产生了更高的 FRD,这表明与语义提示对齐可能会损害几何保真度。这些发现强调在未来 LiDAR 场景生成研究中平衡语义可控性和分布现实性的重要性。
4D LiDAR 生成质量。下表对近期基于 LiDAR 的 4D 场景生成方法的时间相干性进行基准测试,使用 TTCE(时间变换一致性误差)和 CTC(倒角时间一致性)作为评估指标。
与已使用标准化基准广泛研究的视频生成不同,时间 LiDAR 生成仍然相对未被充分探索,当前的指标主要集中于跨帧的显式几何对齐。结果揭示几个观察结果。首先,诸如 UniScene [77] 和 OpenDWM-DiT [236] 之类的端到端自回归方法在保持短视域几何一致性方面表现出明显的优势,这体现在 1-2 帧间隔时较低的 TTCE 和 CTC 上。然而,它们的固定长度生成限制更广泛的适用性,因为误差累积会在更长的视域中增长。其次,结合强矢量量化模块 [236] 有助于更好地进行条件嵌入和细粒度重建,从而提高时间稳定性。第三,模态选择引入固有的权衡:基于 BEV 的生成提供更平滑的时间连续性,但牺牲原始点云模式的保真度,而基于距离图的 [49] 生成更好地保留了 LiDAR 特定的传感特性,但需要精心设计以嵌入条件并维持长期一致性。
定性实验与分析
VideoGen 模型的定性分析
视觉真实感。下面两个图比较近期的视频生成世界模型,包括 MagicDrive [20]、DreamForge [105]、DriveDreamer-2 [58] 和 OpenDWM [236]。生成的场景捕捉到的整体布局和语义接近真实世界的分布,但细粒度的细节通常会受到像素错位、纹理模糊和结构不连续的影响。在所有方法中,OpenDWM [236] 实现了最真实、一致且可控的结果,这得益于它在多样化数据集(OpenDV [96]、nuScenes [10] 和 Waymo Open [95])上进行的训练,而其他方法则依赖于单一数据集。这凸显了数据集多样性在提升泛化能力和鲁棒性方面的作用。
物理合理性。在缺乏明确的物理约束的情况下,生成的视频可能会违反物理真实性,例如车辆与背景的相互渗透、阴影不正确或尺度扭曲。虽然这些问题在静态帧中可能看起来很微妙,但在以连续视频的形式观看时,它们会显著降低真实感,破坏时间连贯性和物理合理性。
可控性。外观级控制(天气、时间、风格)可以通过带有文本条件的大规模预训练视频生成模型可靠地控制。相比之下,对物体位置、方向和速度的精确几何控制仍然具有挑战性,通常需要专用的控制嵌入或结构化的条件机制。
“长尾”类别。稀有和小规模的类别(例如行人、骑自行车的人、交通标志)仍然难以令人信服地生成。“长尾”数据不平衡通常会导致形状不切实际、几何形状扭曲,甚至遗漏这些关键物体。
结论。结果表明,基于视频的世界模型未来需要沿着五个关键方向发展:(i) 真实感,减少伪影并增强细节保真度;(ii) 一致性,保持语义和时间连贯性;(iii) 可控性,将高级外观控制与细粒度几何控制统一起来; (iv)物理合理性,结合物理先验来防止不切实际的伪影;(v)泛化,利用各种大规模数据集来提高稳健性。
OccGen 模型的定性分析
3D 几何一致性。如图展示基于场景布局的占用生成模型的定性结果。生成的多视角视频和占用在不同视角下表现出很强的空间一致性。这种跨视角一致性对于在多摄像头环境下保持几何合理性至关重要。
占用保真度。生成的占用保留关键语义,包括可行驶区域、人行道和周围物体。虽然整体布局可以被可靠地捕捉以供下游感知,但细粒度几何形状(例如,细车道边界、小型动态代理)仍然具有挑战性,经常导致错位或重建不完整。
可控性和泛化性。基于高级场景先验,模型可以灵活地适应不同的交叉口布局和道路结构,展现出良好的可控性。然而,稀有结构和长尾类别(例如自行车、行人)通常缺乏代表性,这揭示了数据多样性和泛化能力的局限性。
要点:这些结果表明,占用生成的进展取决于三个方面:(i) 几何一致性,确保跨三维环境的空间一致性;(ii) 细粒度保真度,尤其适用于小规模和动态物体;以及 (iii) 泛化,利用多样化的数据集来处理稀有布局和长尾类别。提升这些方面对于能够支持下游任务和闭环模拟的稳健世界模型至关重要。
LiDAR生成模型的定性分析
全局模式。如图比较代表性的LiDAR生成范例。原始扫描呈现出具有均匀角度间距的密集环,忠实地捕捉了静态结构和动态物体。基于体素的OpenDWM [236]强调连贯的场景几何形状,但由于体素级建模,通常会产生过度规则化的模式。基于距离的LiDARCrafter [49]更好地保留了原生扫描线结构,环更清晰,尽管它可能在遮挡边界附近引入伪影。基于占用的UniScene [77]可以重现全局分布,但往往会过度平滑精细细节,导致不连续性。
点云稀疏性。鉴于LiDAR数据固有的稀疏性,生成模型必须在实际密度和结构一致性之间取得平衡。OpenDWM [236]通常会产生过于稀疏的区域,尤其是在远距离情况下。 LiDAR-Crafter [49] 保持更均匀的角密度,紧密遵循传感器的扫描特性。UniScene [77] 提供全局完整覆盖,但有时会引入与实际传感器模式不一致的人工填充。
物体完整性。车辆等动态智体对于下游感知和规划尤为重要。OpenDWM [236] 经常低估物体轮廓,导致形状碎片化或不完整。LiDAR-Crafter [49] 提供更好的表面完成度,尽管更精细的细节可能会有噪声。UniScene [77] 重建体积合理的物体,具有一致的占用,但通常缺乏真实扫描的清晰边界和清晰细节。
总结。这些结果突出 LiDAR 生成的三个关键属性:(i)全局模式,确保连贯的场景几何,同时保留特定于传感器的扫描结构;(ii)点稀疏性,保持与 LiDAR 特性相匹配的真实密度分布; (iii)物体完整性,准确捕捉具有清晰轮廓和一致表面的动态智体。未来的发展将需要平衡这些属性,以生成既感知逼真又物理忠实于传感器属性的 LiDAR 序列。
应用
3D 和 4D 世界模型的多功能性使其能够跨多个域部署:
1 自动驾驶支持模拟、评估和场景合成。
2 机器人技术利用它们进行导航、操控和可扩展模拟。
3 视频游戏和扩展现实 (XR) 受益于内容生成、沉浸式渲染和自适应环境。
4 数字孪生支持城市规模的重建、事件回放和场景编辑。
5 新兴应用涵盖科学发现、医疗保健、工业和灾难响应。
这些应用共同展示世界模型在统一跨域感知、预测和生成方面的作用。
挑战与未来方向
世界模型面临的关键挑战和未来研究的方向,包括:
标准化基准和测试
长期保真度和长范围生成
物理真实性、可控性和泛化性
计算效率和实时性能
跨模态生成的一致性。