当前位置：首页 > news >正文

[ICCV25]TRACE：用3D高斯直接学习物理参数，让AI“推演”未来场景

news 2025/8/29 7:03:16

导读
在复杂的动态世界中，让机器人既能看懂场景，又能预测未来变化，是一项极具挑战性的任务。过去的方法往往依赖人工标注或简化的物理模型，却难以真正捕捉物体运动的规律。TRACE 提出了一个全新的思路：把三维场景中的每个点视为带有刚体属性的“粒子”，直接去学习它的平移与旋转动态，从而显式建模完整的物理参数。这样一来，机器人不仅能重建场景的几何和外观，还能在此基础上推演未来的发展趋势，相当于具备了“预测未来”的能力。

实验结果显示，TRACE 在多个真实和合成数据集上大幅优于现有方法，尤其在预测未来帧这一任务上表现突出。更令人惊喜的是，这一框架还天然支持场景分解——只需对学到的物理参数进行聚类，就能自动分离出不同的物体或部件。这意味着，TRACE 不仅是一种强大的动态三维建模工具，也可能成为具身智能迈向更高层次理解和交互的重要基石。

图1｜给定一个真实世界动态场景的视频帧， TRACE 能够学习其潜在的物理规律，并准确预测出物体的未来运动，例如杆子通过双曲槽口的过程，或者小车沿轨道继续前进的轨迹，而现有方法则无法做到这一点

论文出处：ICCV2025

论文标题：TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

论文作者：Jinxi Li, Ziyang Song, Bo Yang

、

在日常生活中，动态三维场景随处可见，例如下落的球体、旋转的风扇和折叠的椅子。能够精准建模这些场景的几何、外观和物理属性，并进一步预测其未来状态，对于机器人、混合现实和具身智能等新兴应用具有重要意义。近年来，随着 NeRF 和 3D Gaussian Splatting（3DGS）等三维表示技术的快速发展，大量方法被提出以建模动态 3D 场景，在插值观测时间范围内的新视角生成方面取得了优异的表现。然而，这些方法往往无法进行未来帧的外推预测，其根本原因在于缺乏对场景物理先验的学习。

现有方法通常分为两类来学习物理先验：一类是基于物理约束神经网络（PINN）的方式，通过在损失函数中引入偏微分方程约束，来建模几何和物理属性，如速度和粘性。这类方法虽然在一些场景下表现良好，但往往依赖精确的边界条件（如物体掩码），在实际中难以获取，且训练效率和边界精度都会受到影响。另一类方法则是显式引入物理模型，将弹性体、流体等系统编码进神经网络中。尽管这样的方法能在特定对象和材料上取得出色效果，但普适性有限，难以推广到复杂多样的动态 3D 场景。

针对这一问题，作者希望直接从多视角 RGB 视频中建模动态 3D 场景，而无需额外的物体类别或分割标注，并且能够预测任意角度的未来帧。在物理属性的选择上，作者参考 NVFi，聚焦于速度场的学习。然而，直接从 RGB 视频中准确学习速度极具挑战，特别是当多个物体或部件呈现不同运动模式时，这一问题更加突出。举例来说，如果两个相邻物体朝相反方向运动，那么它们在交界处的点会表现出截然不同的速度模式，这意味着每个三维点的运动状态可能是离散的。

因此，作者提出将每个三维点视为一个刚体粒子，并为其学习独立的动力学系统，包含一整套物理参数来描述其运动。根据经典力学定律，一个刚体粒子的运动可以看作是绕某个旋转中心的旋转加上平移。因此，作者设计了一个平移—旋转动力学系统，使每个刚体粒子的未来运动都可以被推导出来。

在实现上，TRACE 框架由两大模块组成：其一是三维场景表示模块，利用标准 3DGS 建模几何与外观；其二是平移—旋转动力学模块，通过多层感知机学习每个刚体粒子的物理参数，从而推导速度场，无需依赖 PINN 等物理先验。值得注意的是，作者发现直接训练这一模块存在优化困难，于是引入了一个辅助变形场，与主模块并行训练，以增强稳定性。

与 NeRF 系列方法（如 D-NeRF、TiNeuVox）以及现有的 3DGS 扩展方法（如 DefGS、4DGS）相比，TRACE 的核心创新在于显式引入了平移—旋转动力学系统，并通过有效的优化策略实现了物理参数的真实学习，从而能够进行未来帧外推预测。

最后，作者总结了本文的三点主要贡献：

● 提出了一种全新框架，可在无需物体形状、类别或掩码先验的情况下建模复杂动态 3D 场景的运动物理。

● 针对每个刚体粒子学习平移—旋转动力学系统，从而在不需要额外物理约束的条件下推导速度场。

● 在三个公开动态数据集和一个新构建的合成数据集上，TRACE 在未来帧预测任务中显著超越现有方法。

TRACE 框架主要由两个核心模块和一个辅助变形场组成，用于建模三维场景的几何、外观和物理属性。输入是一组带有已知相机位姿和内参的动态多视角 RGB 视频。

三维场景表示模块

首先，框架的三维场景表示模块负责学习一组三维高斯核，以在一个标准时间点下表示场景的几何与外观。辅助变形场则被设计用于预测每个高斯核在不同时间下的平移和形变，以适应场景随时间的动态变化。这部分设计延续了现有工作中的思路，但仅凭变形场无法外推到训练时间以外的未来帧，因此需要结合核心的动力学模块。

预训练与初始化

在训练流程中，作者首先利用时间点 t=0 的所有帧，来训练一个静态的三维高斯模型，用于初始化场景几何和外观。这一步为后续的动力学学习提供了一个合理的起点。高斯核在初始化时可以随机生成，或基于结构重建方法（如 SfM）得到的稀疏点进行初始化。之后，通过将高斯核投影到相机坐标系并渲染到图像空间，利用重建图像与输入图像的差异作为监督，来优化核的位置、旋转、尺度、透明度和颜色参数。透明度和颜色通常不会在训练中更新，而是固定绑定到核上并随时间传递。

辅助变形场

为了帮助动力学模块更稳定地训练，TRACE 引入了一个基于现有工作的辅助变形场。具体来说，它通过一个基于多层感知机的网络，输入高斯核的初始位置和时间戳，预测位置、旋转和尺度的变化量。由此得到的变形高斯核会在后续阶段投影并与对应时间点的图像进行监督优化。尽管变形场本身不能进行未来帧外推，但它在训练初期能提供更稳定的几何变化估计，从而辅助动力学模块的收敛。

图2｜TRACE所提出的平移-旋转动力学系统针对一个特定的刚体粒子。该刚体粒子会在其学习到的物理参数驱动下随时间演化，从而在三维空间中形成一条运动轨迹

平移—旋转动力学系统

TRACE 的核心模块是平移—旋转动力学系统。该模块的目标是为每个刚体粒子（即三维高斯核）学习一整套物理参数，用于描述其随时间的运动规律。按照经典力学，一个粒子的运动可以看作是围绕某个旋转中心的旋转加上平移。因此，该模块为每个粒子学习两类参数：

● 旋转中心参数：包括旋转中心的位置、速度和加速度；

● 粒子旋转参数：包括粒子相对于旋转中心的旋转向量和角加速度。

通过学习这两类参数，模型能够驱动粒子的轨迹，形成符合物理规律的运动模式。该模块通过多层感知机实现，输入是粒子及其时间戳，输出是对应的物理参数集合。为了推导未来的运动轨迹，系统会根据所学的动力学参数递归计算粒子的位置与旋转。

数值更新与物理逼真性

在动力学演化的数值计算上，TRACE 使用了二阶 Runge-Kutta 方法来更新粒子的物理参数。选择二阶更新有两个原因：一是很多应用（例如机器人操作）所需的未来预测时间间隔非常短，二阶近似已经足够；二是日常大多数物理运动（如小球滚动、汽车行驶）也可以由二阶关系描述。这种设置在保证物理合理性的同时，避免了高阶方法带来的训练复杂性。

训练流程

训练过程包含以下关键步骤：

1. 在初始时间点，用静态高斯模型学习场景几何和外观；

2. 使用辅助变形场对高斯核在任意训练时间点进行位置和旋转的修正；

3. 使用平移—旋转动力学模块来预测物理参数，并基于这些参数驱动粒子的运动；

4. 将更新后的高斯核渲染到图像空间，并与对应的真实帧进行对比，利用图像重建损失来更新所有模块的参数。

通过这种联合训练方式，TRACE 不仅能学习到三维几何和外观，还能显式学习每个刚体粒子的物理参数，使模型能够从原始 RGB 视频中实现物理规律驱动的未来帧预测。

作者在四个数据集上验证了 TRACE 的效果：

● Dynamic Object：6 个动态物体，包含刚体和可变形运动模式；

● Dynamic Indoor Scene：4 个复杂室内场景，多个物体同时进行刚体运动；

● NVIDIA Dynamic Scene：两个真实世界动态场景；

● Dynamic Multipart（新建合成数据集）：每个物体包含 2–5 个不同部件，部件间运动模式差异显著，测试 TRACE 对复杂动力学的建模能力。

对比基线涵盖了基于 NeRF 的方法（T-NeRF, D-NeRF, TiNeuVox）、基于 3DGS 的方法（DefGS, 4DGS）、以及最接近的 NVFi 和其变体（DefGS + NVFi）。评价指标为 PSNR、SSIM 和 LPIPS，用于衡量未来帧合成的质量。

图3｜动态场景重建渲染可视化结果

未来帧预测结果

实验表明：

● 相比 NeRF/3DGS 动态建模方法，TRACE 在未来帧预测任务上 PSNR 提升近 10 分，显示出显著优势。其他方法无法有效建模未来动态，而 TRACE 能捕捉物理规律并预测合理的运动演化。

● 相比 NVFi 和 DefGSnvfi（最强基线），TRACE 在所有数据集上均表现更优，尤其在 Dynamic Indoor Scene 和 Dynamic Multipart 这类包含多物体/多部件复杂运动的场景中，PSNR 领先约 3 分。这一差距源于 TRACE 直接学习平移与旋转参数，提供硬物理约束，而 NVFi 依赖 PINN 作为软约束。

TRACE 框架还具备兼容性，与 DefGS、4DGS 等现有变形场结合时，同样能进一步提升未来帧预测性能。

小编认为，这部分结果直接验证了 TRACE 的核心价值：不仅能“回放”过去，还能真正“推演”未来。

图4｜动态重建实验量化结果

动态参数分析与自动分割

TRACE 的粒子动力学系统会为每个点学习物理参数。实验显示，同一刚体部件的点会自然聚类到相似的动力学参数上，从而无需监督即可分解场景。

在Dynamic Indoor Scene数据集上，作者通过对比发现 TRACE 的运动分组结果几乎完美，显著超过 D-NeRF、NVFi、DefGS 等基线方法，甚至接近完全监督的 Mask2Former。这说明 TRACE 学到的动力学参数具有真实物理意义，能够支持基于运动的对象识别。

图5｜场景自动分割实验量化结果

连续学习实验

为了验证模型在快速变化场景下的适应性，作者在 ParticleNeRF 数据集上进行了增量学习测试：模型先用初始时间片段训练，然后逐步增加新观测，要求预测更远时间的未来帧。

对比结果表明，DefGS 和 DefGSnvfi 在动态快速变化时预测失败，而 TRACE 能稳定适应新观测并给出准确预测。这表明 TRACE 不仅能建模固定模式，还能持续吸收新信息，对复杂、快速演化的动态环境具有鲁棒性。

图6｜连续学习实验量化结果

消融实验

作者进一步分析了 TRACE 的关键设计：

● 时间间隔 Δt：若过小，运动差异太细微难以学习；若过大，外观拟合受损。最终 Δt=2δt 效果最佳。

● 动力学阶数：二阶动力学（包含加速度）表现优于一阶（无加速度）或三阶（加速度的加速度）。

● 移除辅助变形场：性能显著下降，说明该模块对动力学学习有重要帮助。

● 移除物理推导：若仅依赖查询参数而不进行物理推导，运动学习受损。

● 去掉等效参数化：也会降低性能。

结果表明，每个设计模块都对 TRACE 的成功起到了关键作用

图7｜消融实验结果

在这篇论文中，作者展示了一个重要发现：仅凭多视角 RGB 视频，就能够在没有任何额外人工标注（例如物体类别或分割掩码）的情况下，显式学习复杂的运动动力学。

这是通过一个全新的通用框架实现的。该框架在扩展 3D Gaussian Splatting 技术的基础上，同时建模三维场景的几何、外观和物理属性。与以往依赖 PINN 损失作为软约束来学习物理先验的方法不同，作者的方法直接学习完整的物理参数集合，通过核心的平移—旋转动力学模块来驱动物体刚体粒子的运动模式。

大量实验结果表明，在三个公开的动态数据集和一个新构建的多部件动态数据集上，该方法在未来帧预测这一极具挑战性的任务中全面超越所有基线。同时，所学到的物理参数还能被直接用于基于参数相似性的物体或部件分割，进一步验证了方法的物理合理性与通用性。

查看全文

http://www.dtcms.com/a/355074.html