当前位置：首页 > news >正文

CVPR-2025 | 缩小仿真与现实差距的具身导航新突破！Vid2Sim：从视频到逼真交互式仿真环境的城市导航

news 2025/10/21 13:36:33

作者：Ziyang Xie $^{1,2}$ , Zhizheng Liu $^{2}$ , Zhenghao Peng $^{2}$ , Wayne Wu $^{2}$ , Bolei Zhou $^{2}$
单位： $^{1}$ 伊利诺伊大学， $^{2}$ 加利福尼亚大学洛杉矶分校
论文标题：Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation
论文链接：https://openaccess.thecvf.com/content/CVPR2025/papers/Xie_Vid2Sim_Realistic_and_Interactive_Simulation_from_Video_for_Urban_Navigation_CVPR_2025_paper.pdf
项目主页：https://metadriverse.github.io/vid2sim/
代码链接：https://github.com/Vid2Sim/Vid2Sim (coming soon)

主要贡献

从单目视频到逼真交互式仿真环境的转换方法：Vid2Sim能够将单目视频转换为逼真且可物理交互的3D仿真环境，为城市导航中的强化学习提供了有力支持。
几何一致的重建方法和混合场景表示：通过几何一致的高斯溅射（Gaussian Splatting，GS）训练和屏幕空间协方差剔除技术，提高了场景重建质量和智能体视觉观察质量。此外，提出的混合场景表示方法结合了GS和网格原语，实现了逼真的渲染和准确的物理交互。
全面且多样化的场景增强方法：通过静态障碍物和动态智能体的集成，构建了交互式和多样化的导航环境，模拟了复杂的现实世界导航挑战。该方法还支持对环境布局、光照条件和天气进行广泛的场景增强，以实现复杂城市环境中稳健的视觉导航训练。

研究背景

在机器人技术中，开发能够在复杂城市环境中导航和交互的智能体至关重要。然而，现实世界中的实验存在安全风险和效率限制。模拟学习成为训练复杂任务（如机器人操作和自动驾驶）的智能体的重要工具。然而，将模拟环境中训练的模型转移到现实世界中存在显著的sim-to-real差距。
传统模拟器通常无法提供逼真的观测、动态交互和多样化的环境变化，难以准确重现现实世界的数字孪生场景以供智能体训练。最近，神经渲染技术（如NeRF和3DGS）的进展为缩小sim-to-real差距提供了潜在解决方案，但大多数工作仅关注增强新视图合成的逼真度，而在构建支持具身智能体训练的完全交互式环境方面往往不足。

3D 高斯溅射

3DGS是一种流行的基于点的3D场景重建方法，它将场景显式地表示为一组3D高斯原语。每个高斯溅射 $G_i(x)$ 由其均值 $\mu_i \in \mathbb{R}^3$ 、3D协方差 $\Sigma_i \in \mathbb{R}^{3 \times 3}$ 、不透明度 $o_i$ 和颜色 $c_i$ 参数化：
$G_i(x) = \exp \left( -\frac{1}{2}(x - \mu_i)^T \Sigma_i^{-1} (x - \mu_i) \right)$
在渲染过程中，这些3D高斯溅射被投影到图像平面上，形成2D高斯。为了在优化过程中保持3D协方差 $\Sigma_i$ 的正半定性，使用缩放矩阵 $\in \mathbb{R}^3$ 和旋转矩阵 $\in \mathbb{R}^{3 \times 3}$ 对其进行参数化：
$\Sigma_i = R_i S_i S_i^T R_i^T$
像素颜色 $c (x)$ 可以通过体素alpha混合过程进行渲染：
$\sum_{i \in N} T_i c_i \alpha_i(x), \quad T_i = \prod_{j=1}^{i-1} (1 - \alpha_j(x))$
其中， $\alpha_i(x) = o_i G_i(x)$ 表示高斯溅射 $G_i$ 在点 $x$ 处的alpha值， $c_i$ 是通过球谐（SH）系数评估的 $G_i$ 的颜色。
尽管3DGS能够有效地重建视觉逼真的场景，但在准确的几何重建方面存在挑战，容易过拟合训练视图，并且无法支持物理交互，限制了其在交互式机器人学习中的应用。

Vid2Sim框架

Vid2Sim的目标是将单目视频转换为逼真且可物理交互的仿真环境，以实现具身导航训练并最小化sim-to-real差距。
Vid2Sim采用两阶段流程：首先，利用几何一致的高斯溅射进行高质量3D场景重建；其次，将重建的溅射和网格组合成混合场景表示，构建支持复杂环境中稳健视觉导航训练的逼真交互式训练环境。

几何一致的场景重建

准确的几何重建对于支持智能体导航训练中的准确碰撞检测和逼真的物理交互至关重要。
为此，提出了一种几何一致的重建方法，利用单目线索对GS训练进行正则化，增强几何重建以实现准确的智能体-环境交互。

尺度不变的几何监督

使用尺度不变损失对深度和法线进行监督，以解决高斯溅射初始化时的深度尺度问题。
具体来说，应用基于块的归一化交叉相关（NCC）损失来评估渲染深度和预测深度之间的局部相似性，同时对全局尺度差异不敏感。
对于法线监督，也采用尺度不变损失，直接测量渲染法线和预测法线之间的对齐情况。

几何一致性损失

引入几何一致性损失来增强重建的几何一致性，通过确保相邻像素的法线向量一致对齐来强制执行平滑度并保持结构完整性。
此外，还通过最小化高斯溅射的最短轴尺度来正则化3D高斯，使其更接近2D圆盘形状，从而更好地表示场景几何结构。

屏幕空间协方差剔除

提出了一种屏幕空间协方差剔除技术，通过基于高斯溅射在2D空间中的大小选择性地移除伪影来调整视觉输入，有效过滤掉超出定义图像部分的溅射，帮助保持视觉清晰度。

逼真且交互式的仿真

为了增强仿真环境的交互性和逼真度，提出了一种混合场景表示方法，将GS表示与场景网格原语相结合，创建逼真且交互式的仿真环境。
在这种混合场景表示中，GS为智能体训练提供逼真的视觉观测，而场景网格则用于支持物理交互和准确的碰撞检测。

混合场景表示

使用截断符号距离函数（TSDF）从GS表示中导出高质量网格，并利用Unity引擎提供实时物理仿真。
在仿真过程中，同时导入GS表示和提取的场景网格，使用自定义Unity着色器支持GS的实时逼真渲染，而网格材质设置为不可见，并作为碰撞和智能体交互的原语。

交互式场景组合

在仿真环境中引入静态和动态障碍物，以模拟现实世界中的导航挑战。通过将GS光栅化与网格渲染相结合，实现前景物体与背景GS场景之间的无缝组合，处理RGB和深度视图中的遮挡关系。
动态障碍物（如行人）被导入并编程，以在场景内随机点之间按照最短路径移动，为智能体提供交互。

多样化的场景增强

通过多层次的增强方法增强训练环境，引入更大的变化和逼真度。
支持对环境布局、光照条件和天气进行广泛的场景增强，以实现复杂城市环境中稳健的视觉导航训练。

实验

为了评估Vid2Sim的有效性，从网络视频中重建了30个多样化的场景，构建了一个真实到模拟（real2sim）环境的数据集。
实验旨在评估Vid2Sim在从单目视频重建高质量3D环境、支持训练稳健导航智能体以及最小化sim-to-real差距方面的有效性。在模拟和现实世界环境中进行了广泛的评估。

重建评估

将几何一致的重建方法与其他最先进的重建方法进行比较，结果表明该方法在PSNR、SSIM和LPIPS方面始终优于所有比较方法。
定性和定量结果表明，该技术可以有效地移除阻碍智能体视线的漂浮物伪影，并显著提高智能体在极端视角下的观测质量。

城市导航训练

在四轮配送机器人上部署了Vid2Sim，使用 Soft-Actor-Critic（SAC）算法对智能体进行训练。设计了两种常见的导航任务：点导航（PointNav）和社会导航（SocialNav）。
结果表明，与传统基于网格的模拟相比，使用静态和动态障碍物训练的智能体在PointNav任务中取得了81.6%的成功率，在SocialNav任务中取得了74.4%的成功率，分别显著提高了32.8%和31.2%。

模拟到现实部署

将Vid2Sim环境中训练的智能体在零样本设置中部署到现实世界中。
结果表明，Vid2Sim在解决sim-to-real差距方面表现出色，尤其是在使用更多环境进行训练时。
这表明通过采用Vid2Sim流程对更多视频进行训练，有可能在模拟中学习到一种通用的、可部署于现实世界的视觉导航策略。

结论与未来工作

结论:
- Vid2Sim框架为从单目视频创建逼真且可交互的仿真环境提供了一种有效的方法，显著缩小了sim-to-real差距。
未来工作:
- 计划将该框架扩展到其他类型的智能体，如仿人机器人和机器狗等。
- 此外，将探索更有效的方法将单目视频转换为基于GS的仿真环境，并构建一个更大规模且更具多样性的real2sim数据集，以进一步提高导航策略的泛化能力。