当前位置：首页 > news >正文

51c视觉~3D~合集4

news 2025/7/26 19:53:29

自己的原文哦~ https://blog.51cto.com/whaosoft/14084543

#VGGT-Long

首次将单目3D重建推向公里级极限！南开、南大提出：分块、循环、对齐，开源

近年来，3D视觉基础模型（Foundation Models）在3D感知任务中展现了惊人的能力，但由于显存的限制，将这些强大的模型应用于大规模、长序列的RGB视频流3D重建仍然是一个巨大的挑战。今天，介绍一项来自南开大学和南京大学的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。该研究提出了一个名为VGGT-Long的系统，它简单而有效，首次将仅使用单目RGB视频的3D重建能力推向了公里级别的、无边界的室外环境。

论文标题： VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
作者： Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
机构： 南开大学；南京大学
论文地址： https://arxiv.org/pdf/2507.16443v1
项目地址： https://github.com/DengKaiCQ/VGGT-Long

研究背景与意义

3D场景重建是自动驾驶、机器人导航和增强现实等领域的关键技术。基于学习的，特别是基于基础模型的方法，如VGGT，在小规模场景中表现出色。然而，当面对长达数公里的视频序列时，这些模型往往会因为显存溢出（Out-of-Memory）而崩溃，或者因为误差的不断累积而产生严重的漂移，导致重建失败。

如下图所示，在处理大规模室外场景时，先前的方法（如CUT3R, Fast3R）存在严重的漂移问题，而其他基于基础模型的方法（如MASt3R-SLAM, VGGT）则无法完成整个长序列的处理。相比之下，本文提出的VGGT-Long能够成功完成公里级场景的重建，并保持了场景的准确性。

VGGT-Long的巧妙之处在于，它无需相机标定、无需深度监督、也无需重新训练基础模型，仅通过一套高效的后处理系统，就解决了现有模型的可扩展性瓶颈，实现了与传统SLAM方法相媲美的轨迹和重建性能。

VGGT-Long：核心方法

VGGT-Long系统的核心思想可以概括为其标题中的三个动词：分块（Chunk it）、循环（Loop it）、对齐（Align it）。

1. 分块处理 (Chunk it): 为了克服显存限制，VGGT-Long将长视频序列分割成多个有重叠的、固定长度的短视频块（chunks）。然后，它以滑动窗口的方式，将这些视频块依次送入预训练的VGGT模型进行处理，得到每个块的局部3D点图（pointmap）和相机轨迹。

2. 重叠对齐 (Align it): 得到一系列独立的局部重建结果后，需要将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是，研究者提出了一种置信度感知对齐（Confidence-aware alignment）策略。VGGT模型会为每个预测的点生成一个置信度分数，该策略可以有效抑制场景中高速运动的物体（如车辆）对对齐过程的干扰，从而提高拼接的鲁棒性和准确性。

3.回环优化 (Loop it): 即使每个块都精确对齐，在长达公里的轨迹上，微小的误差也会不断累积，导致全局尺度的漂移（例如，起点和终点无法闭合）。为了解决这个问题，VGGT-Long引入了轻量级的回环闭合优化（Loop Closure Optimization）。当车辆回到先前经过的位置时，系统会检测到回环，并建立约束。然后通过全局LM（Levenberg-Marquardt）优化，一次性校正整个轨迹的累积误差，确保全局地图的一致性。

实验设计与结果

研究团队在自动驾驶领域极具挑战性的KITTI、Waymo和Virtual KITTI数据集上对VGGT-Long进行了全面评估。

在相机轨迹跟踪精度（ATE）方面，如下表所示，VGGT-Long在KITTI和Waymo数据集上均取得了与传统SLAM方法（如ORB-SLAM3）相当甚至更好的性能，并且显著优于其他基于学习的方法。许多方法在长序列上直接因显存溢出（OOM）或跟踪丢失（TL）而失败。

在3D重建质量方面，VGGT-Long同样表现出色。有趣的是，在Waymo数据集的评估中，研究者发现由于车载激光雷达（LiDAR）的扫描高度和范围有限，其采集的真值点云有时甚至不如视觉方法重建的场景完整（例如，无法感知到天桥的3D结构）。这表明VGGT-Long能够生成比某些真值数据更完整、更精确的几何结构。

在运行效率方面，VGGT-Long的所有组件几乎都能实现实时运行。特别是其轻量级的回环优化，仅需3次迭代即可收敛，达到毫秒级的性能，这对于实际应用至关重要。

消融实验也证明了系统中每个组件的必要性，特别是回环闭合，它显著减少了累积误差，是实现公里级精确重建的关键。

论文贡献与价值

突破尺度限制： 提出VGGT-Long系统，成功将基于基础模型的单目3D重建扩展到公里级长序列，解决了现有方法的关键瓶颈。
零成本扩展： 该方法无需任何模型重训练、相机标定或深度真值，即可直接应用于新的长视频序列，具有极强的泛化性和易用性。
性能卓越且高效： 在多个大规模自动驾驶数据集上，实现了与传统方法相媲美的性能，同时保持了近乎实时的运行效率。
推动实际应用： 该研究展示了利用基础模型进行可扩展、高精度单目3D场景重建的巨大潜力，尤其是在自动驾驶等真实世界场景中，为低成本、纯视觉的建图与定位方案铺平了道路。
代码开源： 研究团队已将代码开源，将极大地推动社区在这一方向上的进一步发展。

总而言之，VGGT-Long是一项优雅而实用的工作，它没有去设计一个更庞大、更复杂的网络，而是通过一套巧妙的系统级设计，释放了现有3D基础模型的全部潜力，为大规模单目3D重建这一难题提供了令人信服的解决方案。