当前位置: 首页 > news >正文

51c视觉~3D~合集4

自己的原文哦~        https://blog.51cto.com/whaosoft/14084543

#VGGT-Long

首次将单目3D重建推向公里级极限!南开、南大提出:分块、循环、对齐,开源

近年来,3D视觉基础模型(Foundation Models)在3D感知任务中展现了惊人的能力,但由于显存的限制,将这些强大的模型应用于大规模、长序列的RGB视频流3D重建仍然是一个巨大的挑战。今天,介绍一项来自南开大学和南京大学的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。该研究提出了一个名为VGGT-Long的系统,它简单而有效,首次将仅使用单目RGB视频的3D重建能力推向了公里级别的、无边界的室外环境。

  • 论文标题: VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
  • 作者: Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
  • 机构: 南开大学;南京大学
  • 论文地址:​​ https://arxiv.org/pdf/2507.16443v1​​
  • 项目地址:​​ https://github.com/DengKaiCQ/VGGT-Long​​

研究背景与意义

3D场景重建是自动驾驶、机器人导航和增强现实等领域的关键技术。基于学习的,特别是基于基础模型的方法,如VGGT,在小规模场景中表现出色。然而,当面对长达数公里的视频序列时,这些模型往往会因为显存溢出(Out-of-Memory)而崩溃,或者因为误差的不断累积而产生严重的漂移,导致重建失败。

如下图所示,在处理大规模室外场景时,先前的方法(如CUT3R, Fast3R)存在严重的漂移问题,而其他基于基础模型的方法(如MASt3R-SLAM, VGGT)则无法完成整个长序列的处理。相比之下,本文提出的VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。

图片

VGGT-Long的巧妙之处在于,它无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈,实现了与传统SLAM方法相媲美的轨迹和重建性能。

VGGT-Long:核心方法

VGGT-Long系统的核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。

图片

1. 分块处理 (Chunk it): 为了克服显存限制,VGGT-Long将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。

图片

2. 重叠对齐 (Align it): 得到一系列独立的局部重建结果后,需要将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是,研究者提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰,从而提高拼接的鲁棒性和准确性。

图片

3.回环优化 (Loop it): 即使每个块都精确对齐,在长达公里的轨迹上,微小的误差也会不断累积,导致全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。

图片

实验设计与结果

研究团队在自动驾驶领域极具挑战性的KITTI、Waymo和Virtual KITTI数据集上对VGGT-Long进行了全面评估。

在相机轨迹跟踪精度(ATE)方面,如下表所示,VGGT-Long在KITTI和Waymo数据集上均取得了与传统SLAM方法(如ORB-SLAM3)相当甚至更好的性能,并且显著优于其他基于学习的方法。许多方法在长序列上直接因显存溢出(OOM)或跟踪丢失(TL)而失败。

图片

图片

在3D重建质量方面,VGGT-Long同样表现出色。有趣的是,在Waymo数据集的评估中,研究者发现由于车载激光雷达(LiDAR)的扫描高度和范围有限,其采集的真值点云有时甚至不如视觉方法重建的场景完整(例如,无法感知到天桥的3D结构)。这表明VGGT-Long能够生成比某些真值数据更完整、更精确的几何结构。

图片

在运行效率方面,VGGT-Long的所有组件几乎都能实现实时运行。特别是其轻量级的回环优化,仅需3次迭代即可收敛,达到毫秒级的性能,这对于实际应用至关重要。

图片

图片

消融实验也证明了系统中每个组件的必要性,特别是回环闭合,它显著减少了累积误差,是实现公里级精确重建的关键。

图片

论文贡献与价值

  • 突破尺度限制: 提出VGGT-Long系统,成功将基于基础模型的单目3D重建扩展到公里级长序列,解决了现有方法的关键瓶颈。
  • 零成本扩展: 该方法无需任何模型重训练、相机标定或深度真值,即可直接应用于新的长视频序列,具有极强的泛化性和易用性。
  • 性能卓越且高效: 在多个大规模自动驾驶数据集上,实现了与传统方法相媲美的性能,同时保持了近乎实时的运行效率。
  • 推动实际应用: 该研究展示了利用基础模型进行可扩展、高精度单目3D场景重建的巨大潜力,尤其是在自动驾驶等真实世界场景中,为低成本、纯视觉的建图与定位方案铺平了道路。
  • 代码开源: 研究团队已将代码开源,将极大地推动社区在这一方向上的进一步发展。

总而言之,VGGT-Long是一项优雅而实用的工作,它没有去设计一个更庞大、更复杂的网络,而是通过一套巧妙的系统级设计,释放了现有3D基础模型的全部潜力,为大规模单目3D重建这一难题提供了令人信服的解决方案。

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

http://www.dtcms.com/a/295627.html

相关文章:

  • Flutter 主流 UI 框架总结归纳
  • 光通信从入门到精通:PDH→DWDM→OTN 的超详细演进笔记
  • 《Flutter篇第一章》基于GetX 和 Binding、Dio 实现的 Flutter UI 架构
  • 弧焊机器人减少气体消耗攻略
  • 图论:搜索问题
  • C++图论全面解析:从基础概念到算法实践
  • 数据挖掘顶刊TKDE论文分享│ST-LLM+:面向交通预测的图增强时空大语言模型
  • Flutter开发环境搭建与工具链
  • kettle插件-kettle数据挖掘ARFF插件
  • 从手动操作到自动化:火语言 RPA 在多系统协作中的实践
  • GoLand 项目从 0 到 1:第二天 —— 数据库自动化
  • postgresql执行创建和删除时遇到的问题
  • JVM 核心内容
  • k8s之Ingress服务接入控制器
  • 函数耗时情况检测方案
  • LeetCodeOJ题:回文链表
  • HTTP/1.0、HTTP/1.1 和 HTTP/2.0 主要区别
  • Java设计模式之行为型模式(中介者模式)介绍与说明
  • 常用设计模式系列(十一)—外观模式
  • VUE2 学习笔记5 动态绑定class、条件渲染、列表过滤与排序
  • 微服务-springcloud-springboot-Skywalking详解(下载安装)
  • C++中std::list的使用详解和综合实战代码示例
  • Linux进程间通信:管道机制全方位解读
  • uniapp转微信程序点击事件报错Error: Component “xx“ does not have a method “xx“解决方案
  • Linux724 逻辑卷挂载;挂载点扩容;逻辑卷开机自启
  • 【PZ-ZU7EV-KFB】——ZYNQ UltraScale + ZU7EV开发板ARM/FPGA异构计算开发平台,赋能多域智能硬件创新
  • The Missing Semester of Your CS Education 学习笔记以及一些拓展知识(六)
  • 从“类”到“道”——Python 面向对象编程全景解析
  • J2EE模式---组合实体模式
  • 从指标定义到AI执行流:衡石SENSE 6.0的BI PaaS如何重构ISV分析链路