当前位置: 首页 > news >正文

Prompt Depth Anything:以提示方式驱动的Depth Anything用于实现4K分辨率下的精确米制深度估计

在这里插入图片描述

摘要

Prompt 在释放语言和视觉基础模型在特定任务上的能力方面起着关键作用。我们首次将 prompting 引入深度基础模型,开创了一种用于米制深度估计的新范式,称为 Prompt Depth Anything。具体而言,我们使用低成本的 LiDAR 作为 prompt,引导 Depth Anything 模型输出精确的米制深度,分辨率最高可达 4K。我们的方法核心是一个简洁的 prompt 融合设计,将 LiDAR 融合到深度解码器中的多个尺度。针对同时包含 LiDAR 深度和精确 GT 深度的数据集数量有限所带来的训练挑战,我们提出了一条可扩展的数据流水线,结合了合成数据中的 LiDAR 模拟以及真实数据的伪 GT 深度生成。我们的方法在 ARKitScenes 和 ScanNet++ 数据集上刷新了最新的 state-of-the-art,并促进了下游任务的发展,包括 3D 重建和通用机器人抓取等。

1. 引言

高质量的深度感知是计算机视觉和机器人领域的一个基础性挑战。近年来,单目深度估计在模型规模或数据规模扩展的推动下取得了显著进展,催生了一系列深度基础模型 [18, 29, 69, 70]。这些模型在生成高质量相对深度方面表现出色,但存在尺度歧义问题,限制了其在自动驾驶和机器人操作等实际场景中的应用。因此,已有大量研究致力于实现米制深度估计,主要有两种途径:一是对深度基础模型在米制数据集上进行微调 [6, 19],二是通过将图像内参作为附加输入来训练米制深度模型 [8, 24, 46, 74]。然而,如图 1(b) 所示,这两种方法都难以从根本上解决问题。

因此,一个自然的问题是:这些基础模型是否真的无法胜任精确的米制深度估计?这促使我们重新审视语言 [1, 9] 和视觉 [38, 39, 52] 领域的基础模型,这些模型往往包括预训练和指令微调两个阶段。一个合理设计的 prompt 和指令数据集,能够激发基础模型在下游任务上的能力。受到这些成功的启发,我们提出了一种用于米制深度估计的新范式,将其视为一个下游任务——即,通过引入米制信息来 prompt 一个深度基础模型。我们认为,只要能够提供尺度信息,这种 prompt 的形式可以多种多样,例如相机内参。

在本文中,我们选择使用低成本的 LiDAR 作为 prompt 来验证该范式的可行性,原因有二:首先,它能提供精确的米制尺度信息;其次,它应用广泛,甚至已经集成到常见的移动设备中(如 Apple iPhone 具备 LiDAR)。

具体而言,基于 Depth Anything [70],我们提出了 Prompt Depth Anything,实现了4K分辨率下的精确米制深度估计。我们方法的核心是一个专为 DPT-based [48] 深度基础模型 [8, 70] 设计的简洁 prompt 融合架构。该架构在 DPT 解码器的多个尺度中融合 LiDAR 深度,将 LiDAR 特征用于深度解码。米制 prompt 提供了精确的空间距离信息,使得深度基础模型能够更好地作为局部形状学习器,从而获得精确且高分辨率的米制深度估计。

训练 Prompt Depth Anything 需要同时具备 LiDAR 深度和精确 GT 深度的数据。然而,现有合成数据 [51] 并不包含 LiDAR 深度,而真实数据 [72] 中的 LiDAR 仅配有边缘质量较差的 GT 深度。为了解决这一挑战,我们提出了一条可扩展的数据处理流水线:对合成数据模拟低分辨率且带噪声的 LiDAR,对真实数据采用重建方法 [2] 生成边缘质量更高的伪 GT 深度。为减少伪 GT 深度在 3D 重建过程中的误差,我们引入了一种 边缘感知深度损失(edge-aware depth loss),该损失函数仅利用伪 GT 深度的梯度信息(主要集中于边缘处)。

实验结果表明,我们的方法能够实现极高精度的深度估计。我们在包含 iPhone ARKit 深度数据的 ARKitScenes [3] 和 ScanNet++ [72] 数据集上对所提出方法进行了评估,在多个数据集和指标上均达到了最新 state-of-the-art 性能。即便在 zero-shot 设置下,我们的模型也优于其他在非 zero-shot 测试中的方法 [6, 70],显示了 prompt 基础模型的强大泛化能力。我们还展示了 Prompt Depth Anything 的模型主体与 prompt 可分别替换为 DepthPro [8] 和车载 LiDAR [55]。此外,我们的方法也对多个下游任务有所助益,包括 3D 重建与通用机器人抓取。

总而言之,本文主要贡献如下:

  • 提出 Prompt Depth Anything:一种通过低成本 LiDAR 作为米制 prompt 来驱动深度基础模型进行米制深度估计的新范式;
  • 设计了一个简洁的 prompt 融合架构、一条可扩展的数据流水线,以及一个边缘感知深度损失函数,用于训练 Prompt Depth Anything;
  • 在深度估计基准数据集 [3, 72] 上达到 state-of-the-art 性能,验证了 depth foundation model 与 LiDAR prompt 的可替换性,并展示了其在 3D 重建和机器人抓取等下游应用中的潜力。

2. 相关工作

单目深度估计。 传统方法 [23, 54] 依赖手工设计的特征来进行深度估计。随着深度学习的兴起,该领域取得了显著进展。早期的学习方法 [14, 15] 通常局限于单一数据集,缺乏泛化能力。为提升模型泛化能力,研究者引入了多样化的数据集 [12, 33, 61–63, 65, 66, 71]、仿射不变损失函数 [47] 以及更强大的网络结构 [48]。近年来,预训练于大规模图像生成任务的潜变量扩散模型 [52] 被应用于深度估计任务 [20, 29],这类模型具有良好的泛化性,能有效估计相对深度,但仍然无法处理尺度问题。

为实现米制深度估计,早期方法要么将该问题建模为全局分布分类问题 [4, 5, 17, 36],要么在米制深度数据集上对深度模型进行微调 [6, 34, 35]。近期方法 [19, 24, 46, 73, 74] 探讨了单目米制深度估计中的尺度歧义问题,并通过引入相机内参来缓解这一问题。尽管一些最新方法 [8, 20, 24, 29, 46, 70, 74] 展现出强泛化能力,并自称为 depth foundation models [8, 18, 24, 70],但如图 1(b) 所示,米制深度估计仍是一个未解决的挑战。本文从视觉和视觉语言模型中 prompt 技术的成功经验 [38, 39, 77] 中获得启发,尝试通过引入米制 prompt来激活深度基础模型的能力,以解决该挑战。

结合辅助传感器的深度估计。 通过主动传感器获取稠密深度信息通常需要较高功耗。一种更实用的做法是利用低功耗主动传感器获取稀疏深度,然后完成为稠密深度图。已有大量研究致力于稀疏深度数据的补全问题。早期方法依赖于基于滤波 [21, 26, 31] 和优化 [16, 68] 的技术来完成深度补全。近期方法则采用基于学习的策略 [10, 11, 13, 37, 40, 42, 57–59, 67, 78]。这些方法通常在如 NYUv2 [15] 这类深度数据集上使用模拟稀疏 LiDAR 进行评估,而非真实室内 LiDAR 数据,因为真实测试需要同时具备低功耗和高功耗的 LiDAR 传感器。

近年来也有方法收集了同时包含低功耗和高功耗 LiDAR 的数据。例如,DELTA [32] 使用 L5 和 Intel RealSense 435i 构建了一个数据采集系统,而另一些数据集 [3, 27, 50, 72] 则使用 iPhone LiDAR 和 FARO LiDAR 进行采集。我们重点关注后者,因为 iPhone 的普及性使其更具实际应用价值。

与我们工作相近的还有近期提出的 Depth Prompting [43]。但我们的方法与其存在本质区别:我们使用稀疏深度作为 prompt 输入给深度基础模型,直接引导其生成特定输出;而对方方法则是将稀疏深度与深度基础模型的特征融合,用于对其输出进行后处理,这并不构成对基础模型的 prompting。
在这里插入图片描述

阅读全文请访问 Prompt Depth Anything:以提示方式驱动的Depth Anything用于实现4K分辨率下的精确米制深度估计

相关文章:

  • RabbitMQ中,basicAck、basicNack和basicReject是三种核心的消息确认机制
  • 网络安全碎碎恋
  • Elasticsearch 集群升级实战指引—7.x 升级到 8.x
  • SRS流媒体服务器之本地测试rtc推流bug
  • 【HuggingFace】模型下载至本地访问
  • 【硬核数学】8. AI的“想象力”:概率深度学习与生成模型《从零构建机器学习、深度学习到LLM的数学认知》
  • 人工智能-基础篇-7-什么是大语言模型LLM(NLP重要分支、Transformer架构、预训练和微调等)
  • java:如何用 JDBC 连接 TDSQL 数据库
  • 【电路笔记 TMS320F28335DSP】TI SCI (增强型的UART) 点对点异步串行通信接口
  • 如何通过自动化减少重复性工作
  • Dify私有化知识库搭建并通过ChatFlow智能机器人使用知识库的详细操作步骤
  • Day46 通道注意力(SE注意力)
  • 第三次课:实验室安全用电
  • 【linux】文件与目录命令 - csplit
  • 将iso镜像文件格式转换为云平台支持的镜像文件格式
  • JavaScript基础pink[3]-函数/作用域/预解析
  • 【硬核数学】3. AI如何应对不确定性?概率论为模型注入“灵魂”《从零构建机器学习、深度学习到LLM的数学认知》
  • MCU、LIN收发器与LIN总线是如何进行交互的?
  • 设计模式(五)
  • php-m和phpinfo之间不一致的问题的可能原因和解决办法