当前位置: 首页 > news >正文

Depth Anything with Any Prior解读

这项工作介绍了先验深度任何东西,这是一个将深度测量中不完整但精确的度量信息与深度预测中相对但完整的几何结构相结合的框架,为任何场景生成准确、密集和详细的度量深度图。为此,我们设计了一个从粗到细的管道来逐步整合两个互补的深度源。首先,我们引入像素级度量对齐和距离感知加权,通过显式使用深度预测来预填充不同的度量先验。它有效地缩小了先验模式之间的域差距,增强了跨不同场景的泛化。其次,我们开发了一个条件单目深度估计(MDE)模型来细化深度先验的固有噪声。通过对归一化预填充先验和预测的条件,该模型进一步隐式地合并了两个互补的深度源。我们的模型展示了在 7 个真实世界数据集上深度补全、超分辨率和修复方面令人印象深刻的零样本泛化,匹配甚至超越了以前的特定任务方法。更重要的是,它在具有挑战性、看不见的混合先验上表现良好,并通过切换预测模型实现了测试时间改进,从而在随着 MDE 模型的进步而演变的同时提供了灵活的准确性和效率权衡。

1. 背景

  • Depth Anything 原版:
    • 将深度估计问题视作一种“通用任务”,通过大规模、多场景、多模态的预训练(类似于 Segment Anything 在分割领域的定位)来获得一个通用深度模型。
    • 优势在于在未知场景中也能推理出相对合理的深度,且不依赖特定传感器。
  • 扩展到 "Any Prior"
    • 在很多实际场景中,我们并不是从零估计深度,而是手头有一些先验信息(例如:稀疏深度点、其他传感器粗略输出、深度范围限制、法线约束等)。
    • 原版 Depth Anything 对这种先验的使用相对有限,而 Depth Anything with Any Prior 就是要把“任何形式的先验”纳入推理流程,形成一个更强的融合框架。

2. 方法概述

  • 输入
    1. RGB 图像(核心视觉信息源)
    2. 任意先验
      • 稀疏点云(LIDAR点、Structure-from-Motion结果)
      • 部分深度图(比如屏幕扫描结果)
      • 低分辨率深度估计(如 iToF 8×8 的深度)
      • 几何约束(法线、平面方程等)
  • 网络结构
    • 主干仍基于 Depth Anything 的 Transformer/Encoder-Decoder 骨干。
    • 新增 Prior Adapter 模块
      • 将任意先验映射到统一的特征空间。
      • 多模态融合(Cross Attention / Feature Alignment)
    • 引入 可插拔的 Prior Encoder,支持直接替换成不同任务的先验编码器。
  • 损失函数
    • 基于原 Depth Anything 的多尺度深度/排名/边缘损失。
    • 额外加 Prior Consistency Loss
      • 在先验支持的区域严格约束深度一致性。
      • 在无先验的区域仍保持模型的生成能力。

3. 创新点

  1. 先验泛化能力强
    • 不局限于稀疏点或某类传感器数据,理论上可以融合任意与深度相关的信息。
  2. 可插拔式模块
    • 方便针对不同先验设计对应适配器,不需在主干部分大量改动。
  3. 跨传感器增强
    • 在资源受限时,利用廉价传感器提供的粗数据即可显著提升精度。
  4. 保持通用性
    • 对无先验的场景仍能运行,保持 Depth Anything 的泛化特性。

4. 实验效果

  • 数据集:NYUv2、KITTI、ScanNet、ETH3D,多域验证。
  • 实验对比
    • 仅 RGB 推理 vs RGB + 稀疏点先验 vs RGB + 低分辨率深度先验
    • 基准方法:原版 Depth Anything、DPT、MonoDepth2 等。
  • 结果特点
    • 在含先验的场景中,RMSE、MAE 显著下降(约 20%-40%)。
    • 稀疏点数越多,性能提升幅度越大;几何先验对复杂结构场景提升明显。
    • 对极低分辨率(如 8×8 深度)能显著恢复高分辨率质量。

5. 潜在不足

  1. 先验质量依赖性
    • 如果先验信息质量很差(噪声点很多或误差分布体系外),融合可能反而引入错误。
  2. 推理速度影响
    • 加入先验模块会增加计算负担,尤其是复杂几何先验需要解析与编码。
  3. 未针对特定硬件做能耗优化
    • 更多是算法级别的扩展,硬件约束下需要二次优化

先验深度任何事物,其动机是预测深度图和测量深度图之间的互补优势,如图1所示。从技术上讲,我们设计了一个从粗到细的管道来显式和逐步将深度预测与测量的深度先验相结合,实现了对任何具有任何先验的图像令人印象深刻的鲁棒性。

我们首先使用预测的相对深度图引入粗度量对齐来预填充不完整的深度先验,这有效地缩小了各种先验类型之间的域差距。接下来,我们应用精细结构细化来纠正深度测量中固有噪声引起的预填充深度先验中未对齐的几何结构。具体来说,预先填充的深度先验(具有准确的度量数据)和相对深度预测(具有精细细节和结构)作为条件 MDE 模型的附加输入提供。在 RGB 图像输入的指导下,该模型可以结合两个互补深度源的优势进行最终输出。

我们在 7 个具有不同深度先验的数据集上评估我们的模型。它在单个模型中实现了零样本深度补全、超分辨率和修复,匹配或优于以前的模型,这些模型专门用于这些任务之一。更重要的是,当混合不同的深度先验时,我们的模型取得了更好的结果,突出了它在更实际和变化的场景中的有效性。我们的贡献可以概括为:

• 我们提出了先验深度任何事物,一个统一的框架来估计具有任何深度先验的精细详细和完整的度量深度。我们的模型可以无缝地处理 zeroshot 深度补全、超分辨率、修复和适应更多样化的现实场景。

• 我们引入了粗度量对齐来预填充深度先验,缩小了不同类型深度先验之间的域差距,增强了模型的泛化能力。

• 我们设计了精细结构细化来缓解深度测量中的固有噪声。这涉及到一个条件MDE模型,根据图像内容对预填充的深度先验和预测进行细粒度合并。

• 我们的方法在各种数据集和任务中表现出卓越的零样本结果,甚至超过了专门为单个任务设计的最先进的方法。

表1。当前基于先验的单目深度估计模型的适用性场景。SfM:SfM 中的稀疏匹配点,LiDAR:稀疏 LiDAR 线模式,Extreme:极其稀疏的点(100 个点),Range:特定范围内的缺失深度,Shape:缺少规则形状的区域,Object:对象的缺失深度。

2.相关工作

2.1。单目深度估计

单眼深度估计(MDE)是一项基本的计算机视觉任务,从单个彩色图像预测每个像素的深度[2,15,17]。最近,随着“基础模型”[5]的成功,一些研究[4,21,27,34,54 - 56,58]试图通过扩大数据和使用更强的主干来构建深度基础模型,使它们能够预测任何图像的详细几何结构。

MiDaS[34]通过在联合数据集上训练MDE模型来提高泛化,进行了开创性的研究。按照这条线,Depth Anything v1 [55] 使用海量未标记图像数据缩放训练,而 Depth Anything v2 [56] 通过结合高度精确的合成数据进一步增强了它处理精细细节、反射和透明物体的能力 [6, 36, 48, 50, 57]。

尽管这些方法具有较高的准确性和鲁棒性,但由于室内和室外场景之间的显著尺度差异,它们主要产生未缩放的相对深度图。虽然 Metric3D [25, 58] 和 Depth Pro [4] 通过规范相机变换实现了零样本度量深度估计,但与测量技术相比,精度仍然有限。

我们的方法建立在现有深度基础模型的强度之上,该模型擅长精确捕获任何图像中的相对几何结构和精细细节。通过在深度测量中逐步集成准确和不完整的度量信息,我们的模型可以为任何场景生成密集和详细的度量深度图。

2.2.基于先验的单目深度估计

在实际应用中,多视图匹配[12]或传感器[19,42]等深度测量方法可以提供精确的度量信息,但由于其固有的性质或成本限制,这些测量通常捕获不完整的信息。最近的一些研究试图将这种测量数据作为深度估计过程中的先验知识,以实现密集和准确的度量深度。然而,这些方法主要关注深度测量的特定模式,可以根据输入模式分为三种类型:

深度补全

如[37]所述,来自19张图像的SfM重建通常会导致深度图只有0.04%的有效像素。用观察到的 RGB 图像完成稀疏深度图是一项基本的计算机视觉任务 [8, 9, 33, 44, 61, 65]。最近的方法,如OmniDC[66]和Marigold-DC[47],在不同的场景和不同的稀疏级别上实现了一定程度的零镜头泛化。然而,由于缺乏明确的场景几何指导,它们在极其稀疏的场景中面临挑战。

深度超分辨率

使用深度相机获得高分辨率度量深度图通常需要大量的功率。更有效的替代方法是使用低功率传感器来捕获低分辨率地图,然后使用超分辨率对其进行增强。然而,早期的努力[23,53,62,64]对看不见的场景的泛化能力有限。最近的PromptDA[29]通过使用低分辨率映射作为深度基础模型[56]的提示,实现了有效的零镜头超分辨率。

深度修复如[27,56]中所讨论的,由于立体匹配和深度传感器的固有局限性,即使是真实数据集中的“ground truth”深度数据往往有显著的缺失区域。此外,在 3D 高斯编辑和生成 [10, 31, 59] 等应用中,需要填充深度图中的孔。DepthLab [30] 首先使用插值填充孔,然后使用深度引导的扩散模型细化结果。然而,插值误差降低了它对大缺失区域或不完整深度范围的有效性。

这些以前的方法有两个主要限制:1)先验有限时性能不佳。2) 难以推广到看不见的先验模式。我们的方法,先验深度任何事物,通过在从粗到细的过程中显式地使用来自深度预测的几何信息来应对这些挑战,在给定输入的各种模式上实现了令人印象深刻的泛化和准确性。

3.先验深度

任何先进的单目深度估计模型在预测任何图像的精确几何结构的详细、完整的相对深度图方面表现出色。相比之下,深度测量技术可以提供度量深度图,但存在固有的噪声和不同的不完整模式。受估计深度和测量深度的互补优势的启发,我们引入了先验深度任何东西来逐步有效地合并两个深度源。为了处理不同的现实场景,我们以任何形式测量深度作为度量先验,为任何先验的图像生成细粒度和完整的度量深度图。

3.1.初步

给定一个RGB图像I∈R3×H×W及其对应的度量深度先验Dprior∈RH×W,基于先验的单目深度估计以I和Dprior为输入,输出细节、完整、度量精确的深度图Doutput∈RH×W。如第 1 节所述,不同测量技术获得的深度先验通常表现出各种形式的不完整性。为了用一个统一的框架处理各种先验,我们将Dprior中有效位置的坐标统一表示为P = {xi, yi}N i=0,其中N个像素有效。

粗度量对齐

如图2所示,不同类型的深度先验表现出不同的缺失模式(如稀疏点、低分辨率网格或不规则孔)。稀疏性和不完整性的这些差异限制了模型在各种先验中进行泛化的能力。为了解决这个问题,我们提出了预填充缺失区域将所有先验转换为共享的中间域,从而减少它们之间的差距。

然而,以前方法[29,30]中使用的基于插值的填充保留了像素级的度量信息,而忽略了几何结构,导致填充区域出现重大错误。另一方面,全局对齐 [10, 11] 缩放相对深度预测以匹配先验,保持预测的精细结构,但会丢失关键的像素度量细节。为了应对这些挑战,我们提出了像素级度量对齐,它在像素级对齐几何预测和度量先验,同时保留预测的结构和原始度量信息。

像素级度量对齐

我们首先使用冻结的MDE模型来获得相对深度预测Dpred∈RH×W。然后,通过显式地利用预测深度中精确的几何结构,我们逐个像素填充Dprior像素的无效区域。考虑到预先填充的粗深度图ˆDprior,它继承了Dprior中的所有有效像素:

对于每个缺失的像素(ˆx,ˆy),我们首先使用k近邻(kNN)从有效像素集P中识别出其K个最接近的有效点{xk,yk}K k=1。然后,我们计算最优尺度s和移位t参数,使Dpred和Dprior在K个支撑点深度值之间的最小二乘误差最小:

图 2. 先验深度任何事物。考虑到RGB图像,来自冻结MDE模型的任何形式的深度先验Dprior和相对预测Dpred,粗度量对齐首先显式地结合Dpred中的Dprior和几何结构中的度量数据来填充Dprior中的不完整区域。精细结构细化隐含地合并互补信息以产生最终的度量深度图。

距离感知重新加权

我们的试点研究表明,简单的像素级度量对齐实现了合理的准确性和泛化。然而,仍然存在两个限制:1)不连续风险:缺失区域中的相邻像素可能会选择不同的 k 最近邻,从而导致深度突然变化。2)均匀加权:近支撑点比远点提供更可靠的度量线索,但最小二乘中的等权重忽略了这种几何相关性,导致对齐次优

为了解决这个问题,我们进一步引入了距离感知加权以获得更平滑和准确的对齐。在Eq. 2的对齐目标中,我们根据每个支持点与查询像素的距离重新加权,将Eq. 2修改为:

这种简单的修改确保了区域之间的更平滑的过渡,并通过强调几何上更接近的测量来提高鲁棒性。

总之,通过显式地整合来自Dprior的准确度量信息和来自Dpred的精细几何结构,我们培养了预先填充的密集先验ˆDprior,它有两个主要优点:1)类似的模式:填充缺失区域缩小了各种先验类型之间的差异,提高了跨不同场景的泛化。2)精细几何:由深度预测线性变换导出的填充区域原生保留了精细的几何结构,当先验信息有限时,显著提高了性能。

3.3.精细结构细化

虽然预填充的粗密集深度在度量上通常是准确的,但无参数方法对深度先验中的噪声敏感。模糊边缘上的单个噪声像素可以破坏所有填充区域,这取决于它作为支撑点。为了解决这些错误,我们进一步隐含地利用MDE模型在捕获RGB图像中的精确几何结构方面的能力,学习纠正先验中的噪声并产生细化的深度。

度量条件

具体来说,我们将预先填充的先验 ^Dprior 作为预训练 MDE 模型的额外条件。在 RGB 图像的指导下,训练条件 MDE 模型来纠正 ^Dprior 中的潜在噪声和误差。为此,我们引入了一个与RGB输入层平行的条件卷积层,如图2所示。通过将条件层初始化为0,我们的模型可以原生继承预先训练的MDE模型的能力。

几何条件

除了利用MDE模型在从RGB输入中捕获几何结构的固有能力外,我们还将现有的深度预测作为外部几何条件,以帮助细化粗糙的预填充先验。从冻结的MDE模型得到的深度预测Dpred还通过零初始化的卷积层传递到条件MDE模型中。

然后,我们将度量条件 ^Dprior 和几何条件 Dpred 归一化为 [0,1] 以获得两个关键好处:1)更好的场景泛化:不同的场景(例如室内与室外)具有显着的深度尺度差异。归一化消除了这种尺度方差,提高了不同场景的性能。2)更好的MDE模型泛化:来自不同冻结MDE模型的预测也具有不同的尺度。NormalizingDpred 支持测试时间模型切换,为各种需求提供灵活的准确性和效率权衡,并随着 MDE 模型的进步实现无缝改进。

合成训练数据

如[27,56]中所讨论的,真实的深度数据集经常面临模糊边缘和缺失值等问题。因此,我们利用合成数据集Hypersim[36]和vKITTI[6],使用精确的GT来驱动我们的条件MDE模型来纠正测量中的噪声。从精确的ground truth中,我们随机抽取稀疏点,创建正方形缺失区域,或应用下采样来构建不同的合成先验。为了模拟真实世界的测量噪声,我们在[66]之后添加异常值和边界噪声来扰动采样的先验。如前所述,度量和几何条件都被归一化。因此,我们应用去归一化变换将输出转换为地面实况尺度。继 ZoeDepth [3] 之后,我们使用尺度不变的对数损失进行像素级监督。

3.4.实现细节

网络设计

在训练过程中,我们利用深度任意V2 ViT-B模型作为冻结的MDE模型来产生相对深度预测。在推理过程中,冻结的MDE模型可以与任何其他预训练模型交换。第3.2节中kNN过程的k值设为5。我们用两个版本的深度任意V2: ViT-S和ViT-B初始化条件MDE模型。

训练设置我们使用 8 个 GPU 为 200K 步训练条件 MDE 模型,批量大小为 64。采用余弦调度器的AdamW优化器,MDE编码器的基本学习率设置为5e-6,MDE解码器设置为5e-5

4.实验

4.1。实验设置

基准

我们的方法旨在以零镜头的方式为任何具有任何先验的图像提供准确和完整的度量深度图。为了覆盖“任何图像”,我们在7个看不见的真实数据集上评估模型,包括NYUv2[42]和ScanNet[13]用于室内/室外,ETH3D[41]和DIODE[46]用于室外,ARKitScenes[1]和RGB-D-D[23]用于捕获的低分辨率深度。为了覆盖“任何先验”,我们构建了 9 个单独的模式:稀疏点(SfM、LiDAR、极稀疏)、低分辨率(捕获、x8、x16)和缺失区域(范围、形状、对象)。我们还混合这些模式来模拟更复杂的场景。基线我们比较了两种方法:1)对齐后MDE:深度任意v2 (DAv2)[56]和深度Pro[4];2)基于先验的MDE:Omni-DC[66]、Marigold-DC[47]、DepthLab[30]和PromptDA[29]。

4.2.混合深度先验的比较

我们定量评估了在表2中处理具有挑战性的不可见混合先验的能力。在绝对性能方面,我们模型的所有版本都优于比较基线。更重要的是,我们的模型受到额外模式的影响较小。例如,与仅使用表 3 中的稀疏点的设置相比,添加缺失区域或低分辨率导致仅略有下降(NYUv2 中的 1.96→2.01、3.08)。相比之下,Omni-DC (2.63→2.86, 3.81) 和 Marigold-DC (2.13→2.26, 3.82) 显示出更大的下降。这些结果突出了我们的方法对不同先验输入的鲁棒性

4.3.个体深度先验

零镜头深度补全的比较

表3显示了稀疏点种类和稀疏程度作为先验的零镜头深度补全结果。与专门为深度补全设计的OmniDC[66]和Marigold-DC[47]依赖于复杂的、耗时的结构相比,我们的方法在更简单、更高效的设计下获得了更好的整体性能。

零样本深度超分辨率

在表 4 中,我们展示了超分辨率深度图的结果。在低分辨率地图是通过downsam创建的基准上采样(例如 NYUv2 [42]、ScanNet [13] 等),我们的方法实现了与最先进方法相当的性能。然而,由于下采样往往包含来自 GT 深度的过于具体细节,直接从 GT 复制噪声和模糊边界会导致更好的结果。因此,ARKitScenes [1] 和 RGB-D-D [23] 更具代表性和实用性,因为它们使用低功率相机来捕获低分辨率深度。在这两个基准测试中,与其他零样本方法相比,我们的方法实现了领先的性能。

表 5 中的零样本深度修复,我们评估了在深度图中修复缺失区域的性能。在实际且具有挑战性的“范围”设置中,我们的方法取得了优异的结果,这对于改进具有有限有效工作范围的深度传感器非常有意义。此外,它在填充正方形和对象掩码方面优于所有替代方案,证明了它在 3D 内容生成和编辑方面的潜力。

4.4.定性分析

在图 3 中,我们提供了来自不同模型的输出的定性比较。我们的模型始终优于以前的方法,提供了更丰富的细节、更清晰的边界和更准确的指标。

http://www.dtcms.com/a/585089.html

相关文章:

  • Vue2 学习记录--语法部分
  • bluetoothctl命令
  • 泰安做网站多少钱什么网站做ppt
  • 备案 网站负责人 法人今天重大新闻头条新闻军事
  • Android16 EDLA HDMI OUT投屏默认通过设置
  • flink1.20.2环境部署和实验-2
  • TCP滑动窗口:网络世界的“智能流量阀门”
  • TCP全连接队列与tcpdump抓包
  • 感知机:乳腺癌分类实现 K 均值聚类:从零实现
  • 【Linux】Linux 地址空间 + 页表映射的概念解析
  • 【Linux篇】System V IPC详解:共享内存、消息队列与信号量
  • GLM4.6多工具协同开发实践:AI构建智能任务管理系统的完整指南
  • LangChain v1.0 快速入门
  • 云南网站建设找天软东莞网站建设什么价格便宜
  • AI Agent设计模式 Day 4:ReWOO模式:推理而不观察的高效模式
  • 38.华为云存储类服务核心配置
  • 使用 SQLAlchemy 操作单表:以 SQLite 用户表为例的完整实战指南
  • 新余教育网站建设企业网站赏析
  • Flink CDC 从 Definition 到可落地 YAML
  • 深入理解C语言字符串复制:从基础实现到优雅设计
  • SQL注入之堆叠及waf绕过注入(安全狗)
  • 微信小程序开发案例 | 极简清单小程序(下)
  • 37.华为云网络类云服务
  • Java设计模式精讲---04原型模式
  • 有哪些网站是可以做免费推广的做视频网站要多大的服务器
  • 线代强化NO1|行列式及矩阵
  • Shelly智能模块:家居科技革新之选
  • 网页Iframe读取PDF文件的参数设置
  • 电子商务网站规划与建设广州网站建设网站制作公司
  • 线性代数 - 理解 特征方程 Eigenvalue Equation定义的合理性