当前位置: 首页 > news >正文

[2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率

1. ​问题背景与挑战

盲深度超分辨率(Blind Depth Super-Resolution, DSR)的目标是从低分辨率(LR)深度图中恢复高分辨率(HR)深度图,但现有方法在真实场景下面临显著挑战:

  • 已知降级假设的局限性​:当前RGB引导的DSR方法(如双三次下采样)在合成数据集上表现良好,但真实世界深度数据常受传感器限制和复杂成像环境(如低反射表面、光照变化)影响,导致非传统且未知的降级(例如结构失真和模糊)。这种降级会破坏深度图与RGB图的结构一致性,显著降低模型性能。
  • 真实与合成数据的差异​:真实世界LR深度(如ToF相机捕获)相比合成LR深度(如双三次下采样)表现出更严重的结构失真和分布差异(如图2所示),使恢复任务更复杂。传统方法无法适应这种未知降级,需新方法建模隐式降级表示。

 

现有方法的不足​:如图1所示,传统方法直接融合RGB与对齐的LR深度,忽略了降级建模;而DORNet专注于学习LR深度的降级表示,以提供针对性恢复指导。 

 

2. ​DORNet框架概述

DORNet是一个新颖的盲DSR框架,核心思想是通过隐式降级表示自适应处理真实场景的未知降级。其整体架构包括:

  • 输入与输出​:给定LR深度图 Dlr​∈Rh×w×1 和RGB图像 I∈Rsh×sw×3(s 为上采样因子),输出恢复的HR深度图 Dhr​∈Rsh×sw×1。
  • 关键模块​:
    • 自我监督降级学习策略(Self-Supervised Degradation Learning)​​:建模LR深度的降级表示,无需降级标签。
    • 降级导向融合方案(Degradation-Oriented Fusion Scheme)​​:基于学到的降级先验,选择性融合RGB与深度特征。
  • 轻量版设计​:DORNet-T通过减少卷积通道数(降至原始3/8)实现高效推理,同时保持相同架构。

 

3. ​核心技术细节

a. ​自我监督降级学习策略
  • 降级表示生成​:输入上采样LR深度 Dup​,通过残差块 frb​ 和降级编码器 Ed​ 生成降级表示 D~ 和 D:

 

路由选择机制​:受Mixture-of-Experts启发,设计路由编码器 Er​ 动态分配降级表示至多尺度降级核生成器: 

如图4所示,学到的降级表示 D~ 能精准识别退化区域(如梯度直方图对比)。
 

b. ​降级导向融合方案
  • DOFT模块(Degradation-Oriented Feature Transformation)​​:核心组件,递归执行多次(默认5次),选择性传播RGB特征至深度特征:
    • RGB特征对齐​:使用 D~ 生成偏移 Δp 和调制标量 Δm,结合 D 生成权重 w,通过可变形卷积(DCN)对齐RGB特征 Frt−1​:

 

选择性传播​:编码 D~ 为亲和系数 σ,融合 Frd​ 与深度特征 Fdt−1​:Fdt​=fc​([Fdt−1​,σ⊗fc​(Frd​)+Frd​]). 

 

4. ​实验结果与性能

a. ​数据集与设置
  • 数据集​:
    • 真实世界​:RGB-D-D(2,215训练/405测试)、TOFDSR(10K训练/560测试,使用ToF相机数据)。
    • 合成数据​:NYU-v2(1,000训练/449测试,双三次下采样生成LR)。
  • 评估指标​:RMSE(均方根误差,厘米单位),参数数量(Params)和推理时间。
b. ​主要结果
  • 真实世界性能(表1)​​:DORNet在RGB-D-D和TOFDSR上均优于现有方法(如SFG、SGNet)。例如:
    • RGB-D-D:RMSE 3.42 cm(vs. SFG的3.88 cm),参数仅3.05M。
    • TOFDSR:RMSE 4.33 cm(与SGNet持平),参数更低。
  • 噪声鲁棒性(表2)​​:在添加高斯噪声和模糊后,DORNet保持最优(如RGB-D-D噪声环境RMSE 4.08 cm,优于SFG的4.24 cm)。
  • 合成数据性能(表3)​​:在NYU-v2上,DORNet-T(轻量版)在x4上RMSE 1.33 cm,优于DCTNet(1.59 cm)和FDSR(1.61 cm)。
  • 效率权衡(图6)​​:DORNet-T在参数(0.46M)、推理时间(35%低于DCTNet)和FPS间取得平衡。

 

可视化结果​:如图8-9所示,DORNet恢复的HR深度结构更精确(如手袋边缘),错误图亮度更低。 

 

DCTNet SFG SGNet DORNet-T DORNet
Figure 8. Visual results(left) and error maps(right) on the real-world RGB-D-D dataset(w/o Noise). 

 

c. ​消融研究
  • 降级学习与正则化(图11)​​:移除降级学习(DL)和正则化(DR)时,RMSE上升0.82 cm;联合使用效果最佳。
  • DOFT迭代次数(图12a)​​:5次迭代达到性能-复杂度平衡。
  • 损失函数(图12b)​​:Ldeg​ 和 Lcont​ 联合降低RMSE 0.27 cm(噪声环境)。
  • 生成器数量(图12c)​​:4生成器选3(g4k3)最优。

 


5. ​主要贡献与结论

  • 贡献​:
    1. 新颖框架​:提出DORNet,首次通过隐式降级表示处理真实场景未知降级。
    2. 自我监督降级学习​:基于路由选择的降级正则化,无监督建模降级表示。
    3. 降级导向融合​:DOFT模块利用降级先验选择性传播RGB内容。
    4. 实验验证​:在真实和合成数据集上实现SOTA,模型轻量高效。
  • 结论​:DORNet通过学习LR深度的降级表示,为RGB-D融合提供针对性指导,显著提升盲DSR在真实场景的鲁棒性和精度。未来可扩展至其他多模态恢复任务。

论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_DORNet_A_Degradation_Oriented_and_Regularized_Network_for_Blind_Depth_CVPR_2025_paper.pdf

http://www.dtcms.com/a/301231.html

相关文章:

  • 马尔可夫链
  • 设计模式(十三)结构型:代理模式详解
  • Python 使用 asyncio 包处理并 发(避免阻塞型调用)
  • 图像智能识别算法记录
  • 动态规划 (Dynamic Programming) 算法概念-Python示例
  • Leetcode——287. 寻找重复数
  • SignalR 全解析:核心原理、适用场景与 Vue + .NET Core 实战
  • 工业控制系统安全之 Modbus 协议中间人攻击(MITM)分析与防范
  • 全面理解JVM虚拟机
  • RS485转profinet网关如何让JRT激光测距传感器开启自动模式连续测量模式
  • 淘宝获取店铺订单信息操作指南
  • Python爬虫入门:从零开始抓取网页数据
  • 每日一讲——Podman
  • 分布式事务-MQ事务消息学习与落地方案
  • 前端面试专栏-前沿技术:32.AI辅助开发工具应用
  • 0-1BFS(双端队列,洛谷P4667 [BalticOI 2011] Switch the Lamp On 电路维修 (Day1)题解)
  • 用 Flask 打造宠物店线上平台:从 0 到 1 的全栈开发实践
  • 电商项目_核心业务_数据归档
  • esp32-使用虚拟机开发-部署esp32的linux的环境
  • 如何关闭浏览器的迅雷图标 - 去掉浏览器左下角的迅雷图标 - chrome - 关闭迅雷检测
  • C/C++核心知识点详解
  • 剑指offer——搜索算法:数字序列中某一位的数字
  • Python操作Excel文件完整指南
  • 深度强化学习走向多智能体:从AlphaGo到智能车队
  • AtCoder Beginner Contest 416(A~D)
  • Leetcode 3629. Minimum Jumps to Reach End via Prime Teleportation
  • 由于主库切换归档路径导致的 Oracle DG 无法同步问题的解决过程
  • Java异常处理
  • 使用Python,OpenCV计算跑图的图像彩色度
  • 移植pbrt中的并行化到ray trace in weeks中