当前位置: 首页 > news >正文

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开国防科大]

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开&国防科大]

文章目录

  • 前言
  • 正文
    • 创新点
    • 解决的问题
    • 实验验证
  • 总结
  • 参考

前言

本文介绍了DFormer,一种新的RGB-D预训练框架,用于学习可迁移的RGB-D表示以应用于语义分割任务12

正文

创新点

DFormer的两个关键创新点是:

  1. 不像先前工作那样使用RGB预训练主干网络编码RGB-D信息,而是使用ImageNet-1K中的图像-深度对进行主干网络的预训练,从而赋予DFormer编码RGB-D表示的能力;
  2. DFormer包含一系列专门设计的RGB-D块,用于通过新颖的构建块设计同时编码RGB和深度信息。实验结果表明,DFormer在两项流行的RGB-D任务(即RGB-D语义分割和RGB-D显著目标检测)上取得了最新的最佳性能,计算成本仅为当前最佳方法的一半。

解决的问题

具体来说,DFormer通过以下方式解决了现有方法中存在的问题:

  1. 避免了RGB预训练主干网络对深度图中3D几何关系的不匹配编码;
  2. 在预训练过程中,在构建块内建立RGB和深度特征之间的交互,减少了主干网络外部的重交互模块;
  3. 观察到深度信息只需要少量通道来编码,从而有效减少了模型大小。

实验验证

在实验部分,论文作者展示了DFormer在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的优越性能。例如,DFormer-L在NYU Depthv2数据集上达到了57.2%的mIoU,而参数和计算量分别仅为39.0M和65.7G Flops。相比之下,最近的最佳方法CMX(MiT-B2)使用66.6M参数和67.6G Flops仅能达到54.4%的mIoU。

总结

论文作者进行了消融研究,分析了DFormer各组件的有效性。实验结果表明,RGB-D预训练对于提升分割准确性至关重要,且DFormer的解码器只需使用RGB特征即可高效融合两种模态的信息,进一步证明了所提框架和构建块更适合RGB-D分割任务。

请添加图片描述

请添加图片描述

参考


  1. VCIP-RGBD/DFormer: [CVPR 2025]DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation && [ICLR 2024] DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ↩︎

  2. VCIP-RGBD/RGBD-Pretrain: RGBD Pretraining code used in DFormer [ICLR 2024] ↩︎

相关文章:

  • printf函数在调试可用但烧录后失效的全面解析与解决方案
  • 【大模型:知识图谱】--5.neo4j数据库管理(cypher语法2)
  • OpenCV C/C++ 视频播放器 (支持调速和进度控制)
  • 图片压缩工具 | 图片属性详解及读取解析元数据
  • python入门(1)
  • MySQL权限详解
  • PCB设计教程【大师篇】——产品设计流程
  • 交叉相关和卷积
  • css-塞贝尔曲线
  • Windows 下载、安装、配置和使用Node
  • 2. 库的操作
  • 蚂蚁森林自动收能量助手:Ant_Forest_1_5_4_3绿色行动新选择
  • LangChain深度解析:LLM应用开发利器
  • Python应用函数的定义与调用(一)
  • ideal2022.3.1版本编译项目报java: OutOfMemoryError: insufficient memory
  • string类
  • JavaScript性能优化实战:深入探讨JavaScript性能瓶颈与优化技巧
  • Apereo CAS
  • Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测
  • React组件基础
  • 网站建设开发人员配置/厦门关键词排名提升
  • 搭建正规网站/公司网站建设服务机构
  • 杭州哪里做网站好/小程序设计
  • 做家乡特产的网站/seo的培训网站哪里好
  • 做下载网站赚钱/活动营销推广方案
  • 广州割双眼皮网站建设/怎样在百度上宣传自己的产品