当前位置: 首页 > news >正文

【arXiv2025】Real-Time Object Detection Meets DINOv3

发布期刊:arXiv
论文作者:Shihua Huang, Yongjie Hou, , Longfei Liu, Xuanlong Yu, Xi Shen
发布年份:2025
模型代码:

https://github.com/Intellindust-AI-Lab/DEIMv2

文章目录

  • 论文创新点
  • 方法
    • STA
    • Efficient Decoder(高效解码器)
    • Enhanced Dense O2O(密集一对一匹配增强)
    • 训练策略与损失函数
  • 实验
  • 结论

论文创新点

• 我们提出了DEIMv2,它提供了八种模型尺寸,适用于GPU、边缘设备和移动设备部署。
• 对于更大的模型,我们利用DINOv3获取强大的语义特征,并引入STA以将其高效集成到实时目标检测中。
• 对于超轻量级模型,我们利用专家知识对HGNetv2-B0的深度和宽度进行有效剪枝,以满足严格的计算约束。
• 除了骨干网络,我们进一步简化了解码器并升级了Dense O2O,从而进一步突破性能极限。

方法

在这里插入图片描述

整体架构。我们的整体架构遵循RT-DETR的设计,包括骨干网络、混合编码器和解码器。如表1所示,对于主流的X、L、M和S变体,骨干网络基于DINOv3,并配有我们提出的空间调优适配器(STA),而其余变体则使用HGNetv2。来自骨干网络的多尺度特征首先由编码器处理,以生成初始检测结果并选择排名前K的候选边界框。解码器迭代优化这些候选框以生成最终预测。

STA

在这里插入图片描述

为了更好地使DINOv3特征适应实时目标检测,我们提出了空间调优适配器(STA),如图2所示。STA是一个全卷积网络,它集成了一个超轻量级前馈网络用于提取细粒度多尺度细节,同时还包含一个双向融合算子,以进一步增强来自DINOv3的特征表示。
目标:
弥补 DINOv3 特征仅为单尺度(1/16)的缺陷,使其能适应多尺度目标检测任务。
结构与流程:
输入: DINOv3 的中间层特征(如第 5、8、11 层)。
操作:
采用 双线性插值(parameter-free) 将单尺度特征调整为多个分辨率(如 1/8、1/16、1/32)。
引入 Bi-Fusion 操作(1×1 卷积 + 轻量 CNN)将语义特征与局部细节融合。
输出: 具有丰富语义与细粒度信息的多尺度特征。

Efficient Decoder(高效解码器)

在这里插入图片描述
我们集成了SwiGLUFFN以增强非线性表示能力,集成了RMSNorm以高效稳定和加速训练。注意到对象查询位置在迭代优化过程中变化极小,我们进一步提出在所有解码器层之间共享单个位置嵌入,从而消除冗余计算。
SwiGLUFFN
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

RMSNorm:
LayerNorm 同时使用了“均值去除 + 方差归一化”。
但是研究发现,对 Transformer 来说,去除均值并不是必须的。
因此,RMSNorm 去掉了均值项,只保留对方差(或均方根)的归一化操作。
在这里插入图片描述

Enhanced Dense O2O(密集一对一匹配增强)

源于 DEIM 的核心理念,旨在提供更强的监督信号:
在图像层面继续使用 Mosaic / MixUp 增强;
新增 Copy-Blend 数据增强:
与 Copy-Paste 不同,Copy-Blend 以“融合”而非“覆盖”方式插入新目标;
Copy-Blend = “目标级别的混合复制”
它的核心是:
从一张图像中“复制”目标实例,并“融合”到另一张图像中,
但不完全覆盖原背景,而是平滑地混合进去。
这与常见的 Copy-Paste 方法不同。
Copy-Paste 是“硬叠加”(覆盖原像素),
而 Copy-Blend 是“软融合”(通过透明度混合像素值)
在这里插入图片描述
其中 α∈[0.3,0.7] 控制透明度。

训练策略与损失函数

在这里插入图片描述
Lmal:Matchability-Aware Loss(改进的匹配感知损失)
Lfgl:Fine-Grained Localization Loss(细粒度定位损失)
Lddf:Decoupled Distillation Focal Loss(解耦蒸馏焦点损失)
Lbbox & Lgiou:传统边框与 GIoU 损失
对极轻量模型(Pico/Femto/Atto),去掉 FGL 与 DDF,以避免过拟合

实验

表3. 与COCO [12] val2017上的实时目标检测器的对比,按参数大小排序。
在这里插入图片描述
表4. 超轻量模型在COCO [12] val2017上与实时目标检测器的对比。
在这里插入图片描述

结论

在本报告中,我们介绍了DEIMv2,这是新一代实时目标检测器,它结合了DINOv3强大的语义表示能力和我们的轻量级STA。通过精心设计和扩展,DEIMv2在全尺寸模型范围内都实现了最先进的性能。在高端领域,DEIMv2-X的平均精度(AP)达到57.8,且参数数量明显少于以往的大型检测器。在紧凑型领域,DEIMv2-S是同尺寸模型中首个平均精度超过50的模型,而超

http://www.dtcms.com/a/524189.html

相关文章:

  • 绍兴网站建设专业的公司4000-262-怎么在百度上发帖推广
  • AH2203输入12v输出3v 6v 9v/2A同步降压LED驱动器芯片
  • C如何调用Go
  • 使用Mathematica编写一个高效的Langevin方程求解器
  • 中国软件企业出海,为什么80%都选择这家服务商?
  • 《红黑树核心机制解析:C++ STL中map/set高效实现原理与工程实践》
  • Spring Boot 使用 Redis 实现消息队列
  • 从renderToString到hydrate,从0~1手写一个SSR框架
  • git报错no new changes、does not match any
  • 公司做网站的费用怎么做账望野作品
  • 【第五章:计算机视觉-项目实战之推荐/广告系统】2.粗排算法-(4)粗排算法模型多目标算法(Multi Task Learning)及目标融合
  • Prometheus 监控系统全维度指南
  • Gradle 增量构建与构建缓存:自定义 Task 如何实现 “只构建变化内容”?
  • 【笑脸惹桃花】1024,阶段性回望与小结
  • 农产品网站建设策划方案网站获取qq号码 代码
  • 网站服务器的作用和功能有哪些福田欧辉是国企吗
  • R语言高效数据处理-变量批量统计检验
  • 云图-地基云图
  • R语言基于selenium模拟浏览器抓取ASCO数据-连载NO.03
  • 多分组火山图绘制-Rscript_version1.0
  • 【开题答辩全过程】以基于Hadoop的电商数据分析系统为例,包含答辩的问题和答案
  • 申威服务器安装Java11(swjdk-11u-9.ky10.sw_64.rpm)详细操作步骤(附安装包)
  • UVa 1596 Bug Hunt
  • 企业数据仓库
  • 如何用 HTML 生成 PC 端软件
  • Apache Spark算法开发指导-特征转换Normalizer
  • 泗洪网站建设变化型网页网站有哪些
  • 渭南哪家公司可以做网站小程序开发制作价格
  • 广州城市建设规划局网站我想给网站网站做代理
  • 蓝蜂 MQTT 网关打通 120 台设备数据,助汽车零部件厂降本 40%​