【arXiv2025】Real-Time Object Detection Meets DINOv3
发布期刊:arXiv
论文作者:Shihua Huang, Yongjie Hou, , Longfei Liu, Xuanlong Yu, Xi Shen
发布年份:2025
模型代码:
https://github.com/Intellindust-AI-Lab/DEIMv2
文章目录
- 论文创新点
- 方法
- STA
- Efficient Decoder(高效解码器)
- Enhanced Dense O2O(密集一对一匹配增强)
- 训练策略与损失函数
- 实验
- 结论
论文创新点
• 我们提出了DEIMv2,它提供了八种模型尺寸,适用于GPU、边缘设备和移动设备部署。
• 对于更大的模型,我们利用DINOv3获取强大的语义特征,并引入STA以将其高效集成到实时目标检测中。
• 对于超轻量级模型,我们利用专家知识对HGNetv2-B0的深度和宽度进行有效剪枝,以满足严格的计算约束。
• 除了骨干网络,我们进一步简化了解码器并升级了Dense O2O,从而进一步突破性能极限。
方法

整体架构。我们的整体架构遵循RT-DETR的设计,包括骨干网络、混合编码器和解码器。如表1所示,对于主流的X、L、M和S变体,骨干网络基于DINOv3,并配有我们提出的空间调优适配器(STA),而其余变体则使用HGNetv2。来自骨干网络的多尺度特征首先由编码器处理,以生成初始检测结果并选择排名前K的候选边界框。解码器迭代优化这些候选框以生成最终预测。
STA

为了更好地使DINOv3特征适应实时目标检测,我们提出了空间调优适配器(STA),如图2所示。STA是一个全卷积网络,它集成了一个超轻量级前馈网络用于提取细粒度多尺度细节,同时还包含一个双向融合算子,以进一步增强来自DINOv3的特征表示。
目标:
弥补 DINOv3 特征仅为单尺度(1/16)的缺陷,使其能适应多尺度目标检测任务。
结构与流程:
输入: DINOv3 的中间层特征(如第 5、8、11 层)。
操作:
采用 双线性插值(parameter-free) 将单尺度特征调整为多个分辨率(如 1/8、1/16、1/32)。
引入 Bi-Fusion 操作(1×1 卷积 + 轻量 CNN)将语义特征与局部细节融合。
输出: 具有丰富语义与细粒度信息的多尺度特征。
Efficient Decoder(高效解码器)

我们集成了SwiGLUFFN以增强非线性表示能力,集成了RMSNorm以高效稳定和加速训练。注意到对象查询位置在迭代优化过程中变化极小,我们进一步提出在所有解码器层之间共享单个位置嵌入,从而消除冗余计算。
SwiGLUFFN:




RMSNorm:
LayerNorm 同时使用了“均值去除 + 方差归一化”。
但是研究发现,对 Transformer 来说,去除均值并不是必须的。
因此,RMSNorm 去掉了均值项,只保留对方差(或均方根)的归一化操作。

Enhanced Dense O2O(密集一对一匹配增强)
源于 DEIM 的核心理念,旨在提供更强的监督信号:
在图像层面继续使用 Mosaic / MixUp 增强;
新增 Copy-Blend 数据增强:
与 Copy-Paste 不同,Copy-Blend 以“融合”而非“覆盖”方式插入新目标;
Copy-Blend = “目标级别的混合复制”
它的核心是:
从一张图像中“复制”目标实例,并“融合”到另一张图像中,
但不完全覆盖原背景,而是平滑地混合进去。
这与常见的 Copy-Paste 方法不同。
Copy-Paste 是“硬叠加”(覆盖原像素),
而 Copy-Blend 是“软融合”(通过透明度混合像素值)

其中 α∈[0.3,0.7] 控制透明度。
训练策略与损失函数

Lmal:Matchability-Aware Loss(改进的匹配感知损失)
Lfgl:Fine-Grained Localization Loss(细粒度定位损失)
Lddf:Decoupled Distillation Focal Loss(解耦蒸馏焦点损失)
Lbbox & Lgiou:传统边框与 GIoU 损失
对极轻量模型(Pico/Femto/Atto),去掉 FGL 与 DDF,以避免过拟合
实验
表3. 与COCO [12] val2017上的实时目标检测器的对比,按参数大小排序。

表4. 超轻量模型在COCO [12] val2017上与实时目标检测器的对比。

结论
在本报告中,我们介绍了DEIMv2,这是新一代实时目标检测器,它结合了DINOv3强大的语义表示能力和我们的轻量级STA。通过精心设计和扩展,DEIMv2在全尺寸模型范围内都实现了最先进的性能。在高端领域,DEIMv2-X的平均精度(AP)达到57.8,且参数数量明显少于以往的大型检测器。在紧凑型领域,DEIMv2-S是同尺寸模型中首个平均精度超过50的模型,而超
