当前位置：首页 > news >正文

【arXiv2025】Real-Time Object Detection Meets DINOv3

news 2025/10/25 8:11:50

发布期刊：arXiv
论文作者：Shihua Huang, Yongjie Hou, , Longfei Liu, Xuanlong Yu, Xi Shen
发布年份：2025
模型代码：

https://github.com/Intellindust-AI-Lab/DEIMv2

文章目录

论文创新点
方法
- STA
- Efficient Decoder（高效解码器）
- Enhanced Dense O2O（密集一对一匹配增强）
- 训练策略与损失函数
实验
结论

论文创新点

• 我们提出了DEIMv2，它提供了八种模型尺寸，适用于GPU、边缘设备和移动设备部署。
• 对于更大的模型，我们利用DINOv3获取强大的语义特征，并引入STA以将其高效集成到实时目标检测中。
• 对于超轻量级模型，我们利用专家知识对HGNetv2-B0的深度和宽度进行有效剪枝，以满足严格的计算约束。
• 除了骨干网络，我们进一步简化了解码器并升级了Dense O2O，从而进一步突破性能极限。

方法

在这里插入图片描述

整体架构。我们的整体架构遵循RT-DETR的设计，包括骨干网络、混合编码器和解码器。如表1所示，对于主流的X、L、M和S变体，骨干网络基于DINOv3，并配有我们提出的空间调优适配器（STA），而其余变体则使用HGNetv2。来自骨干网络的多尺度特征首先由编码器处理，以生成初始检测结果并选择排名前K的候选边界框。解码器迭代优化这些候选框以生成最终预测。

STA

在这里插入图片描述

为了更好地使DINOv3特征适应实时目标检测，我们提出了空间调优适配器（STA），如图2所示。STA是一个全卷积网络，它集成了一个超轻量级前馈网络用于提取细粒度多尺度细节，同时还包含一个双向融合算子，以进一步增强来自DINOv3的特征表示。
目标：
弥补 DINOv3 特征仅为单尺度（1/16）的缺陷，使其能适应多尺度目标检测任务。
结构与流程：
输入： DINOv3 的中间层特征（如第 5、8、11 层）。
操作：
采用双线性插值（parameter-free）将单尺度特征调整为多个分辨率（如 1/8、1/16、1/32）。
引入 Bi-Fusion 操作（1×1 卷积 + 轻量 CNN）将语义特征与局部细节融合。
输出：具有丰富语义与细粒度信息的多尺度特征。

Efficient Decoder（高效解码器）

在这里插入图片描述
我们集成了SwiGLUFFN以增强非线性表示能力，集成了RMSNorm以高效稳定和加速训练。注意到对象查询位置在迭代优化过程中变化极小，我们进一步提出在所有解码器层之间共享单个位置嵌入，从而消除冗余计算。
SwiGLUFFN：
在这里插入图片描述

在这里插入图片描述

RMSNorm：
LayerNorm 同时使用了“均值去除 + 方差归一化”。
但是研究发现，对 Transformer 来说，去除均值并不是必须的。
因此，RMSNorm 去掉了均值项，只保留对方差（或均方根）的归一化操作。
在这里插入图片描述

Enhanced Dense O2O（密集一对一匹配增强）

源于 DEIM 的核心理念，旨在提供更强的监督信号：
在图像层面继续使用 Mosaic / MixUp 增强；
新增 Copy-Blend 数据增强：
与 Copy-Paste 不同，Copy-Blend 以“融合”而非“覆盖”方式插入新目标；
Copy-Blend = “目标级别的混合复制”
它的核心是：
从一张图像中“复制”目标实例，并“融合”到另一张图像中，
但不完全覆盖原背景，而是平滑地混合进去。
这与常见的 Copy-Paste 方法不同。
Copy-Paste 是“硬叠加”（覆盖原像素），
而 Copy-Blend 是“软融合”（通过透明度混合像素值）
在这里插入图片描述
其中 α∈[0.3,0.7] 控制透明度。

训练策略与损失函数

在这里插入图片描述
Lmal：Matchability-Aware Loss（改进的匹配感知损失）
Lfgl：Fine-Grained Localization Loss（细粒度定位损失）
Lddf：Decoupled Distillation Focal Loss（解耦蒸馏焦点损失）
Lbbox & Lgiou：传统边框与 GIoU 损失
对极轻量模型（Pico/Femto/Atto），去掉 FGL 与 DDF，以避免过拟合

实验

表3. 与COCO [12] val2017上的实时目标检测器的对比，按参数大小排序。
在这里插入图片描述
表4. 超轻量模型在COCO [12] val2017上与实时目标检测器的对比。

结论

在本报告中，我们介绍了DEIMv2，这是新一代实时目标检测器，它结合了DINOv3强大的语义表示能力和我们的轻量级STA。通过精心设计和扩展，DEIMv2在全尺寸模型范围内都实现了最先进的性能。在高端领域，DEIMv2-X的平均精度（AP）达到57.8，且参数数量明显少于以往的大型检测器。在紧凑型领域，DEIMv2-S是同尺寸模型中首个平均精度超过50的模型，而超

查看全文

http://www.dtcms.com/a/524189.html