蒙帕视角丨图像高效端到端目标检测
图像高效端到端目标检测
一、引言
针对遮挡和小目标两方面的挑战,复旦大学最近提出UAV-DETR框架。该框架包括具有频率增强模块的多尺度特征融合,该模块在不同尺度上捕获空间和频率信息。此外,提出了一种频率聚焦下采样模块,以在下采样期间保留关键的空间细节。开发了语义对齐和校准模块来对齐和融合来自不同融合路径的特征。实验结果证明了该方法在不同图像数据集上的有效性和推广性。在VisDrone数据集上,方法将AP提高了3.1%美国联合通讯社(Associated Press)50超出基线4.2%。在UAVVaste数据集上也观察到了类似的增强。
二、核心创新点
如下图所示,此是基于RT-DERT架构的UAV-DETR模型。通过三个组件增强了该模型,即带频率增强的多尺度特征融合、以频率为重点的下采样以及语义对齐与校准。此外,引入内部Scylla交并集 (Inner-SIoU) 来取代广义交并集 (GIoU)。
(1)多尺度特征融合 + 频率增强
(2)频域信号提取:
傅里叶变换(FFT):将输入特征图转换到频域,分离高频(边缘、纹理)与低频(背景、主体)成分。
频域增强:通过全局平均池化(GAP)和卷积层,动态放大高频信号(如垃圾边缘、车轮纹理)。
逆傅里叶变换(IFFT):将增强后的频域特征转换回空间域,生成细节更丰富的特征图。
(3)多尺度卷积组合:
并行卷积核:使用1x1、3x3、5x5三种卷积核,分别捕获局部细节、中程关联和长程依赖(如密集车流中的遮挡车辆)。
动态权重融合:通过可学习参数α、β,平衡不同尺度特征的贡献,公式如下:
(其中,Xsc为多尺度卷积输出,F为傅里叶变换)
残差连接:保留原始特征,避免梯度消失,加速模型收敛。
(4)双分支处理:
分支1(空间保留):使用3x3卷积(步长2)压缩特征图,保留空间结构。
分支2(频域增强):
频域聚焦(FF模块):对特征图进行频域滤波,强化小目标细节。
最大池化:压缩特征图尺寸,减少计算量。
(5)特征融合策略:
拼接与压缩:将两分支输出拼接后,通过1x1卷积压缩通道数,减少75%计算量。
动态选择机制:根据输入特征自动调整分支权重,优先保留高频信息。
(6)语义对齐与校准(SAC模块)
决多尺度特征图的空间错位问题(如检测框偏移)。
(7)动态网格采样(GridSample):
偏移量学习:通过卷积层预测2D偏移量Δ₁、Δ₂,调整特征图坐标。
双线性插值:根据偏移量动态重采样特征,实现像素级对齐(公式如下):
(8)注意力权重融合:
门控机制:生成空间注意力图G(x),加权融合对齐后的特征:
噪声抑制:通过权重分配,抑制背景干扰(如树木阴影误检为垃圾)。
三、实验
在VisDrone-2019上进行测试并与主要方法进行对比,指标如下:
热力图对比:
与基线模型相比,UAV-DETR 的小物体定位能力显著提升。在模型的热图中,小物体的热度值更高,这表明该模型能够更有效地捕捉这些小物体的特征。此外,可以观察到 UAVDETR 更加关注小物体的周围信息,这表明该模型在检测过程中能够更好地利用上下文信息。因此,UAV-DETR 在遮挡物体定位方面也表现良好。UAV-DETR 不会严重降低基线模型的实时性能。
总结,UAV-DETR通过空间-频域双域融合、动态特征对齐与高效计算设计。这种方法能够为检测任务更好地利用频率信息提供参考,显著提升图像中小目标检测精度并兼顾实时性。