FMC-DETR:面向航拍视角目标检测的频域解耦多域协同方法
摘要
https://arxiv.org/pdf/2509.23056
—航拍视角目标检测是自然资源监测、交通管理和无人机搜救等现实应用中的一项关键技术。在高分辨率航拍图像中检测微小目标一直是一个长期存在的挑战,原因在于其有限的视觉线索以及在复杂场景中建模全局上下文的困难。现有方法常常受到上下文融合延迟和非线性建模不足的阻碍,无法有效利用全局信息来优化浅层特征,从而遭遇性能瓶颈。为了解决这些挑战,我们提出了 FMC-DETR,一种用于航拍视角目标检测的新型框架,其核心是频域解耦融合。首先,我们引入了小波-柯尔莫哥洛夫-阿诺德变换器(Wavelet Kolmogorov-Arnold Transformer, WeKat)骨干网络,该网络应用级联小波变换来增强浅层特征中的全局低频上下文感知,同时保留细粒度细节,并采用柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold networks)来实现对多尺度依赖关系的自适应非线性建模。其次,一个轻量级的跨阶段部分融合(Cross-stage Partial Fusion, CPF)模块减少了冗余并改善了多尺度特征交互。最后,我们引入了多域特征协同(Multi-Domain Feature Coordination, MDFC)模块,该模块统一了空间、频率和结构先验,以平衡细节保留和全局增强。在航拍视角基准数据集上的大量实验表明,FMC-DETR 以更少的参数实现了最先进的性能。在具有挑战性的 VisDrone 数据集上,我们的模型相比基线模型在 AP 和 AP50\mathbf{AP}_{50}AP50 上分别提升了 6.5% 和 8.2%,凸显了其在微小目标检测方面的有效性。代码可在 https://github.com/bloomingvision/FMC-DETR 获取。
索引词—目标检测,航拍图像,频域解耦融合,多尺度特征。
I. 引言
目标检测是计算机视觉领域的一项基石任务,在自动驾驶[1], [2]、遥感[3], [4]和城市监控[5], [6]等多种工业应用中展现出巨大的实用性。得益于深度学习,特别是卷积神经网络(CNNs)的快速发展,现代检测框架在相对低分辨率的自然图像上取得了显著的成功。然而,它们在高分辨率航拍图像上的性能急剧下降,其中目标通常很小、特征微弱、随机分布且经常被遮挡[7]。
为缓解外观信息有限的挑战,增强模型对全局上下文的感知已成为一个关键的研究方向[8], [9]。CNNs 由于其强大的局部特征提取能力而成为默认的骨干架构,但其固有的局部归纳偏置限制了其能力。其逐层堆叠的卷积层导致感受野缓慢扩展,从根本上限制了其建模长距离依赖(LRDs)的能力,而长距离依赖对于上下文推理至关重要。这种限制对小目标尤为不利,因为在复杂背景下区分目标需要对整体场景结构有全面的理解。为了超越 CNNs 的局部性,研究人员越来越多地转向基于 Transformer 的架构[10]-[12],后者利用自注意力机制显式地捕捉 LRDs。然而,Transformer 的计算复杂度相对于输入 token 的数量呈二次方增长(O(N2)O(N^{2})O(N2)),这使其在高分辨率特征图上的直接应用在计算上难以承受。因此,一个常见的解决方案是采用混合架构,其中 CNNs 处理高分辨率的浅层,而 Transformers 保留给低分辨率的深层。然而,这种设计引入了一个关键的性能瓶颈。富含空间细节和细粒度结构的浅层特征图对于检测微小目标至关重要,但它们却由全局建模能力有限的模块处理。将全局上下文建模推迟到深层,通常会导致小目标的判别性线索因连续下采样而退化或丢失。
此外,我们发现了一个更为根本但常被忽视的限制,即当前 Transformer 模型在概念化上下文整合时未能充分捕捉上下文依赖关系固有的非线性本质。这种不足源于其在特征变换中依赖具有静态、数据无关激活函数(例如 ReLU)的多层感知机(MLPs)。然而,在目标检测中,上下文关系是高度非线性的:1)强烈的场景-目标先验:目标出现的概率会随着上下文发生突变——例如,当场景从水域过渡到陆地时,船只出现的可能性会骤降至接近零。这种阶跃式的依赖关系无法通过平滑的线性组合来建模。2)自适应的跨尺度特征融合:将深层的语义信息与浅层的细粒度细节融合,并非简单的加权平均,而是一个动态的、非线性过程,该过程受目标尺度和遮挡等因素的调制。
为了解决这些限制,我们提出了 FMC-DETR,这是一个通过将全局上下文建模引入高分辨率阶段,并将自适应非线性推理融入上下文融合过程来增强微小目标检测的新框架。首先,WeKat 骨干网络通过频域解耦来增强全局上下文感知,同时保留高频细节。其次,CPF 模块高效地融合多尺度特征并减少冗余。最后,MDFC 模块通过空间-频域校准来优化高分辨率多尺度特征,显著增强了微小目标的识别能力。在 VisDrone[13]、HazyDet[14] 和 SIMD[15] 等公开航拍视角数据集上的大量实验表明,FMC-DETR 在微小目标检测任务上表现出卓越的竞争力。总结来说,我们的主要贡献如下:
- 我们引入了 WeKat,一种混合骨干网络,它结合了一种新颖的异构分流门控(Heterogeneous Split-Gating, HSG)机制来解耦特征流。HSG-WAVE 在浅层实现了高效的空-频域建模,具有近似线性的全局感受野,而 HSG-AKAT 通过内容感知的空间偏置和分组柯尔莫哥洛夫-阿诺德网络,在深层阶段增强了非线性语义抽象。
- 我们提出了 CPF,一个专为高效多尺度特征聚合而设计的轻量级模块。它选择性地将强大的重参数化卷积应用于部分通道以进行空间特征提取,有效降低了通道间冗余。
- 我们提出了 MDFC 模块,以增强用于小目标检测的细粒度特征表示。通过联合建模空间域的结构信息和频域的高频线索,MDFC 在保留目标完整性的同时,生成更具判别性和鲁棒性的特征,以实现准确检测。
II. 相关工作
A. CNN-Transformer 目标检测器
CNN 和 Transformer 作为视觉领域的两大基石,催生了众多杰出的检测模型。YOLO [16]-[21] 是一种主要基于 CNN 的主流检测框架,在检测精度和推理速度之间取得了令人满意的平衡。与此同时,基于视觉 Transformer(ViTs)[11] 的框架利用自注意力机制不断推进检测精度。近年来,结合 CNNs 和 Transformers 的混合架构,如 DETR[22]、Deformable DETR [23]、RT-DETR [24]、D-FINE [25] 和 DEIM [26],受到了越来越多的关注。这些模型利用卷积网络进行特征提取和交互,同时使用 Transformers 进行目标分类和定位,建立了一种新的、有效的协作范式。然而,尽管它们在 CoCO 等低分辨率自然图像的公共基准上取得了显著成功,但在高分辨率航拍图像上的有效性却大打折扣。这种性能下降对微小目标尤为严重,这可以归因于它们对关键的、富含细节的浅层特征关注不足。
B. 小目标检测
检测小目标一直是一项具有挑战性的任务。为了应对小目标检测的持久挑战,近期的工作探索了各种增强策略。GLSAN [8] 将全局-局部融合策略集成到一个渐进式尺度变化网络中,以实现更准确的边界框定位。CEASC [5] 引入了上下文增强的稀疏卷积来增强全局信息,显著提高了小目标检测精度。YOLO-DCTI [9] 提出了上下文 Transformer(CoT),将全局残差和局部融合机制集成到检测网络中,增强了小目标像素信息的上下文利用。FBRT-YOLO [7] 引入了一个特征互补映射(FCM)模块,该模块集成了语义和空间位置信息,有效缓解了小目标信息的丢失并提高了小目标定位能力。尽管这些方法在增强小目标检测方面取得了改进,但没有一种方法考虑到在较低层次捕获全局上下文特征的重要性。
C. 频域融合
频域特征因其能够揭示不同场景中复杂的结构信息而在目标检测中引起了相当大的关注。与通常由常规卷积提取的空间域特征(以隐式和局部的方式建模空间布局和上下文关系)相比,频域分析通过将强度变化分解为不同的频谱分量,提供了一种显式和全局的视角。SWANet[27] 使用小波变换对图像中的噪声和细节进行多尺度分解,有效改善了低光照条件下的图像质量。ELWNet[28] 将小波变换模块与 CNNs 结合用于特征下采样,使用有限的参数实现了高质量的多级编码特征。SFS-CNet [29] 提出了一种空-频选择性卷积,该卷积采用分流-感知选择策略来增强特征的多样性和独特性,从而提高了 SAR 目标检测的性能。在此趋势的基础上,我们探索了频域和空间域特征的融合,专门用于小目标检测。
III. 方法
在本节中,我们介绍一种名为 FMC-DETR 的新型架构模型。如图 1 所示,FMC-DETR 采用级联分层设计,从宏观角度看包含三个主要阶段:骨干网络提取不同尺度的特征图,跨层特征交互结构促进多尺度上下文信息的融合,检测头执行特征分类和边界框定位。
H8×W8×C3\frac{H}{8}\times\frac{W}{8}\times C_{3}8H×8W×C3
H32×W32×C5\frac{H}{32}\times\frac{W}{32}\times C_{5}32H×32W×C5
A. 小波柯尔莫哥洛夫-阿诺德变换器 (WeKat)
近年来,协同结合 CNNs 和 Transformers 的混合架构已成为骨干网络设计的主流范式。基于这种混合理念,我们提出了 小波柯尔莫哥洛夫-阿诺德变换器(Wavelet Kolmogorov-Arnold Transformer, WeKat)骨干网络,这是一种稳健且高效的架构,旨在实现对内部信息流更精细的控制并缓解深度网络中的梯度不稳定性。
如图 1 所示,WeKat 由四个阶段 [S2, S3, S4, S5] 组成,每个阶段都以一个创新的异构分流门控(Heterogeneous Split-Gating, HSG)结构为中心。HSG 模块将输入特征流分解为三个异构的子流:用于动态信息调制的门控流(Gat-Stream),用于无损信息传播的保留流(Ret-Stream),以及用于深度特征变换的计算流(Com-Stream)。
给定一个输入特征图 X∈RC×H×WX\in\mathbb{R}^{C\times H\times W}X∈RC×H×W,HSG 通过两次连续的划分来重组数据流。(1) 初始划分。输入沿通道维度以预定义的比例 α\alphaα (0<α<1)(0<\alpha<1)(0<α<1) 被划分为 XrX_{r}Xr 和 XpX_{p}Xp。其中,XrX_{r}Xr 包含前 Cr=αCC_{r}=\alpha CCr=αC 个通道,作为恒等映射路径保留,而 XpX_{p}Xp 包含剩余的 (1−α)C(1-\alpha)C(1−α)C 个通道,专用于复杂的特征变换。(2) 再划分。处理流 XpX_{p}Xp 通过一个轻量级的 1×11\times11×1 卷积进行通道扩展和特征重映射,之后被分割成三个子流:
(Xpg,Xpr,Xpc)=Split(Conv(Xp)),(X_{p}^{g},X_{p}^{r},X_{p}^{c})=\operatorname{Split}(\operatorname{Conv}(X_{p})),(Xpg,Xpr,Xpc)=Split(Conv(Xp)),
其中 XpgX_{p}^{g}Xpg 形成门控流,生成动态的内容感知调制信号;XprX_{p}^{r}Xpr 代表保留流,直接保留关键特征;XpcX_{p}^{c}Xpc 表示计算流,应用计算模块 (F)({\mathcal{F}})(F) 来提取复杂模式并捕获空间关系。为了适应不同的特征层次,我们引入了两种变体:HSG-WAVE 和 HSG-KAT。
- HSG-WAVE:CNNs 表现出强大的归纳偏置,如局部性和平移等变性,这在捕获纹理和高频细节方面非常有效。然而,它们有限的感受野限制了其建模全局低频结构的能力[30]。为了在浅层同时保留细粒度细节并捕获整体形状信息,我们提出了 HSG-WAVE 模块,该模块协调了全局结构建模、空-频分析和多频特征集成。
具体来说,HSG-WAVE 利用哈尔小波变换(HWT)进行联合空-频分析。给定一个输入特征图 XpcX_{p}^{c}Xpc,HWT 将其分解为四个频带子带:
HWT(Xpc)={XpcLL(l),XpcLH(l),XpcHL(l),XpcHH(l)},\mathrm{HWT}(X_{p}^{c})=\{X_{p}^{cLL^{(l)}},X_{p}^{cLH^{(l)}},X_{p}^{cHL^{(l)}},X_{p}^{cHH^{(l)}}\},HWT(Xpc)={XpcLL(l),XpcLH(l),XpcHL(l),XpcHH(l)},
其中 XpcLLX_{p}^{cLL}XpcLL 编码低频结构分量,而 {XpcLH,XpcHL,XpcHH}\{X_{p}^{cLH},X_{p}^{cHL},X_{p}^{cHH}\}{XpcLH,XpcHL,XpcHH} 分别捕获高频的水平、垂直和对角线细节。然后,我们选择性地再次将 HWT 仅应用于低频分支(LL),以进一步编码粗略的结构和形状信息,从而获得渐进式更粗糙的代理表示:
HWT(XpcLL(l))={XpcLL(l+1), XpcLH(l+1),XpcHL(l+1), XpcHH(l+1)},\begin{aligned}\mathrm{HWT}(X_{p}^{cLL^{(l)}})=\{&X_{p}^{cLL^{(l+1)}},\;X_{p}^{cLH^{(l+1)}},\\ &X_{p}^{cHL^{(l+1)}},\;X_{p}^{cHH^{(l+1)}}\},\end{aligned}HWT(XpcLL(l))={XpcLL(l+1),XpcLH(l+1),XpcHL(l+1),XpcHH(l+1)},
其中 lll 表示分解层级。这种方法能够在保留高频子带完整以保留精细纹理和边缘特征的同时,捕获全局布局和长距离依赖。此外,在连续下采样的 LL 表示上操作显著降低了空间分辨率,从而减少了计算和内存成本。这使我们能够以最小的开销对全局上下文进行更具表现力的处理。然后,在每个层级,所有子带被拼接并通过分组卷积进行处理:
X^pc(l+1)=Conv5×5group([XpcLL(l+1), XpcLH(l+1),XpcHL(l+1), XpcHH(l+1)])\begin{aligned}\hat{X}_{p}^{c(l+1)}=\mathbf{Conv}_{5\times5}^{group}\Big(&[X_{p}^{cLL^{(l+1)}},\;X_{p}^{cLH^{(l+1)}},\\&X_{p}^{cHL^{(l+1)}},\;X_{p}^{cHH^{(l+1)}}]\Big)\end{aligned}X^pc(l+1)=Conv5×5group([XpcLL(l+1),XpcLH(l+1),XpcHL(l+1),XpcHH(l+1)])
随后,逆哈尔小波变换(IHWT)重建空间表示:
R(l+1)=IHWT(X^pc(l+1)).R^{(l+1)}=\mathrm{IHWT}(\hat{X}_{p}^{c(l+1)}).R(l+1)=IHWT(X^pc(l+1)).
来自更深一层的重建特征图 R(l+1)R^{(l+1)}R(l+1) 提供了全局语义上下文,这作为一个丰富的先验。然后将该先验添加到当前层的低频分量 XpcLL(l)X_{p}^{cLL^{(l)}}XpcLL(l) 中。
Xpc(l)←IHWT(X^pcLL(l)+R(l+1)).X_{p}^{c(l)}\gets\mathrm{IHWT}(\hat{X}_{p}^{cLL^{(l)}}+R^{(l+1)}).Xpc(l)←IHWT(X^pcLL(l)+R(l+1)).
这两个分量——全局上下文和局部上下文——的融合,通过更广泛、更抽象的信息增强了局部特征,纠正了浅层因感受野有限而引起的歧义。这种由粗到精的细化有助于网络更好地理解不同尺度下的目标结构。
通过迭代分析和综合,HSG-WAVE 有效地将递归下采样的低频流中的全局语义与高频分量中的局部纹理相结合,成功解决了浅层中全局上下文建模和细节保留的双重挑战。
- HSG-AKAT:在网络的深层阶段,特征从结构模式转变为语义抽象,Transformer 的全局建模能力变得越来越有价值。然而,标准的 Transformer 块存在两个关键限制:i) 自注意力机制计算成本高,并将空间特征展平为 1D 序列,从而破坏了固有的 2D 空间结构;ii) MLP 层充当静态的、数据无关的映射,容易过拟合,并且在建模非线性上下文依赖方面效果不佳[31]。为了解决这些问题,我们提出了非对称柯尔莫哥洛夫-阿诺德变换器(Asymmetric Kolmogorov-Arnold Transformer, AKAT),这是一个高性能模块,专为捕获深层中的全局语义和非线性依赖而设计。
a) 非对称自注意力:给定一个输入特征图 X⋅ ∈ RB×C×H×W∘\stackrel{\cdot}{X}\;\in\;\mathbb{R}^{B\times C\times H\times\stackrel{\circ}{W}}X⋅∈RB×C×H×W∘,我们首先应用轻量级的 1×11\times11×1 卷积来生成查询、键和值的投影:
Q=WqX,K=WkX,V=WvX,Q=W_{q}X,\quad K=W_{k}X,\quad V=W_{v}X,Q=WqX,K=WkX,V=WvX,
其中 Wq,Wk,WvW_{q},W_{k},W_{v}Wq,Wk,Wv 是可学习的投影矩阵。为了降低计算复杂度,我们采用了非对称投影策略,其中查询 QQQ 和键 KKK 的维度远小于值 VVV 的维度。这种方法通过减少参与键-查询交互的参数数量来最小化计算注意力的成本,同时仍然保留值表示的表现力。为了保持空间相关性,我们引入了一个直接从值张量导出的动态位置偏置。具体来说,位置偏置 PPP 是通过对值张量 VVV 应用深度卷积计算得出的,如下式所示:
P=DWConv3×3(V),P=\operatorname{DWConv}_{3\times3}(V),P=DWConv3×3(V),
其中 DWConv 表示深度卷积。然后,通过将位置偏置加到查询和键的缩放点积上来计算注意力权重:
Attn(Q,K,V)=Softmax(QK⊤d+P)V,\mathrm{Attn}(Q,K,V)=\mathrm{Softmax}\bigg(\frac{QK^{\top}}{\sqrt{d}}+P\bigg)V,Attn(Q,K,V)=Softmax(dQK⊤+P)V,
这使得能够对邻域重要性进行语义依赖的调制。
b) 分组 KAN:我们采用柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold Network, KAN)[31] 来代替传统的 MLP,KAN 用基于样条的函数展开来代替线性变换:
f(x)=∑m=1Mαmϕm(x),f(x)=\sum_{m=1}^{M}\alpha_{m}\phi_{m}(x),f(x)=m=1∑Mαmϕm(x),
其中 {ϕm(⋅)}\{\phi_{m}(\cdot)\}{ϕm(⋅)} 是可学习的样条基函数,αm\alpha_{m}αm 是可训练的系数。为了提高可扩展性,我们采用了分组 KAN 变体[32],其中通道被划分为 GGG 组,并且样条参数在每组内共享:
fg(x)=∑m=1Mαg,mϕg,m(x),g=1,…,G.f_{g}(x)=\sum_{m=1}^{M}\alpha_{g,m}\phi_{g,m}(x),\quad g=1,\ldots,G.fg(x)=m=1∑Mαg,mϕg,m(x),g=1,…,G.
这减少了参数开销,同时保留了表达能力。与 MLP 相比,分组 KAN 能更有效地捕获尖锐的非线性依赖,而样条基的平滑性则作为一种隐式正则化器来防止过拟合。
总的来说,HSG-AKAT 将非对称自注意力用于高效的全局建模,将分组 KAN 用于强大的非线性特征变换,从而解决了深层 Transformer 层中计算成本高和非线性表达能力不足的双重挑战。
B. 跨阶段部分融合 (CPF)
以最少的参数和计算成本实现高效的特征融合是特征交互结构设计的核心目标。作为特征提取的基本组件,标准卷积(Conv)块激发了许多旨在提高效率的变体。其中最具代表性的是分组卷积(GConv)[33] 和深度卷积(DWConv)[34],两者都利用了滤波器冗余来减少参数和 FLOPs。特别是,DWConv 因其在参数和计算方面的大幅节省而被广泛采用。然而,一个关键的挑战是,简单地用 DWConv 替换标准卷积通常会导致精度显著下降[35]。这一限制促使研究人员从特征图冗余的角度设计新模块。先前的研究表明,特征图内的通道之间存在高度相似性,这表明对所有通道应用空间卷积可能是不必要的[35]-[37]。
为了解决这个问题并提高特征交互效率,我们提出了跨阶段部分融合(Cross-stage Partial Fusion, CPF)模块,这是一种轻量级架构,可以在最小化计算成本的同时最大化表征能力。如图 2 所示,CPF 不是对所有通道执行密集卷积,而是引入了一个部分重参数化卷积(PRConv)进行空间混合。在 PRConv 中,3×33\times33×3 重参数化卷积被选择性地应用于 25% 的输入通道,而其余 75% 的通道则通过恒等映射保留。然后,空间混合后的特征通过一个通道扩展-收缩模块进行处理,该模块由两个连续的 1×11\times11×1 卷积实现,在更高维的空间中精炼表示。最后,精炼后的特征通过残差连接与输入融合。通过有效利用通道冗余,CPF 在计算效率和表征能力之间实现了有利的平衡。

C. 多域特征协同 (MDFC)
目标检测中的一个核心挑战是在保留对小目标检测至关重要的细粒度高频细节的同时,有效地融合多尺度特征。为了解决这个问题,我们提出了多域特征协同(Multi-Domain Feature Coordination, MDFC)模块,该模块显式地统一了空间、频率和结构先验,以产生更具判别性的特征表示。
MDFC 分两个连续阶段进行操作:频域自适应调制和多域精炼。在第一阶段,频域自适应调制机制将输入特征分割为空间和频率两个分支。空间分支进行下采样以保留结构完整性,而频率分支则通过快速傅里叶变换(FFT)转换到频谱域,在其中进行逐元素调制以强调信息丰富的高频线索。然后将这两个分支重新组合,以产生一个空-频增强的表示。形式上,给定一个输入特征图 Xs2X_{s2}Xs2,MDFC 首先将其通道划分为两条并行路径:一个空间分支 Xs2spX_{s2}^{sp}Xs2sp 和一个频率路径 Xs2fpX_{s2}^{fp}Xs2fp。在空间分支中,特征经过两个卷积核大小为 3×33\times33×3 的卷积,其中第一个卷积的步长 s=2s=2s=2 用于下采样特征,第二个卷积的步长 s=1s=1s=1 用于保留空间布局:
X^s2sp=Conv3×3s=1(Conv3×3s=2(Xs2sp)).\widehat{X}_{s2}^{sp}=\mathrm{Conv}_{3\times3}^{s=1}(\mathrm{Conv}_{3\times3}^{s=2}(X_{s2}^{sp})).Xs2sp=Conv3×3s=1(Conv3×3s=2(Xs2sp)).
在频率分支中,我们首先使用最大池化和一个 1×11\times11×1 卷积来减小空间尺寸:
Xmodfp=ϕ(MP(Xs2fp)),X_{mod}^{fp}=\phi\big(MP(X_{s2}^{fp})\big),Xmodfp=ϕ(MP(Xs2fp)),
其中 ϕ\phiϕ 表示 1×11\times11×1 卷积。然后,我们应用 FFT 将特征转换到频域:
X^s2fp=F−1(F[ϕ(Xmodfp(1))]⊙ϕ(Xmodfp(2))),\begin{array}{r}{\widehat{X}_{s2}^{fp}=\mathcal{F}^{-1}\Big(\mathcal{F}\Big[\phi\Big(X_{mod}^{fp(1)}\Big)\Big]\odot\phi\Big(X_{mod}^{fp(2)}\Big)\Big),}\end{array}Xs2fp=F−1(F[ϕ(Xmodfp(1))]⊙ϕ(Xmodfp(2))),
其中 F\mathcal{F}F 和 F−1\mathcal{F}^{-1}F−1 分别表示 FFT 和 IFFT。接下来,我们计算空间特征谱 X^sp\widehat{X}_{sp}Xsp 并在频域中应用逐元素门控:
X^s2=Concat[X^s2sp⊙X^s2fp,Xs2sp].\widehat{X}_{s2}=Concat[\widehat{X}_{s2}^{sp}\odot\widehat{X}_{s2}^{fp},X_{s2}^{sp}].Xs2=Concat[Xs2sp⊙Xs2fp,Xs2sp].
在第二阶段,调制后的特征与相邻的多尺度特征集成,并在三个互补域中进行精炼。具体来说,基于 FFT 的全局分析引入了频域感知上下文,GAP 驱动的通道注意力突出了信息量最大的通道,而基于 Sobel 的梯度提供了显式的结构先验以增强边缘和边界。通过协调这些正交线索,MDFC 鼓励全局语义指导局部细节增强,而不是将它们视为独立的信号。
总的来说,MDFC 作为一个跨域协调块,统一了空间结构、频谱信息和显式先验。这种设计赋予了检测器强大的频域意识和结构敏感性,极大地提高了其识别小目标的能力,而不会牺牲效率。

IV. 实验
在本节中,我们首先介绍用于航拍视角目标检测的数据集(VisDrone [13]、HazyDet[14] 和 SIMD[15])。然后我们描述实验设置,接着与最先进方法进行比较。之后,进行消融研究以分析每个组件的有效性,并通过定性可视化进一步说明结果。
A. 数据集
-
VisDrone:VisDrone 是一个专为航拍图像目标检测设计的大规模基准。它包含从中国14个城市的多样化城市和郊区场景中捕获的高分辨率无人机图像,涵盖了广泛的现实世界场景。该数据集包含 6,471 张训练图像、548 张验证图像和 3,190 张测试图像,其中包含超过 250 万个边界框,标注了十个常见目标类别。由于小目标普遍存在、遮挡严重、场景拥挤以及背景复杂,VisDrone 对检测算法提出了重大挑战,使其成为评估航拍目标检测模型鲁棒性和泛化能力的宝贵基准。
-
HazyDet:HazyDet 是第一个专为雾霾航拍图像目标检测而设的大规模基准。它包含 11,000 张从真实场景和基于物理的模拟中收集的高分辨率图像,其中包含 383,000 个边界框,标注了三种车辆类别:汽车、卡车和公共汽车。该数据集分为 8,000 张训练图像、1,000 张验证图像和 2,000 张测试图像。通过结合自然捕获的雾霾图像和具有不同能见度水平的合成数据,HazyDet 弥补了晴天基准留下的关键空白,并为评估检测模型在恶劣天气条件下的鲁棒性提供了宝贵的资源。
-
SIMD:SIMD 是一个中等规模的数据集,专为卫星图像中的多尺度、多类别车辆检测而设计。它包含 5,000 张分辨率为 1024×768 的 RGB 图像,通过 Google Earth 从欧洲和美国的 79 个地点收集,并采用 4:1 的训练-测试分割。总共提供了 45,096 个标注对象,涵盖 15 个类别,主要是汽车、卡车、公共汽车和长型车辆等多种车辆,以及多种飞机和船只。目标外观、尺度、密度和背景的多样性使 SIMD 成为在现实条件下推进航拍目标检测、监控和自动场景分析的宝贵基准。
B. 实现细节
所有实验均在 NVIDIA GeForce RTX 4090D GPU 上进行。为了确保公平和可复现的比较,我们的方法基于 RT-DETR[24] 基线构建,并从头开始训练,不使用任何预训练权重或额外的训练策略,除了 Mosaic 数据增强。除非另有说明,训练和测试期间的输入分辨率固定为 640×640。网络使用 AdamW 优化器训练 200 个 epoch,动量为 0.9,权重衰减为 0.0005,批量大小为 4,初始学习率为 0.0001。我们主要使用 COCO 风格的平均精度(AP)来评估性能,并辅以不同阈值和目标尺度下的 AP 分数,包括 AP50,AP75,APS,APM\mathrm{AP_{50}, AP_{75}, AP_{S}, AP_{M}}AP50,AP75,APS,APM 和 APL\mathrm{AP}_{L}APL。
C. 与最先进方法的比较
-
VisDrone 数据集上的结果:表 I 中的结果突显了所提出的 FMC-DETR 的卓越性能,它在 VisDrone2021 数据集上建立了新的最先进水平。FMC-DETR-T 的 AP 为 33.2%,AP50\mathrm{AP_{50}}AP50 为 52.8%,在所有比较方法中达到了最高的精度,同时保持了 12.6M 参数的紧凑模型大小,展示了效率和精度之间的出色平衡。与主流的 YOLO 检测器相比,FMC-DETR 实现了持续的改进。例如,相对于 YOLOv8-X,FMC-DETR-T 的 AP 和 AP50\mathrm{AP_{50}}AP50 分别提高了 4.3 和 6.0 个百分点,同时参数减少了 81%。与最新的 YOLOv12-L 和 YOLOv13-L 相比,FMC-DETR-T 在 AP 上分别获得了 +8.8 / +12.3 的显著增益,在 AP50\mathrm{AP_{50}}AP50 上分别获得了 +10.8 / +12.3 的增益。此外,与最新的强大 CNN 基线 FBRT-YOLO-X 相比,FMC-DETR 在 AP 和 AP50\mathrm{AP_{50}}AP50 上均表现出优越的性能,同时需要更少的参数和更低的计算成本,分别超越了 3.1% 和 4.4%。与强大的基于 Transformer 的基线 RT-DETR-R18 相比,FMC-DETR 也表现出显著优势。具体而言,它在 AP 和 AP50\mathrm{AP_{50}}AP50 上分别实现了 6.5% 和 8.2% 的提升。此外,与近期研究中提出的其他先进算法(如 Mamba-YOLO 和 DEIM)相比,FMC-DETR 在 AP 指标上仍然取得了实质性增益,凸显了其卓越的检测能力。
-
HazyDet 数据集上的结果:我们在具有挑战性的 HazyDet 数据集上将 FMC-DETR-B 与几种有代表性的目标检测器进行了比较。如表 II 所示,FMC-DETR-B 取得了 54.3% 的最高整体 AP,超过了之前的强大基线,如 DeCoDet [14] (52.0%)、YOLOv12-L (52.6%) 和 YOLOv13-L (52.7%)。这些结果凸显了我们的方法在复杂航拍场景中的卓越检测能力。在按类别性能方面,FMC-DETR-B 在汽车类别上取得了领先的 63.0% AP,该类别在数据集中占主导地位,主要由小而密集的目标组成——这突显了该模型在低能见度条件下捕获细粒度细节的有效性。
-
SIMD 数据集上的结果:我们还在 SIMD 数据集上评估了 FMC-DETR-B,并将其性能与几种近期的目标检测模型进行了比较。如表 III 所示,FMC-DETR-B 取得了 65.8% 的 AP,优于 RT-DETR-R18 (63.7%)、YOLOv8-L (63.1%) 和 YOLOv9-M (62.2%) 等模型,同时保持了相对较低的 16.1M 参数和 56.2G FLOPs。与类似 DETR 的改进模型相比,FMC-DETR-B 取得了最高的 AP50\mathrm{AP_{50}}AP50,分别领先 Deform DETR [23]、EMSD-DETR [40] 和 HPS-DETR [41] 6.1%、1.5% 和 2.3%。
D. 消融研究
为了验证我们所提出组件的有效性,我们在 VisDrone 数据集上进行了全面的消融研究,结果如表 IV 所示。
| 方法 | 发表 | 输入尺寸 | AP | $\mathbf{AP}_{50}$ | 参数 | FLOPs |
| CNN-Based | ||||||
| YOLOv8-L [16] | - | 640×640 | 28.4 | 45.9 | 43.7M | 165.2G |
| YOLOv8-X [16] | = | 640×640 | 28.9 | 46.8 | 68.2M | 257.8G |
| YOLOv9-M [17] | ECCV2024 | 640×640 | 25.1 | 41.9 | 20.0M | 76.3G |
| YOLOv10-S [18] | NeurIPS2024 | 640×640 | 23.8 | 39.3 | 7.2M | 21.6G |
| YOLOv10-L [18] | NeurIPS2024 | 640×640 | 27.6 | 44.6 | 24.4M | 120.3G |
| YOLOv10-X [18] | NeurIPS2024 | 640×640 | 28.7 | 46.1 | 29.5M | 160.4G |
| YOLOv11-M [19] | - | 640×640 | 25.0 | 42.0 | 20.1M | 68.0G |
| YOLOv11-L [19] | - | 640×640 | 25.5 | 42.2 | 25.3M | 86.9G |
| YOLOv11-X [19] | 一 | 640×640 | 26.6 | 43.8 | 56.9M | 194.9G |
| YOLOv12-M [20] | arXiv2025 | 640×640 | 24.4 | 40.9 | 20.2M | 67.5G |
| YOLOv12-L [20] | arXiv2025 | 640×640 | 25.1 | 42.0 | 26.4M | 88.9G |
| YOLOv13-L [21] | arXiv2025 | 640×640 | 24.2 | 40.5 | 27.6M | 88.4G |
| FBRT-YOLO-M [7] | AAAI2025 | 640×640 | 28.4 | 45.9 | 7.2M | 58.7G |
| FBRT-YOLO-L [7] | AAAI2025 | 640×640 | 29.7 | 47.7 | 14.6M | 119.2G |
| FBRT-YOLO-X [7] | AAAI2025 | 640×640 | 30.1 | 48.4 | 22.8M | 185.8G |
| DTSSNet [6] | TGRS2024 | 640×640 | 24.2 | 39.9 | 10.1M | 49.6G |
| Transformer-Based | ||||||
| Deformable DETR [23] | ICLR2020 | 1300×800 | 27.1 | 42.2 | 40.0M | 173.0G |
| Sparse DETR [38] | ICLR2022 | 1300×800 | 27.3 | 42.5 | 40.9M | 121.0G |
| RT-DETR-R18 [24] | CVPR2024 | 640×640 | 26.7 | 44.6 | 20.0M | 60.0G |
| RT-DETR-R50 [24] | CVPR2024 | 640×640 | 28.4 | 47.0 | 42.0M | 136.0G |
| Mamba-YOLO-T [39] | AAAI2025 | 640×640 | 21.0 | 36.8 | 6.0M | 13.6G |
| Mamba-YOLO-B [39] | AAAI2025 | 640×640 | 23.9 | 40.8 | 21.8M | 49.6G |
| DEIM-D-FINE-N [26] | CVPR2025 | 640×640 | 17.8 | 31.5 | 3.7M | 7.1G |
| DEIM-D-FINE-S [26] | CVPR2025 | 640×640 | 24.3 | 40.6 | 10.1M | 24.9G |
| FMC-DETR-B (Ours) | - | 640×640 | 29.4 | 48.2 | 16.1M | 56.2G |
| FMC-DETR-T (Ours) | = | 640×640 | 33.2 | 52.8 | 12.6M | 121.7G |
| 模型 | AP | APcar | APtruck | $\overline{{\mathbf{AP}^{bus}}}$ | 参数 |
| IAYOLO MS-DAYOLO | 38.3 48.3 | 44.1 59.4 | 22.2 28.5 | 48.6 57.0 | 61.8M |
| TOOD | 51.4 | 58.4 | 33.6 | 62.2 | 40.0M 32.0M |
| Cascade RCNN | 51.6 | 59.0 | 34.2 | 61.7 | 69.1M |
| Deform DETR | 51.5 | 58.4 | 33.9 | 62.3 | 40.0M |
| DeCoDet | 52.0 | 60.5 | 34.0 | 61.9 | 34.6M |
| YOLOv12-L | 52.6 | 57.5 | 37.4 | 62.6 | 26.4M |
| YOLOv13-L | 52.7 | 63.1 | 27.6M | ||
| FMC-DETR-B | 54.3 | 57.5 63.0 | 37.6 36.9 | 62.9 | 16.1M |
| 模型 | AP | AP50 | 参数 | FLOPs |
| RT-DETR-R18 | 63.7 | 78.6 | 19.8M | 57.0G |
| YOLOv8-L | 63.1 | 78.1 | 43.7M | 165.2G |
| YOLOv9-M | 62.2 | 76.6 | 20.0M | 76.3G |
| Deform DETR | 59.7 | 75.6 | 40.0M | 196.0G |
| EMSD-DETR | 64.3 | 79.4 | 18.4M | 68.3G |
| HPS-DETR | 63.5 | 79.8 | 15.5M | 68.3G |
| FMC-DETR-B | 65.8 | 80.9 | 16.1M | 56.2G |
-
WeKat 的效果:仅引入 WeKat 就将 AP 从 26.7% 提高到 27.8%,AP50\mathrm{AP_{50}}AP50(从 44.6% 到 46.1%)和 APS\mathrm{AP}_{S}APS(从 18.5% 到 19.5%)也有一致的提升。此外,WeKat 在降低复杂度的情况下实现了这一改进,参数从 20.0M 降至 16.3M,FLOPs 从 60.0G 降至 54.7G。这表明所提出的骨干网络不仅增强了表征学习,还提供了更高效的架构设计。
-
CPF 的效果:单独添加 CPF 将 AP 提高到 27.4%,APS\mathrm{AP}_{S}APS 提高到 19.2%,证实了跨尺度特征传播有效地加强了上下文交互。虽然其复杂度相比基线略有降低(FLOPs 从 60.0G 降至 55.7G),但性能增益凸显了 CPF 在提升航拍场景中小目标检测方面的益处。
-
MDFC 的效果:MDFC 模块带来了最显著的单模块改进,将 AP 提升至 28.2%,AP50\mathrm{AP_{50}}AP50 提升至 46.6%,APS\mathrm{AP}_{S}APS 提升至 19.7%。这表明多维频域上下文在捕获更丰富的结构线索方面特别有效。尽管 MDFC 引入了更高的 FLOPs(62.2G),但明显的精度增益验证了其贡献。当与 WeKat 和 CPF 结合时,MDFC 进一步将性能提升至最佳结果:29.4% AP、48.2% AP50\mathrm{AP_{50}}AP50 和 21.2% APS\mathrm{AP}_{S}APS,展示了所有三个组件之间的强大互补性。
-
检测层的效果:在骨干网络设计中,我们研究了 S5 特征层对于目标检测的必要性。随着下采样操作次数的增加,小目标的高频细节会不可逆地丢失,使得低分辨率的 S5 特征对于精确定位而言在很大程度上是冗余的。如图 4 中不同检测层的热力图可视化所示,高分辨率的 D2 层对小目标检测的贡献远大于深层。受此观察启发,我们在 WeKat 骨干网络中减少了一个下采样阶段(相当于移除 S5 特征层),并将检测层调整为 [D2, D3, D4]。此修改将整体 AP 从 27.8% 提高到 30.9%,APS\mathrm{AP}_{S}APS 提高了 4.0%,从而验证了高分辨率特征对小目标检测的有效性。此外,从特征冗余的角度来看,不同的检测层对不同尺度目标的贡献是不均衡的。结合图 4 中的热力图结果,我们发现 D2 和 D4 层为小目标提供了更充分、更集中的响应。基于这一见解,FMC-DETR-T 最终采用 [D2, D4] 作为其检测层,以 52.8% 的 AP50\mathrm{AP_{50}}AP50 和 25.3% 的 APS\mathrm{AP}_{S}APS 实现了最佳性能。
| WeKat | CPF | MDFC | $\mathbf{AP}$ | $\mathbf{AP}_{50}$ | $\mathbf{AP}_{S}$ | 参数 | FLOPs |
| X | X | X | 26.7 | 44.6 | 18.5 | 20.0M | 60.0G |
| √ | X | X | 27.8 | 46.1 | 19.5 | 16.3M | 54.7G |
| X | √ | X | 27.4 | 45.3 | 19.2 | 19.5M | 55.7G |
| X | X | √ | 28.2 | 46.6 | 19.7 | 20.4M | 62.2G |
| √ | √ | X | 28.3 | 46.8 | 20.3 | 15.8M | 52.0G |
| √ | √ | √ | 29.4 | 48.2 | 21.2 | 16.1M | 56.2G |
| 模型 | S5 | 检测层 | AP | $\mathbf{AP}_{50}$ | $\mathbf{AP_{75}}$ | $\mathbf{AP}_{S}$ | 参数 | FLOPs |
| 基线 | √ | [D3, D4, D5] | 26.7 | 44.6 | 26.9 | 18.5 | 20.0 | 60.0 |
| WeKat | √ | [D3, D4, D5] | 27.8 | 46.1 | 28.2 | 19.5 | 16.3 | 54.7 |
| WeKat | X | [D2, D3, D4] | 30.9 | 50.2 | 31.8 | 23.5 | 12.9 | 120.1 |
| WeKat | X | [D3, D4] | 30.8 | 50.2 | 31.5 | 23.3 | 12.8 | 103.0 |
| WeKat | X | [D2, D4] | 31.6 | 50.9 | 32.9 | 23.9 | 12.8 | 115.8 |
| FMC-DETR-T | X | [D2, D3, D4] | 32.7 | 52.3 | 34.1 | 24.9 | 12.7 | 126.0 |
| FMC-DETR-T | X | [D3, D4] | 32.1 | 52.0 | 32.9 | 24.0 | 12.6 | 109.0 |
| FMC-DETR-T | X | [D2, D4] | 33.2 | 52.8 | 34.8 | 25.3 | 12.6 | 121.7 |
E. 可视化分析
如图 5 所示,我们在 VisDrone 数据集上展示了热力图和检测结果。与基线模型 RT-DETR 相比,FMC-DETR 展示了明显改进的小目标定位能力。此外,可以观察到 FMC-DETR 对小目标周围信息的关注度更高,这证明了该模型在检测过程中能更好地利用上下文信息。


为了进一步突出 FMC-DETR 在航拍场景中的优势,我们在 HazyDet 数据集上可视化了特征图和检测输出(图 8)。增强的上下文理解和更清晰的全局结构有助于更准确的目标定位。从视觉对比中可以明显看出,我们的方法能更有效地捕获整体目标形状和细粒度边界,从而为其卓越的检测性能做出贡献。此外,我们还在 SIMD 数据集上进一步评估了 FMC-DETR 的检测性能。如图 6 所示,定性结果表明我们的方法能够检测到更多的感兴趣目标并对其进行更准确的分类。这些结果验证了 FMC-DETR 在提高多目标检测精度方面的有效性,尤其是在复杂的航拍场景中。为了进行更细粒度的比较,我们使用雷达图在 VisDrone、HazyDet 和 SIMD 三个数据集上可视化了各类别的 AP 和 AP50 分数(图 7)。所提出的 FMC-DETR 始终显示出更大、更均衡的雷达图覆盖范围,凸显了其在处理多样化类别方面的优越性。



V. 结论
在本文中,我们提出了 FMC-DETR,一种基于频域解耦和多域协同的航拍视角小目标检测器。我们引入了 WeKat 骨干网络,该网络在浅层增强了全局低频表示,并在深层特征之间执行深度非线性建模。然后,我们提出了 CPF 模块,通过减少通道冗余来提高多尺度特征融合的效率。最后,引入了 MDFC 模块来优化空间域和频域之间的特征相关性,从而提取更具判别性的互补信息。大量的定性和定量实验验证了 FMC-DETR 的有效性,证明了它在不依赖任何预训练权重或额外训练策略的情况下,以更少的参数和计算成本实现了具有竞争力的性能。
