当前位置：首页 > news >正文

基于信息保留与细粒度特征聚合的无人机目标检测

news 2025/10/18 5:45:50

摘要

通用深度学习方法通过聚合分层特征来实现高级语义特征表示，在目标检测任务中表现良好。然而，在基于无人机（UAV）的遥感图像目标检测任务中，通用深度学习方法存在问题。首先，步长卷积等通用特征聚合方法可能导致输入样本的信息丢失。其次，常见的 FPN 方法通过直接融合不同层级的特征图引入冲突信息。这些缺点限制了模型在遥感图像中小弱目标上的检测性能。针对这些问题，我们提出了一种无人机（UAV）目标检测算法 IF-YOLO。具体而言，我们的算法利用信息保留特征聚合（IPFA）模块在保留小目标固有特征的同时构建语义特征表示。此外，为了过滤掉直接融合引入的无关信息，我们引入了冲突信息抑制特征融合模块（CSFM）来改进特征融合方法。另外，细粒度聚合特征金字塔网络（FGAFPN）促进了不同层级特征图之间的交互，减少了多尺度特征融合过程中冲突信息的产生。在 VisDrone2019 数据集上的实验结果表明，与标准 YOLOv8-s 相比，我们增强的算法实现了 47.3% 的平均精度均值（mAP），精确率和召回率分别提高了 6.3% 和 5.6%。

关键词：无人机；小目标；特征融合；深度学习；遥感

1. 引言

随着遥感技术的发展，无人机（UAV）在军事、环境管理、交通监控和城市规划等领域发挥着越来越重要的作用[1,2]。作为目标检测的一个重要分支，基于无人机图像的目标检测可以准确识别和定位图像中的重要目标，如车辆和行人。深度神经网络具有强大的特征表示和自学习能力，能够从大量图像数据中学习特征表示，并在目标检测任务中取得显著性能。例如，VGG[3]、ResNet[4]、SSD[5]、RetinaNet[6]和 PSPNet[7]等经典神经网络已成功应用于各种目标检测任务。因此，基于深度学习的无人机图像目标检测方法正成为一个快速发展和激烈研究的领域。
在这里插入图片描述

目前广泛使用的大多数深度神经网络模型都是基于人工收集的图像数据设计的，如 MS-COCO[8]、PASCAL VOC[9,10]等。这些数据集通常是根据图像拍摄者的主观偏好收集的，与无人机拍摄的无人机图像有很大不同。在常规场景图像中，目标通常较大，单张图像中的实例数量较少。无人机拍摄的航拍图像属于低空遥感领域。通常，这些图像中的目标距离较远，显得很小，其数量远大于自然场景图像中所见的数量。这些目标也容易被背景遮挡。此类图像的示例如图 1 所示。这给该领域的深度学习研究带来了挑战。在无人机目标检测任务中，直接应用成熟的通用算法模型可能导致性能显著下降。一方面，小目标在图像中占据的像素较少，导致分辨率较低，特征信息不足。此外，现代检测器试图通过堆叠越来越多的池化和下采样操作来构建高级语义特征表示，导致在前向传播过程中，像素较少的小目标特征逐渐丢失[11]。在深度网络中，小目标的特征信息常常被背景掩盖，限制了检测任务的性能。另一方面，信息传播问题部分通过各种 FPN 结构得到解决，这些结构水平融合低分辨率特征图和高分辨率特征图[5,12]。然而，直接融合不同密度的信息可能导致语义冲突，这限制了多尺度特征的表达，并导致小目标容易被冲突信息淹没，从而产生误检和漏检。

鉴于上述问题，本文在上述两个方面进行了有针对性的改进，以增强无人机拍摄的低空遥感图像中小目标以及复杂地面背景目标的检测性能。首先，本文提出了一种信息保留特征聚合（IPFA）模块，以替代步长卷积等通用特征聚合方法。IPFA 模块在保留输入图像中细粒度信息的同时，构建更抽象的语义特征表示，使模型能够保持输入图像中小目标的固有信息。此外，本文引入了细粒度聚合特征金字塔网络（FGAFPN）以实现多尺度特征融合，并增强模型的多尺度目标检测能力。另外，在细粒度聚合过程中，本文引入了冲突信息抑制特征融合模块（CSFM），该模块采用注意力机制在不同层级特征图融合过程中丢弃无关信息，促进多尺度特征信息的交互。鉴于 YOLO 系列[12-18]在目标检测领域的重要作用，本文将所提出的方法应用于 YOLOv8 模型。通过整合 YOLOv8 模型的现有优势，旨在进一步提升其性能，满足无人机图像目标检测任务的需求。

主要贡献如下：

本文引入了 IPFA 模块，以解决步长卷积等常规聚合方法中的特征信息丢失问题。通过在多个维度（尤其是通道维度）上分割特征并重新组装，从而构建抽象的语义表示，同时保留原始特征。
本文提出了 CSFM 模块，以解决特征融合过程中的冲突信息问题。CSFM 集成了通道和空间维度的注意力机制，以过滤冗余和冲突，从而增强融合效果。
本文提出了 FGAFPN，以充分利用深层和浅层特征图的优势。通过 CSFM 和跨层级连接，FGAFPN 确保输出特征图中语义信息和空间信息的平衡，减少语义信息差异和冲突信息的生成，从而提高目标检测性能，尤其是在复杂背景场景中。

本研究将上述方法应用于 YOLOv8 算法，提出了 IF-YOLO（基于信息保留和细粒度特征聚合的 YOLO 算法）模型，以增强无人机图像中复杂地面背景目标和小目标的检测能力。这些方法的有效性已在 VisDrone2019 数据集上得到验证，该数据集由无人机拍摄的航拍图像组成。

2. 相关工作

2.1. 目标检测

目标检测是指在图像或视频中准确识别并精确定位物体的位置和类型。传统的物体检测方法，如 Haar 特征[19]和 SVM 分类器[20]，通常依赖于人工设计的简单特征，难以提取复杂的语义特征，导致模型在尺度变化、姿态变化和遮挡等方面表现不佳。与传统方法相比，深度学习方法能够通过结合多层神经网络从原始数据中学习更高级和抽象的特征表示。这些特征捕捉了物体的低级视觉特性，如颜色和纹理，并通过分层非线性变换逐步构建更复杂的语义表示，包括物体的形状、结构、上下文等信息。这种能力使得深度学习方法在目标检测任务中具有显著优势。

基于深度学习的目标检测算法主要分为两类：单阶段和两阶段检测算法。两阶段检测算法，如 Faster R-CNN[21]、Mask R-CNN[22]和 CenterNet[23]，将目标检测过程分为两个不同的阶段。初始阶段识别图像中的候选区域，随后阶段对这些候选区域进行分类和边界框精炼。尽管这些方法具有更高的准确性，但它们的检测速度往往较慢。另一方面，单阶段检测算法（如 SSD[5]、RetinaNet[6]、YOLO 系列[12-18]）省略了区域提议步骤，直接进行物体的分类和定位。这些单阶段检测算法显著提高了检测效率，同时降低了计算开销。然而，单阶段算法通常面临类别不平衡问题，导致检测精度相对较低。此外，基于深度学习的目标检测算法还可以根据是否使用预定义的锚框进行分类。这种分类包括基于锚框的检测算法（如 Scaled-YOLOv4[24]、YOLOv5[16]）和无锚框检测算法（如 Reppoints[25]）。

YOLO 系列因其卓越的性能在目标检测领域获得了广泛关注和使用。YOLO 系列的每个版本都引入了改进和增强。在 YOLOv4[15]中，引入了 CSPDarkNet[26]结构以增强卷积神经网络的学习能力。还引入了 SPPF 模块和 PANet 结构[27]。YOLOv5[16]引入了 Focus 模块，与传统的 $\times 3$ 卷积层相比，在计算速度方面具有优势。此外，采用非极大值抑制（NMS）来去除重叠的候选框。YOLOv7[18]在 ELAN 模块的基础上引入了 E-ELAN 模块。ELAN 是一种管理最短和最长梯度路径的网络模块。同时，E-ELAN 是对 ELAN 模块的改进，能够在不延长最短梯度路径的情况下训练多尺度特征。这一增强显著提升了 YOLOv7 的特征提取能力，从而提高了目标检测的准确性和效率。YOLOv8[28]是 YOLO 系列的最新版本。与 YOLOv7 和 YOLOv5 等先前版本相比，YOLOv8 在速度和准确性方面都有所提高。YOLOv8 是一种单阶段检测器，提供从小到大的五个版本：YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l 和 YOLOv8-x。通常，YOLOv8 使用 CSPDarkNet 从图像中提取特征，将 C3 模块改进为 C2f 模块，并在最后一层采用 SPPF 模块[29]。在颈部部分，YOLOv8 使用 PANet 模块进行特征融合和上下文信息传播。在头部部分，YOLOv8 与之前的 YOLO 系列相比进行了重大更改，从耦合头转变为解耦头，从基于锚框转变为无锚框。这种设计使网络更加灵活和高效。凭借所有这些优势，YOLOv8 已成为一种易于使用且高效的物体检测器。

2.2. 无人机图像目标检测

在无人机航拍成像过程中，传感器通常与被拍摄物体保持一定距离，导致目标成像区域小、像素少、分辨率低，缺乏足够的特征信息。这使得它们的检测具有挑战性。随着目标检测技术的进步，一些专门为无人机图像检测设计的算法已被提出。例如，UFPMP-Net 通过设计统一前景打包模块（UFP）来处理无人机图像检测任务中的密集和遮挡目标。它将粗检测器的子区域聚类以抑制背景，并在单次推理中推断生成的图像，在提高检测精度的同时减少了计算时间。Lu 等人[31]引入了一种混合模型，将卷积神经网络（CNN）与 Transformer 结合，用于无人机图像中的有效目标检测，解决了复杂背景和尺度变化等问题。然而，该研究提出的模型存在模型复杂度高的问题。UAV-YOLOv8 算法[32]通过引入 Wise-IoU v3 损失、FFNB 特征处理模块和 BiFormer 注意力机制等创新设计，显著提高了小目标的检测性能，同时在资源消耗方面取得了良好的平衡。Zhang 等人提出了 CFANet[33]用于高效的无人机图像目标检测。他们引入了跨层特征聚合（CFA）模块来解决特征融合中的语义差距问题，引入了分层关联空间金字塔池化（LASPP）模块用于上下文捕捉，并引入了 alpha-IoU 损失函数以实现更快的收敛和更高的准确性。他们还使用重叠切片（AOS）方法在高分辨率图像切片过程中保持物体完整性。Li 等人[34]对 YOLOv8-s 模型进行了轻量化优化。他们用 BiFPN[35]替换了 YOLOv8 的 PANet 结构，并在骨干网络中引入了 Ghostblock[36]模块，在减少参数的同时实现了改进的检测能力。TPH-YOLOv5[37]通过结合 Transformer 预测头和集成 CBAM 模型，实现了无人机图像中小目标的精确检测。Drone-YOLO[38]在 YOLOv8 模型的基础上，通过引入增强的颈部组件、三明治融合模块和 RepVGG 模块，提高了小目标检测的准确性。

尽管上述方法在其应用中取得了改进，但它们未能考虑深度学习目标检测算法中步长卷积和池化等通用特征聚合方法引起的信息丢失问题，以及特征金字塔网络中直接融合引入的语义冲突问题。因此，这些模型的性能提升是有限的。鉴于此，我们提出的方法考虑了这些问题。它旨在在不丢失目标特征的情况下构建输入样本的语义特征表示，并减少冲突信息的生成能力，以检测小目标。

3. 方法论

我们模型的整体结构如图2 所示。与原始 YOLOv8 相比，我们的模型进行了一系列改进，以增强其在无人机图像目标检测中的适用性。
在这里插入图片描述

3.1. 信息保留特征聚合模块

特征聚合是一种集成和组合来自同一特征空间的多个特征以捕捉更全面和准确信息的方法。然而，步长卷积和池化等常用特征聚合方法可能导致深度神经网络中特征信息的丢失，从而导致检测性能的灾难性下降。步长卷积通过增加卷积核的步长来减小输出特征图的大小并增加感受野的大小。这种方法直接在空间维度上聚合输入特征，导致小目标的特征信息被压缩。另一方面，池化操作在空间维度上将特征分成四个子特征，仅保留部分子特征而丢弃其他子特征。这种方法可能导致丢弃的子特征中包含的有价值信息的丢失。我们提出了一种感受野。然后，经过分割和重组过程后，特征通过 $\times 1$ 卷积在通道维度上进行交互，实现特征聚合。该模块的目的与 YOLO 系列算法中不同阶段之间的操作一致。YOLOv1 和 YOLOv2 在阶段之间使用卷积和最大池化操作，而后续版本采用步长卷积操作 $[39]$ 。如图 3 所示，这三种方法都旨在增加感受野并减小特征图大小。然而，我们的设计通过提供卓越的性能而优于其他方法。它允许在不丢失原始特征的情况下构建输入样本的语义特征表示。IPFA 模块的具体结构如图 4 所示。
在这里插入图片描述

假设输入特征图 $X$ 的大小为 $H×W×C\mathbf{H}\times\mathbf{W}\times\mathbf{C}$ ，IPFA 模块首先采用 $3×33\times3$ 卷积来增加感受野大小，同时保持输出特征图大小不变：
$Y=Conv3(X)\boldsymbol{Y}=Conv_{3}(\boldsymbol{X})$
其中 $C o n v 3$ 指的是核大小为 $3×33\times3$ 的常规卷积，在颈部部分被替换为深度可分离卷积以减少参数数量。之后，特征在通道和空间维度上进行分割，得到 8 组子特征。这些过程的计算如下式所示：
$f0,0,0=Y[0:2:W,0:2:H,0:2:C],f1,0,0=Y[1:2:W,0:2:H,0:2:C],⋮f1,1,0=Y[1:2:W,1:2:H,0:2:C],f1,1,1=Y[1:2:W,1:2:H,1:2:C]\begin{array}{r l}{f_{0,0,0}=Y[0:2:W,0:2:H,0:2:C],}&{f_{1,0,0}=Y[1:2:W,0:2:H,0:2:C],}\\ {\vdots}\\ {f_{1,1,0}=Y[1:2:W,1:2:H,0:2:C],}&{\;f_{1,1,1}=Y[1:2:W,1:2:H,1:2:C]}\end{array}$
其中 $W,H,W,\,H,$ 和 $C$ 分别指输入特征图的最大宽度、最大高度和最大通道数。 $f0,0,0,f1,0,0,…,f1,1,0,f1,1,1f_{0,0,0},f_{1,0,0},\ldots,f_{1,1,0},f_{1,1,1}$ 表示分割输入特征后得到的八个子特征。然后，这些子特征在通道维度上使用 concat 操作进行重组。最后，使用 $1×11\times1$ 卷积在通道维度上对重组后的特征进行信息交互，公式如下：
$Z=Conv1({f0.0.0,f1.0.0,…,f1.1.0,f1.1.1})Z=Conv_{1}\big(\big\{\,f_{0.0.0},\,f_{1.0.0},\dots,\,f_{1.1.0},\,f_{1.1.1}\big\}\big)$
其中 ${}\{\}$ 表示 concat 操作， $C o n v 1$ 指的是核大小为 $1×11\times1$ 的常规卷积。

我们已经将 YOLOv8 骨干网络和颈部部分不同阶段之间的步长卷积替换为 IPFA 模块。与传统方法相比，这个新实现的模块可以保留输入样本中的原始特征信息，从而提高模型的性能。

3.2. 冲突信息抑制特征融合模块

在特征融合中，通常使用“concat”或“add”操作来融合不同层级的特征图。然而，简单地以默认权重融合它们会引入大量冗余和冲突信息，导致当前层的语义变化，并使小目标容易被背景遮蔽。
在这里插入图片描述

因此，提出了 CSFM 以在融合过程中过滤掉冲突信息，并防止小目标的特征被淹没。该模块有两个并行分支：通道冲突信息抑制模块（CCSM）和空间冲突信息抑制模块（SCSM）。CCSM 和 SCSM 的目标是在输入特征的通道和空间维度上挖掘重要信息。CCSM 通过自适应平均池化和自适应最大池化在空间维度上压缩输入特征，以聚合代表全局图像特征的空间信息。然后将两种池化方法的输出特征图结合起来，以获得更详细的全局图像特征。另一方面，SCSM 通过两个卷积操作在通道维度上压缩输入特征。这使得 SCSM 能够获得与不同层级输入特征对应的空间注意力图。图 5 展示了 CSFM 的具体结构。CCSM 和 SCSM 在通道和空间维度上生成自适应权重，引导模型关注更重要的信息，同时丢弃冲突信息。

假设 $X$ 是一个浅层特征图， $Y$ 是对应层级的特征图， $Z$ 是一个深层特征图。我们首先将输入特征图 $X$ 和 $Z$ 调整到与 $Y$ 相同的大小。该操作的公式如下：
$X′=Downsample(X)Z′=Upsample(Z)\begin{aligned}{X^{\prime}}&{{}=Downsample(X)}\\ {Z^{\prime}}&{{}=Upsample(Z)}\end{aligned}$
其中 Downsample 操作使用步长卷积实现，而 Upsample 操作使用双线性插值实现。三个统一大小的特征图层分别输入到上下分支中，上分支 1 的输出 $O_{C}$ 可以从以下公式推导：
$OCM=CRC(MP({X′,Y,Z′}))OCA=CRC(AP({X′,Y,Z′}))WC=Sigmoid(OCM+OCA)\begin{array}{r}{O_{CM}=CRC\big(MP\big(\big\{X^{\prime},Y,Z^{\prime}\big\}\big)\big)}\\ {O_{CA}=CRC\big(AP\big(\big\{X^{\prime},Y,Z^{\prime}\big\}\big)\big)}\\ {W_{C}=Sigmoid\big(O_{CM}+O_{CA}\big)\quad}\end{array}$
$OC=WC⊗{X′,Y,Z′}O_{C}=W_{C}\otimes\left\{X^{\prime},Y,Z^{\prime}\right\}$
其中 $MP$ 指的是最大池化操作， $A P$ 指的是平均池化操作。 $CRC$ 表示两个卷积操作，中间有一个 ReLU 激活， $⊗\otimes$ 表示逐元素乘法。在连接输入特征后，它们分别通过平均池化和最大池化操作生成相应的权重 $O_{CA}$ 和 $O_{CM}$ 。然后将这两个权重沿空间维度相加，并通过 sigmoid 激活函数生成通道自适应权重 $W_{C}$ 。最后， $W_{C}$ 与连接的输入特征进行逐元素相乘，得到 $CCSM$ 的输出 $O_{C}$ 。

SCSM 生成的空间注意力权重 $W_{S}$ 可以表示为
$WS=Softmax(Conv1({Conv3(X′),Conv3(Y),Conv3(Z′)})))W_{S}=Softmax\big(Conv_{1}\big(\{Conv_{3}\big(X^{\prime}\big),Conv_{3}\big(Y\big),Conv_{3}\big(Z^{\prime}\big)\}\big)\big)\big)$
其中 $S o f t ma x$ 用于沿通道维度归一化特征图。输入特征图分别与 $\times 3$ 卷积核进行卷积，得到三个输出特征图，每个特征图有八个通道。然后将这些特征图沿通道维度连接在一起。随后，应用 $1×11\times1$ 卷积将通道数减少到 $3$ ，与输入特征图的数量匹配。因此，下分支的输出 $O_{S}$ 可以描述为
$OS={X′⊗WS[0],Y⊗WS[1],Z′⊗WS[2]}.O_{S}=\{X^{\prime}\otimes W_{S}[0],Y\otimes W_{S}[1],Z^{\prime}\otimes W_{S}[2]\}.$
输入特征图与相应的空间权重 $W_{S}$ 进行逐元素相乘，然后将得到的加权特征图连接起来，得到 SCSM 的输出 $O_{S}$ 。最后，将 CCSM 和 SCSM 的输出 $O_{C}$ 和 $O_{S}$ 进行逐元素相加，得到 CSFM 模块的输出 $O_{CS}$ 。 $⊕\oplus$ 表示逐元素求和。公式可以描述如下：
$OCS=OC⊕OS.O_{CS}=O_{C}\oplus O_{S}.$

3.3. 细粒度聚合特征金字塔网络

在深度学习神经网络中，浅层特征图具有较小的感受野和更强的特征表示能力，适合检测小目标。相反，深层特征图更适合检测大目标。多尺度特征融合结合了浅层和深层特征图的优势。

其目的是结合不同尺度或分辨率的特征图，以获得更全面和丰富的特征表示，从而实现更好的特征融合效果。然而，直接融合不同密度的信息可能导致语义冲突，限制多尺度特征的表达。为了解决这个问题，我们提出了 FGAFPN，其具体结构如图 6 所示。
在这里插入图片描述

FGAFPN 首先在骨干网络的多个层级特征图 P1 到 P5 上使用细粒度特征聚合模块（FGAM），使不同层级的特征图之间进行一定程度的信息交互。从 P1 到 P5，细节信息减少而语义信息增加。这确保了输出特征图 L1 到 L4 中语义和空间信息的平衡，减少了输入金字塔网络中多层级特征图之间的信息密度差异，并缓解了冲突信息的生成。这种特征聚合操作在金字塔网络之前进行，由多个 CSFM 模块组成。在 FGAM 输出聚合特征后，金字塔网络引入了额外的同级特征图连接，灵感来自 BiFPN 架构。这种集成允许在不引入过多计算成本的情况下融合更多的目标特征。通过结合这些技术，FGAFPN 实现了语义和空间信息的更平衡集成，有效减少了语义冲突，并提高了网络在复杂背景中检测目标的能力。

4. 实验

4.1. 数据集

为了评估我们提出方法的有效性，我们使用 VisDrone2019 数据集[40]进行了实验。VisDrone2019 数据集是由天津大学机器学习与数据挖掘实验室 AISKYEYE 团队策划的一组无人机拍摄的可见光图像。该基准数据集涵盖了各种高度、光照条件和天气场景，包含具有不同程度遮挡和变形的物体。该数据集包含 10,209 张静态图像，分辨率从 $2000×15002000\,\times\,1500$ 像素到 480 × 360 像素不等。它被划分为训练集、验证集和测试集，分别包含 6471、548 和 3190 张图像。图 7 定量地说明了 VisDrone2019 数据集的一些特征。图 7a 描述了数据集中每个类别的具体数量。图 7c 展示了物体边界框中心坐标的分布，较暗的阴影表示物体中心集中在图像的中下部区域。图 7b,d 分别展示了物体边界框的尺寸分布和散点图，说明了这些边界框宽度和高度之间的对应关系。这些可视化共同表明，数据集中普遍存在小物体和具有显著尺度变化的物体，从而给目标检测任务带来了挑战。
在这里插入图片描述

4.2. 评估指标

我们在测试集和验证集上评估我们模型的可靠性。我们的主要重点是评估模型的检测性能和复杂性。在整个实验过程中，我们采用各种指标来衡量模型的性能，包括精确率（P）、召回率（R）、平均精度均值（mAP）、浮点运算次数（GFLOPS）、百万参数（M）和检测时间（ms）。每个评估指标的计算公式如下：
$P=TPTP+FP\mathrm{P}={\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}}$
$R=TPTP+FN\mathrm{R}={\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}}$
$AP=∫01P(R)dR\mathrm{AP}=\int_{0}^{1}\mathrm{P(R)dR}$
$mAP=1m∑i=1mAPi{\mathrm{mAP}}={\frac{1}{m}}\sum_{i=1}^{m}{\mathrm{AP}}_{i}$
其中，TP、FP 和 FN 分别代表正确预测的正样本数量、错误预测的正样本数量和错误预测的负样本数量。

4.3. 实现细节

我们的实验设置如下：操作系统为 Ubuntu 20.04，Python 版本为 3.9，PyTorch 版本为 1.12.0，CUDA 版本为 11.6，GPU 为 NVIDIA GeForce RTX 3090。在实验中，我们每次训练 300 个 epoch，前三个 epoch 用于预热训练。我们使用 SGD 优化器，初始学习率为 $\times 10^{-2}$ 。我们没有使用常数或线性衰减策略，而是使用余弦退火调度将学习率动态降低到 $\times 10^{-5}$ 。此外，权重衰减系数和动量分别设置为 $5×10−45\times10^{-4}$ 和 0.937。由于输入图像的初始尺寸相对较大，在训练基于图像的算法之前，我们进行了一系列预处理操作，将所有图像调整为 640 的统一尺寸，同时保持其宽高比。因此，我们可以将批量大小设置为 8 以进行高效训练。在本文的所有实验中，实验结果都是通过使用上述相同参数设置进行训练和测试获得的，并且所涉及的模型均未使用预训练模型。

4.4. 结果分析

在这里插入图片描述

4.4.1. IPFA 模块的效果

在这里插入图片描述

表 1 展示了使用 IPFA 模块前后的效果。使用 IPFA 模块有助于提高模型检测精度。在 VisDrone2019-val 数据集上，引入 IPFA 模块使 YOLOv5-s 模型的 mAP@0.5 提高了 3.3%，YOLOv8-s 模型提高了 1.8%。这表明 IPFA 模块具有优越的优化能力。这主要是由于 IPFA 模块能够在创建语义特征表示的同时保持目标的固有特征，从而增强模型检测小目标的能力。在 VisDrone2019-test 数据集上，IPFA 模块使 YOLOv5-s 和 YOLOv8-s 模型的 mAP@0.5 分别提高了 3.4% 和 1.7%。这表明 IPFA 模块表现出色的泛化能力。图 8 更直观地展示了 IPFA 模块带来的改进。图 8 的第一行显示了从不同光照和场景条件下从无人机视角拍摄的图像。图 8 的第二行展示了使用梯度加权类激活映射（Grad-CAM）生成的 YOLOv5-s 的热力图。图 8 的第三行展示了使用 Grad-CAM 生成的带有 IPFA 模块的 YOLOv5-s 的热力图。同样，图 8 的第四行代表使用 Grad-CAM 生成的 YOLOv8-s 的热力图，图 8 的最后一行显示了使用 Grad-CAM 生成的带有 IPFA 模块的 YOLOv8-s 的热力图。与图 8 的第二行相比，图 8 的第三行显示更多小目标被更深的红色区域覆盖，同时在无目标区域的红色覆盖减少。同样，在比较图 8 的第四行和最后一行时也出现了相同的模式。这些观察表明，带有 IPFA 模块的模型对小目标区域表现出更高的关注度，并减少了对无关区域的关注，从而验证了 IPFA 模块的有效性。
在这里插入图片描述

4.4.2. CSFM 的效果

如表 2 所示，我们比较了 CSFM 在不同 FPN 方法中的性能。由于 FGAFPN 被设计为四检测头结构，为了确保结果的有效性，我们为 PANet 和 BiFPN 方法也引入了一个额外的检测层（adl）。检测层的位置由图 2 中的灰色箭头标出。表中“√”表示添加了这个额外的检测层“adl”。与使用连接操作而不是 CSFM 的 FGAFPN（FGAFPN-CSFM）相比，我们将 CSFM 集成到 FGAFPN 后，检测性能显著提高。在 VisDrone2019-val 数据集上，mAP 从 44.8% 提高到 45.8%，召回率从 43.1% 提高到 44.0%。同样，在 VisDrone2019-test 数据集上，mAP 从 36.1% 提高到 36.4%，精确率从 47.5% 提高到 47.8%，召回率从 37.7% 提高到 38.1%。我们还注意到，在集成 CSFM 后，PANet 和 BiFPN 模型的性能也得到了显著提升。在 VisDrone2019-val 数据集上，PANet 的 mAP 增加了 0.4%，BiFPN 增加了 0.7%。然而，带有 CSFM 的 PANet 的性能不如 FGAFPN 显著。这主要是因为 FGAFPN 在同级特征图之间引入了额外的跨层连接，以解决特征融合过程中的信息丢失问题，并进一步促进冲突信息生成的减少。
在这里插入图片描述

通过精细的特征融合，FGAFPN 获取了详细的特征并有效利用了上下文信息，实现了更高级的语义理解。图 9 通过可视化直观地展示了 FGAFPN 的有效性。在 VisDrone2019 数据集的图像中，结合 CSFM 的 FGAFPN 可以检测到被树木、建筑物和桥梁遮挡的目标，包括小目标。这种能力在一定程度上减少了误报和漏报。其他使用 CSFM 的 FPN 方法也表现出改进的检测性能。具体来说，结合 CSFM 的 BiFPN 可以准确检测到被树木和桥梁等障碍物遮挡的目标，并且检测到的遮挡目标的置信度得到增强。这证实了 CSFM 在增强多尺度特征融合方面的有效性。
在这里插入图片描述

4.5. 敏感性分析

在进行对比实验之前，必须彻底探索 IPFA 模块的潜力并优化模型构建。考虑到不同数量和位置的 IPFA 模块实例的多样化影响，我们在 VisDrone2019 数据集上进行了实验，以确定最佳模型配置。本文不仅比较了使用 IPFA 模块前后的效果，还评估了不同数量和位置的 IPFA 模块实例的影响。鉴于浅层网络特征中细节信息更丰富，更有利于检测小目标，我们优先替换了浅层网络中的步长卷积。如表 3 所示，“√”表示用 IPFA 模块替换了当前阶段的步长卷积。根据结果，当 IPFA 模块同时应用于颈部的第一阶段（S1）和第二阶段（S2），同时保持骨干网络中 IPFA 的不变应用时，整体性能最佳。此外，随着骨干网络中应用的 IPFA 模块数量增加，mAP 也随之提高。然而，这导致了模型复杂性和检测时间的增加。为了平衡检测精度和速度，我们将骨干网络和颈部中 IPFA 模块的应用数量各设为两个。当 IPFA 模块同时在骨干网络的第一阶段（S1）和第二阶段（S2）使用时，获得了最高的 47.3% mAP。因此，在我们的模型中，IPFA 模块在骨干网络和颈部的第一阶段（S1）和第二阶段（S2）都得到了应用。
在这里插入图片描述

4.6. 与主流模型的比较

为了验证我们提出方法的有效性，在 VisDrone2019 数据集上将我们提出的模型与几个具有代表性的最先进模型进行了比较。比较结果如表 4 所示。IF-YOLO 在 VisDrone2019-val 数据集上达到了最高的平均精度均值 47.3%，精确率为 56.5%，召回率为 45.3%。这比基线方法 YOLOv8-s 有了显著提升，后者精确率仅为 50.2%，召回率为 39.7%。IF-YOLO 准确性的提高可归因于 IPFA 模块和 FGAFPN，它们增强了对小目标的检测能力，提供了多尺度表示能力，并减少了误检和漏检。关于模型复杂性，我们的模型计算复杂度为 47.5 GFLOPS，由于我们进行了额外的改进以捕捉复杂场景中小目标的全面特征信息，因此相对较高。然而，与表现最好的 YOLOv5-x 和 YOLOv8-x 相比，我们的模型在实现相似性能的同时显著减少了参数数量。尽管我们的模型在精确率上略逊一筹，但在召回率和 mAP@0.5 上略优于其他模型。这些实验比较表明，尽管复杂性略有增加，但我们的改进带来了显著的性能提升。
在这里插入图片描述

我们还比较了 YOLOv8-l、YOLOv3、IF-YOLO 和基线模型 YOLOv8-s 在不同场景和光照条件下拍摄的图像中的性能。结果如图 10 所示。我们的研究发现，IF-YOLO 是在昏暗光照条件下目标检测最准确的模型。我们观察到 YOLOv8-s 和 YOLOv8-l 在场景 1 中漏检了很多目标，只检测到了一小部分目标。YOLOv3 在检测车辆目标方面也表现出有限的能力。然而，IF-YOLO 检测到了大部分目标，包括那些被障碍物遮挡的目标，使其比其他模型更准确。场景 2 表明 YOLOv8-s、YOLOv8-l 和 YOLOv3 未能检测到被桥梁遮挡的车辆。IF-YOLO 在检测大量小目标时表现出更明显的优势，如三个场景的对比图所示。YOLOv8-s、YOLOv8-l 和 YOLOv3 在图像的红色框内显示出大量漏检，而 IF-YOLO 几乎检测到了所有目标。总体而言，这些结果表明在无人机图像目标检测任务中，IF-YOLO 在检测小目标、遮挡目标和光照条件差的目标方面优于其他模型，减少了误检和漏检。

除了上述比较外，我们还绘制了我们模型与基线模型之间的混淆矩阵，如图 11 所示。横轴代表真实类别，纵轴代表预测类别。对角线元素表示正确预测类别的比例，而非对角线元素表示错误预测的比例。从图中可以看出，右子图的对角线区域比左子图更高更暗，这些结论与 P-R 曲线比较一致，如图 12 所示。我们模型中每个类别的 P-R 曲线下面积（AUC-PR）均高于 YOLOv8-s，进一步证明了我们模型的优越性。
在这里插入图片描述

4.7. 消融实验

为了验证每种改进策略的有效性，我们基于基线模型（YOLOv8-s）进行了消融实验，如表 5 所示。表 5 中的“adl”指的是用于小目标检测的附加层。在消融实验中，两个 IPFA 模块分别应用于骨干网络和颈部，以保持速度和精度之间的平衡。

当添加用于小目标检测的附加层时（YOLOv8-s+adl），四个检测头的组合解决了目标尺度剧烈变化的问题，导致 mAP 提高了 4.3%，精确率和召回率分别提高了 4.0% 和 3.6%。这也证实了四检测头结构对于无人机图像中的小目标检测是不可或缺的，因为小目标数量众多。此外，当将 IPFA 模块应用于模型以替代步长卷积等通用特征聚合方法时（YOLOv8-s+adl+IPFA），mAP@0.5 进一步提高了 1.9%，精确率和召回率分别进一步提高了 2.3% 和 1.2%。这表明 IPFA 模块使模型能够在保留小目标原始特征的同时，构建输入样本更抽象的语义特征表示。随着 FGAFPN 模块的应用（YOLOv8-s+FGAFPN），与四检测头基线模型（YOLOv8-s+adl）相比，mAP 提高了 1.1%，召回率提高了 0.7%，而精确率没有下降。作为一种四检测头结构，FGAFPN 减少了不同层级特征图之间的语义差异，增强了模型的多尺度表示能力。最后，当所有改进策略都应用于基线模型时（YOLOv8-s+IPFA+FGAFPN），模型达到了最佳性能，mAP 提高了 6.9%，精确率和召回率分别提高了 6.3% 和 5.6%。结果表明，应用于基线模型的每种改进策略都在不同程度上提升了检测性能。
在这里插入图片描述

5. 结论

本文基于 YOLOv8 提出了 IF-YOLO，以解决多尺度和小目标的精确检测问题。具体而言，我们的算法通过三项关键改进解决了通用特征聚合方法导致小目标信息丢失的问题，以及常见 FPN 方法直接融合不同层级特征导致的语义冲突问题。首先，引入了 IPFA 模块来替代步长卷积，该模块通过在多个维度上分割和重组特征，并在通道维度上交互信息，从而在不丢失小目标原始特征的情况下构建输入样本的语义抽象表示。这一增强提高了小目标的检测性能。其次，提出了 CSFM 来改进融合方法。该模块引入了注意力机制，在通道和空间维度上过滤掉不同层级特征图直接融合带来的冗余和冲突信息，从而增强特征融合效果。最后，引入了 FGAFPN，通过 CSFM 将骨干网络中相邻层级的特征图融合到当前层级的特征图中，实现细节特征聚合，并通过促进不同尺度特征层之间的交互来减少冲突信息的生成。在 VisDrone2019 数据集上的大量实验证明了 IF-YOLO 的优越性。与其他算法相比，它在复杂背景、小目标和遮挡目标等具有挑战性的场景中表现出更高的准确性和鲁棒性。

尽管我们的方法在无人机目标检测方面表现出色，但在低光照、模糊和遮挡等具有挑战性的条件下仍遇到困难。因此，我们正在考虑将图像增强技术与轻量化策略相结合，以提高其在边缘设备上的整体有效性、通用性和适应性。

查看全文

http://www.dtcms.com/a/494388.html