【人工智能与机器人研究】优化YOLOv11模型:基于多尺度注意力机制的小目标检测性能提升研究
导读
随着遥感图像中小目标检测问题的日益突出,传统目标检测方法在小目标的精确定位上存在局限性。为解决这一问题,本文提出了一种基于YOLOv11模型的多尺度注意力机制优化方法。首先,删除了YOLOv11模型中用于大目标检测的20 × 20尺度检测层,增加了160 × 160尺度的小目标检测层,以提升小目标的检测精度。其次,采用EIoU (Enhanced Intersection over Union)损失函数替代CIoU损失函数,解决了CIoU在长宽比差异较大的目标中的定位问题,从而加速收敛并提高定位精度。最后,结合空间注意力和通道注意力机制,增强了模型对不同尺度目标的感知能力。实验结果表明,优化后的YOLOv11模型在多个遥感图像数据集上表现出较传统YOLOv11显著提高的精度、召回率和F1分数,特别在小目标检测任务中具有更强的鲁棒性和更高的检测精度。研究表明,提出的方法能有效提升小目标检测性能,为遥感图像分析提供了新的解决方案。
正文
YOLOv11的整体网络架构如图1所示。首先,主干网络充当主要特征提取器,利用卷积神经网络将原始图像数据转换为多尺度特征图。其次,颈部组件充当中间处理阶段,利用专门的层来聚合和增强跨不同尺度的特征表示。第三,头部组件充当预测机制,根据精炼的特征图生成用于目标定位和分类的最终输出。
在本研究中,我们提出了针对YOLOv11模型的小目标检测优化方案,旨在提高该模型在遥感图像中的小目标识别精度和鲁棒性。YOLOv11作为一种高效的目标检测算法,凭借其端到端训练方式和实时推理能力,广泛应用于各种视觉任务。然而,面对遥感图像中的小目标,YOLOv11仍存在一定的性能瓶颈。为了克服这些挑战,本部分将详细介绍我们对YOLOv11算法进行的三项主要改进:1) 删除20 × 20尺度的大目标检测层,增加160 × 160尺度的小目标检测层;2) 使用EIoU损失函数替代传统的CIoU损失函数;3) 引入多尺度注意力机制,具体包括空间注意力和通道注意力机制。这些改进不仅能够增强模型对小目标的感知能力,还能提升模型的定位精度与收敛速度,从而更好地应对遥感图像中的复杂检测任务。改进后的网络结构如图2所示。
为了更好地处理遥感图像中不同尺度的目标,我们在YOLOv11模型中结合了多尺度特征图的空间和通道注意力机制。在不同尺度的特征图中,空间注意力机制可以有效识别目标所在的区域,而通道注意力机制则帮助优化各个尺度上关键特征的表达。通过这种方式,模型能够自适应地聚焦于不同尺度目标的关键特征,尤其是在小目标的检测任务中,能够显著提升目标的识别精度。
本实验在一台配备NVIDIA GeForce RTX 3070 GPU的计算机上进行,操作系统为Windows 10。所有实验代码使用Python 3.10编写,深度学习框架为PyTorch 2.3.0,CUDA版本为12.1,以确保充分利用GPU进行加速。为了提高训练效率,初始学习率设定为0.01,并采用学习率衰减策略,最小学习率为0.001。每次训练使用的batch-size为16,训练周期(Epoch)为200,训练过程中的优化器采用Adam优化器,以保证较快的收敛速度。
消融实验(Ablation Experiment)旨在评估各项改进对模型性能的贡献。我们通过对比不同的模型配置,逐步去除或修改提出的创新点,分析每一项改进的效果。
模型1 (基线模型):原始YOLOv11模型,未做任何修改。
模型2 (新增小目标检测层):在基线模型上增加160 × 160的小目标检测层,删除20 × 20大目标检测层。
模型3 (替换EIoU损失函数):在模型2的基础上,将损失函数由CIoU替换为EIoU。
模型4 (引入多尺度注意力机制):在模型3的基础上,增加多尺度空间和通道注意力机制。
我们通过对比不同模型在多个评价指标上的性能变化,直观展示了各项改进对模型性能的贡献。消融实验结果如表1所示。
通过对比模型2 (新增小目标检测层)和模型3 (替换EIoU损失函数),我们可以看到,尽管这两项改进分别提升了精度和召回率,但它们的性能提升幅度相对较小。相反,结合这两项改进和多尺度注意力机制(模型4)后,模型的整体性能得到了显著提升。
为了进一步验证我们的改进效果,我们将优化后的YOLOv11与几种主流的目标检测算法进行了对比实验,包括Faster R-CNN 、RetinaNet 、YOLOv8等。我们选取这些算法作为对比,因为它们在目标检测任务中表现优异,且广泛应用于遥感图像分析中,对比实验结果如表2所示。
从对比实验结果可以看出,YOLOv11 (优化后)在所有评价指标上均优于其他模型,尤其是在mAP和F1-score方面,表现出色。相较于YOLOv8和RetinaNet,优化后的YOLOv11在处理小目标时具有更高的精度和更好的定位能力。尽管Faster R-CNN在某些情况下能够提供较高的精度,但由于其计算复杂度较高,实时性较差,因此在实际应用中可能不如YOLOv11高效。
结论
实验结果表明,新增小目标检测层有效提高了小目标的检测能力,EIoU损失函数的替换优化了目标的定位精度,且通过引入多尺度注意力机制,模型能够在不同尺度上更精准地聚焦关键区域,从而显著提升了整体性能。通过一系列消融实验和与其他主流目标检测算法(如YOLOv5、RetinaNet、Faster R-CNN)的对比,我们的优化方案在精度、召回率和mAP等指标上均取得了显著的性能提升,尤其是在遥感图像中小目标检测的挑战性任务中表现突出。
基金项目
西安市科技计划软科学研究一般项目(项目编号:24RKYJ0065)
原文链接:优化YOLOv11模型:基于多尺度注意力机制的小目标检测性能提升研究