2025年6月|注意力机制|面向精度与推理速度提升的YOLOv8模型结构优化研究:融合ACmix的自研改进方案
版本: 8.3.143(Ultralytics YOLOv8框架)
ACmix模块原理
在目标检测任务中,小目标(如裂缝、瑕疵、零件边缘等)由于其尺寸较小、纹理信息稀疏,通常更容易受到图像中复杂背景或噪声的干扰,从而导致漏检或误检。这类目标在初期可能不会对系统性能造成明显影响,但在长时间运行或关键场景中,其检测精度的下降可能对系统的稳定性与安全性构成潜在威胁。因此,提升模型对小目标的感知能力和对关键区域细节的特征提取能力,成为提高检测鲁棒性的关键所在。为解决上述问题,本文在YOLOv8的检测头(Head)部分引入了ACmix模块,该模块融合了自注意力机制的全局感知能力与卷积操作的局部建模能力,构成一种高效的混合注意力结构。通过将 ACmix 插入至多尺度检测路径中的小目标(P3)、中目标(P4)与大目标(P5)分支,网络能够在不显著增加计算复杂度的前提下,更有效地捕捉目标区域的上下文信息与空间结构,从而提升模型对小尺度目标的响应能力。如图展示了ACmix与常规卷积、自注意力机制的结构对比,直观体现了其融合设计所带来的全局—局部信息整合优势。
ACmix 混合注意力机制融合了卷积与自注意力两种特征建模方法,其设计核心在于统一两者第一阶段中的计算结构。在传统卷积中,使用 𝑘×𝑘大小的卷积核可被等价拆解为 𝑘2个 1×1 卷积操作结合空间偏移;而在自注意力机制中,Query、Key 与 Value 的生成同样可通过三个 1×1 卷积实现。因此,这两种机制在第一阶段本质上执行了类似的线性投影操作,且这一阶段的计算复杂度通常是整个过程中的主要开销(与通道数平方成正比),第二阶段(如空间聚合或加权)则计算成本较低。基于此,ACmix 在第一阶段统一使用三个 1×1 卷积完成特征投影,并将其在通道维度上划分为多个 head 输入至两个并行路径:卷积分支与注意力分支。在卷积分支中,通过通道方向的全连接实现通道扩展,形成分组卷积的输入(head 之间不共享,组内共享),随后执行空间位移与聚合操作以模拟局部感知能力;而在自注意力分支中,采用标准的注意力计算机制进行上下文信息建模,无需额外参数。最终,两条路径的输出按照不同的可学习权重进行融合,从而在保持计算效率的同时,兼顾局部结构感知与全局信息捕获,提升了模型对关键目标区域的特征表达能力。
ACmix代码实现
1.ACmix模块在YOLOv8中的集成方法
为实现 ACmix 与 YOLOv8 框架的融合,本文在 Ultralytics YOLOv8 项目的模块体系中新增了独立模块文件 ACmix.py,其存放路径为:
/ultralytics/nn/modules/attention/ACmix.py
该模块基于 PyTorch 实现,封装了 ACmix 混合注意力机制的核心计算逻辑。其设计包括两个阶段:第一阶段通过三个 1×1 卷积分别生成 Query、Key 和 Value,支持多头注意力机制;第二阶段并行执行卷积分支与注意力分支的特征聚合,最终以可学习权重融合两个分支的输出。该结构既保留了卷积的局部建模能力,又增强了全局信息感知能力。
2. ACmix 模块注册方法
为确保 ACmix 模块能被 YOLOv8 框架识别与调用,需在 ultralytics/nn/tasks.py 文件中进行注册。具体操作包括:
导入模块
from ultralytics.nn.modules.attention.ACmix import ACmix
在模型构建函数 parse_model() 中添加注册逻辑:
elif m == ‘ACmix’:
args = [ch[f], ch[f]]
3. ACmix 模型结构配置(yolov8_ACmix.yaml)
为验证 ACmix 模块在多尺度目标检测中的有效性,本文基于 YOLOv8 架构构建了改进型模型,并设计了完整结构定义文件 yolov8_ACmix.yaml。在保持 YOLOv8 主干网络(Backbone)与特征融合策略基本不变的基础上,分别在 Head 部分的 P3、P4、P5 三个尺度分支中插入 ACmix 模块。
文件目录
为实现 ACmix 模块在 YOLOv8 框架中的集成与功能验证,本文分别设计并编写了关键代码文件与配置文件。
(1)ACmix.py为改进模块的核心实现文件,基于 PyTorch 框架定义了融合自注意力机制与卷积操作的混合结构,并封装为标准模块,便于在 YOLOv8 架构中调用与部署。
(2)yolov8_ACmix.yaml 是模型结构配置文件,在原始 YOLOv8 网络结构的基础上,在多尺度检测头中插入了 ACmix 模块,并对通道数、层级关系等进行了自定义调整。
上述两个文件共同构成本研究改进方案的关键实现基础,具体目录结构如附录所示。
对比实验
为验证所提出 YOLOv8-ACmix 改进模型在目标检测任务中的有效性,本文设计了与原始 YOLOv8n 模型的对比实验,以进一步评估其在检测精度与召回能力方面的性能表现。实验在完全一致的硬件环境与参数配置下进行,所用数据集为统一的肺部疾病图像数据集。分别采用 YOLOv8n 原始模型与改进后的 YOLOv8-ACmix 模型进行训练与推理测试,并依据常用的目标检测评价指标:包括 Precision、Recall、mAP@0.5以及mAP@0.5:0.95对两类模型的检测性能进行量化对比,相关结果如表所示。
从实验结果分析可见,YOLOv8-ACmix 模型在召回率(Recall)方面表现显著优于 YOLOv8n,提升幅度约为 3.7 个百分点,有效降低了模型在复杂场景下的漏检率。同时,在 mAP@0.5 与 mAP@0.5:0.95 两项指标上也略有提升,反映出改进模型在多阈值下的稳定性与鲁棒性更强。尽管在精度(Precision)指标上略有下降,但这种轻微的精度-召回权衡在实际检测任务中是可以接受的,尤其是在对小目标或边缘目标更为敏感的应用场景下,提升的召回率更具实用价值。
综上所述,YOLOv8-ACmix 模型通过在检测头中引入ACmix混合注意力机制,实现了全局语义建模与局部结构感知的有效融合。在保证整体推理效率基本可控的前提下,显著提升了目标检测性能。实验结果充分验证了所提出算法的可行性与优越性,说明该改进方案具有良好的工程适应性与应用推广价值。
图中展示了 YOLOv8n 与改进后的 YOLOv8-ACmix 模型在肺部疾病各类别上的 Precision-Recall 曲线对比。整体来看,两种模型在大多数类别上均取得了较高的检测性能,尤其在“Sick”、“healthy” 与 “tuberculosis” 等目标明显的类别中,Precision 与 Recall 均趋于饱和。
值得注意的是,YOLOv8-ACmix 在 “Pneumonia Virus” 和 “Pneumonia Bacteria” 两个小目标或边界模糊类别上的表现更为稳定。其曲线更贴近图像右上角,反映出改进模型在保证较高 Precision 的同时,有效提升了 Recall,说明 ACmix 模块增强了模型对全局语义与局部细节的联合建模能力,降低了漏检率。
此外,从图中 mAP@0.5 综合值可见,YOLOv8-ACmix 模型在各类别上的检测质量更均衡,表现出更好的泛化能力。该结果验证了在 YOLOv8 框架中引入 ACmix 模块对提升模型整体检测性能的可行性与实效性。
综合主观评价建议(基于实验结果)
综合考虑检测性能提升与结构部署效率,YOLOv8-ACmix 在小目标检测场景中展现出较高的实用价值与稳定增益,具有较强的推荐潜力。
训练结果
本研究使用肺部疾病图像数据集对改进后的 YOLOv8-ACmix 模型进行了训练,并完成了 150 个 epoch 的训练过程,耗时约 3.77 小时。最终训练模型在验证集上的整体性能如下:Precision 为 0.922,Recall 达到 0.972,mAP@0.5 为 0.973,mAP@0.5:0.95 亦为 0.973,表现出良好的检测精度与稳定性。
从各类别表现来看,模型在 “Sick”、”healthy” 和 “tuberculosis” 类别上达到最高的检测性能(mAP@0.5=0.995),说明模型在这类目标样本上具有极强的辨识能力。而对于小目标类别如 “Pneumonia Virus” 和 “Pneumonia Bacteria”,模型的 mAP 分别为 0.957 和 0.922,尽管略低于整体平均水平,但仍表现出较强的检测能力,尤其 Recall 表现显著提升,有效减少了漏检现象。
此外,模型推理效率良好,单张图像的前处理、推理及后处理时间分别为 0.2ms、5.4ms 与 0.7ms,说明该结构具备较好的部署能力。
实验环境
硬件配置如表:实验所用硬件平台为惠普(HP)暗影精灵10台式机整机,运行 Windows 11 64 位操作系统,作为模型训练与测试的主要计算平台,能够良好支持深度学习框架(如 PyTorch)及 YOLOv8 模型的开发需求。
软件配置如表:实验参数方面,本实验迭代次数(epoch)设置为150,批大小(Batchsize)设置为8,优化器选择SGD,学习率设置为0.01。
官方声明
实验环境真实性与合规性声明:
本研究所使用的硬件与软件环境均为真实可复现的配置,未采用虚构实验平台或虚拟模拟环境。实验平台为作者自主购买的惠普(HP)暗影精灵 10 台式整机,具体硬件参数详见表。软件环境涵盖操作系统、开发工具、深度学习框架、CUDA 工具包等,具体配置详见表,所有软件组件均来源于官方渠道或开源社区,并按照其许可协议合法安装与使用。
研究过程中严格遵循学术诚信和实验可复现性要求,确保所有实验数据、训练过程与结果均可在相同环境下被重复验证,符合科研规范与工程实践标准。
版权声明:
本算法改进中涉及的文字、图片、表格、程序代码及实验数据,除特别注明外,均由7zcode.张家梁独立完成。未经7zcode官方书面许可,任何单位或个人不得擅自复制、传播、修改、转发或用于商业用途。如需引用本研究内容,请遵循学术规范,注明出处,并不得歪曲或误用相关结论。
本研究所使用的第三方开源工具、框架及数据资源均已在文中明确标注,并严格遵守其相应的开源许可协议。使用过程中无违反知识产权相关法规,且全部用于非商业性学术研究用途。