YOLO12改进-模块-引入AFE模块 增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力
在语义分割任务中,复杂场景(如杂乱背景、半透明物体)下的语义线索捕捉是难点。现有方法(如基于 CNN 和 Transformer 的模型)存在以下局限:
CNN:受限于局部感受野,难以建模长距离上下文和多尺度变化。
Transformer:依赖全局自注意力,计算成本高且忽视局部细节,在杂乱背景中分割精度不足。
混合模型:虽结合卷积和注意力,但对复杂场景下的语义信息提取仍不充分,尤其对半透明物体边界和多尺度目标处理能力有限。
上面是原模型,下面是改进模型
1. AEF介绍
AFE(自适应特征增强模块)的设计灵感来源于图像增强技术(如图像锐化和对比度增强),核心理论包括:
空间上下文建模:通过大内核卷积(如 7×7)扩大感受野,捕捉多尺度空间上下文,解决目标尺度变化问题。
特征频率分离:高频细节:通过原图与平滑图的差值突出边缘和细节(类似图像锐化)。低频区域:通过原图与平滑图的逐元素相乘强化整体结构和语义区域(类似对比度增强)。
并行特征融合:通过并行分支分别处理空间上下文和语义特征,再融合两者信息,实现从粗到细的特征增强。
AFE 模块由四个关键组件组成:
卷积嵌入(CE):通过 1×1 卷积压缩通道数(如减半),降低计算量并促进特征混合。
空间上下文模块(SCM):采用大内核分组卷积(如 7×7),扩大感受野以捕获多尺度空间信息。
特征 refinement 模块(FRM):高频分支:通过深度卷积下采样 - 上采样生成平滑特征,与输入特征相减得到高频细节。低频分支:输入特征与平滑特征逐元素相乘,提取低频语义区域。融合:高频和低频特征经深度卷积后拼接,通过投影层输出增强特征。
卷积多层感知机(ConvMLP):通过 1×1 卷积和多层感知机进一步增强特征表示。
2. YOLOv12与AFE的结合
将 AFE 模块插入 YOLO12 的主干网络中,可增强模型对复杂场景(如杂乱背景、小目标、半透明物体)的特征提取能力:
多尺度上下文建模:通过 SCM 的大内核卷积扩大感受野,提升对不同尺度目标的鲁棒性。
语义细节增强:FRM 分离并融合高低频特征,既保留目标边缘细节,又强化整体语义结构,改善 YOLO12 在复杂场景下的检测和分割精度,尤其适用于工业检测、医疗影像等细粒度任务。
3. AFE代码部分
YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub
YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili
4. 将AFE引入到YOLOv12中
第一: 先新建一个change_model,将下面的核心代码复制到下面这个路径当中,如下图如所示。YOLOv12\ultralytics\change_model。
第二:在task.py中导入包
第三:在task.py中的模型配置部分下面代码
第四:将模型配置文件复制到YOLOV12.YAMY文件中
第五:运行代码
from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO(r"E:\Part_time_job_orders\YOLO_NEW\YOLOv12_all\ultralytics\cfg\models\12\yolo12_AEE_Block.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt') # build from YAML and transfer weightsresults = model.train(data=r'E:\Part_time_job_orders\YOLO\YOLOv12\ultralytics\cfg\datasets\VOC_my.yaml',epochs=300,imgsz=640,batch=64,# cache = False,# single_cls = False, # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)