当前位置：首页 > news >正文

YOLO12改进-模块-引入AFE模块增强模型对复杂场景（如杂乱背景、小目标、半透明物体）的特征提取能力

news 来源：原创 2025/5/30 6:51:24

        在语义分割任务中，复杂场景（如杂乱背景、半透明物体）下的语义线索捕捉是难点。现有方法（如基于 CNN 和 Transformer 的模型）存在以下局限：
        CNN：受限于局部感受野，难以建模长距离上下文和多尺度变化。
        Transformer：依赖全局自注意力，计算成本高且忽视局部细节，在杂乱背景中分割精度不足。
        混合模型：虽结合卷积和注意力，但对复杂场景下的语义信息提取仍不充分，尤其对半透明物体边界和多尺度目标处理能力有限。

上面是原模型，下面是改进模型

1. AEF介绍

AFE（自适应特征增强模块）的设计灵感来源于图像增强技术（如图像锐化和对比度增强），核心理论包括：

空间上下文建模：通过大内核卷积（如 7×7）扩大感受野，捕捉多尺度空间上下文，解决目标尺度变化问题。

特征频率分离：高频细节：通过原图与平滑图的差值突出边缘和细节（类似图像锐化）。低频区域：通过原图与平滑图的逐元素相乘强化整体结构和语义区域（类似对比度增强）。

并行特征融合：通过并行分支分别处理空间上下文和语义特征，再融合两者信息，实现从粗到细的特征增强。

AFE 模块由四个关键组件组成：

卷积嵌入（CE）：通过 1×1 卷积压缩通道数（如减半），降低计算量并促进特征混合。

空间上下文模块（SCM）：采用大内核分组卷积（如 7×7），扩大感受野以捕获多尺度空间信息。

特征 refinement 模块（FRM）：高频分支：通过深度卷积下采样 - 上采样生成平滑特征，与输入特征相减得到高频细节。低频分支：输入特征与平滑特征逐元素相乘，提取低频语义区域。融合：高频和低频特征经深度卷积后拼接，通过投影层输出增强特征。

卷积多层感知机（ConvMLP）：通过 1×1 卷积和多层感知机进一步增强特征表示。

2. YOLOv12与AFE的结合

将 AFE 模块插入 YOLO12 的主干网络中，可增强模型对复杂场景（如杂乱背景、小目标、半透明物体）的特征提取能力：

多尺度上下文建模：通过 SCM 的大内核卷积扩大感受野，提升对不同尺度目标的鲁棒性。

语义细节增强：FRM 分离并融合高低频特征，既保留目标边缘细节，又强化整体语义结构，改善 YOLO12 在复杂场景下的检测和分割精度，尤其适用于工业检测、医疗影像等细粒度任务。

3. AFE代码部分

YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

YOLO12模型改进方法，快速发论文，总有适合你的改进，还不改进上车_哔哩哔哩_bilibili

4. 将AFE引入到YOLOv12中

第一: 先新建一个change_model，将下面的核心代码复制到下面这个路径当中，如下图如所示。YOLOv12\ultralytics\change_model。

第二：在task.py中导入包

第三：在task.py中的模型配置部分下面代码

第四：将模型配置文件复制到YOLOV12.YAMY文件中

第五：运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO(r"E:\Part_time_job_orders\YOLO_NEW\YOLOv12_all\ultralytics\cfg\models\12\yolo12_AEE_Block.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data=r'E:\Part_time_job_orders\YOLO\YOLOv12\ultralytics\cfg\datasets\VOC_my.yaml',epochs=300,imgsz=640,batch=64,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)