当前位置: 首页 > news >正文

多尺度频率辅助类 Mamba 线性注意力模块(MFM),融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力

         在伪装物体检测领域,现有方法大多依赖空间局部特征难以有效捕捉全局信息,而 Transformer 类方法虽能建模长距离依赖关系,却存在计算成本高、网络结构复杂的问题。同时,频域特征虽具备全局建模能力,可频繁的频域与空域转换会增加计算复杂度。此外,Mamba 方法凭借高效的注意力机制和轻量化设计,在降低计算成本方面展现出巨大潜力,但其在伪装物体检测中的应用尚未被充分探索。基于此,为解决传统方法在全局信息捕捉和计算效率上的不足,MFM 模块应运而生,它融合频域和空域特征,通过多尺度策略进一步提取全局信息,优化了传统基于 Transformer 的方法。

1.MFM(Multi-scale Frequency-Assisted Mamba-Like Linear Attention)原理

        MFM 模块的核心原理是将频域特征与类 Mamba 线性注意力机制相结合,以实现高效的全局特征建模。其借助快速傅里叶变换(FFT)将输入特征转换到频域,生成查询 Q、键 K 和值 V,通过频域注意力机制捕捉全局依赖关系,再经逆快速傅里叶变换(IFFT)转回空域。同时,引入线性注意力机制替代传统非线性 Softmax,降低计算复杂度,并利用选择性状态空间模型(如 MLLA)中的遗忘门机制(结合 LePE、RoPE 和 CPE 等位置编码),增强对长序列特征的处理能力。此外,通过多尺度结构(如采用不同尺寸的深度 wise 卷积)处理不同尺度的特征,结合频率权重模块(FWM)进行残差连接,强化频域信息的表示,从而在有效捕捉全局信息的同时,降低计算开销。

MFM 模块的设计融合了频域特征提取、多尺度处理及类 Mamba 线性注意力机制,具体结构如下:

  1. 输入预处理阶段
    输入特征 Ei​ 首先经过条件位置编码(CPE)处理,以增强特征的位置信息表征,随后通过层归一化(LN)稳定特征分布,得到张量 E~i​。这一步骤确保后续操作中特征的空间位置关系和数值稳定性。

  2. 多尺度特征分解与提取
    将 E~i​ 沿通道维度拆分为多个分支,每个分支先通过 1×1 卷积降低通道维度,再分别经过不同尺寸的深度 wise 卷积(如 3×3、5×5)生成多尺度特征张量。例如,采用 3×3 和 5×5 深度 wise 卷积捕捉不同感受野下的局部特征,使模块能够处理图像中不同大小的目标或细节。

  3. 线性注意力机制集成
    对每个尺度的特征张量,先通过激活函数(如 Sigmoid)进行非线性变换,再经 reshape 操作调整维度,输入线性注意力层 La​。线性注意力层采用类 Mamba 的选择性状态空间模型(SSM)结构,通过遗忘门机制(结合 LePE、RoPE 等位置编码)建模长距离依赖关系,替代传统 Transformer 的二次复杂度注意力,将计算复杂度降至线性级别。不同尺度的注意力结果经拼接(Φ)后得到融合特征 Ai​。

  4. 频域信息增强模块
    引入频率权重模块(FWM)强化频域特征表示:通过快速傅里叶变换(FFT)将输入特征转换至频域,经卷积、批归一化、GELU 激活等操作生成频域权重,再与原频域特征点乘,最后通过逆傅里叶变换(IFFT)转回空域,形成频域残差连接。该过程增强了特征中的全局频域信息,抑制背景噪声。

  5. 特征融合与输出
    将多尺度注意力融合特征 Ai​ 与频域增强后的特征进行点乘,再通过 1×1 卷积调整通道维度,得到 Fi1​。随后,Fi1​ 与 FWM 处理后的残差特征、原始输入特征 Ei​ 相加,并再次经过 CPE 编码,得到 Fi2​。最后,Fi2​ 与多层感知机(MLP)处理后的结果、层归一化(LN)输出融合,形成最终输出特征 Fi​,实现多尺度频域 - 空域特征的高效整合。

        整个结构通过多尺度分解、线性注意力机制和频域残差连接,在降低计算复杂度的同时,增强了模型对全局上下文和多尺度目标的表征能力,适用于伪装物体检测等需要捕捉复杂特征依赖关系的任务。

2. MFM习作思路​

一)医学领域

在医学相关论文中,可描述为:“针对医学影像中病变区域与周围组织相似度高、边界模糊等检测难题,提出将 MFM 模块应用于医学伪装物体(如病变区域)检测。该模块通过多尺度频域 - 空域特征融合,有效捕捉医学影像中病变组织的全局结构特征,抑制复杂背景噪声,提升对微小病变或边界模糊病变的检测精度。同时,基于类 Mamba 的线性注意力机制,降低了模型计算复杂度,使其适用于医学影像的实时分析与诊断。”

(二)遥感领域

在遥感领域论文中可表述为:“在遥感图像中,伪装目标(如军事设施、隐藏建筑等)常与自然背景高度融合,传统方法难以有效检测。MFM 模块通过多尺度频域注意力提取遥感图像中的全局上下文信息,增强对不同尺度伪装目标的特征表示,克服了遥感图像中目标尺度变化大、背景复杂的挑战。结合类 Mamba 的轻量化设计,该模块在保证检测精度的同时,大幅降低了计算量,适用于大规模遥感图像的高效处理。”

(三)缺陷检测领域

对于缺陷检测领域,可这样描述:“工业产品表面缺陷常因与正常区域纹理、颜色相似而难以识别,MFM 模块被引入缺陷检测任务。其通过多尺度频域 - 空域特征协同处理,有效提取缺陷的全局特征,区分缺陷与正常区域的细微差异,提升对微小缺陷、复杂纹理表面缺陷的检测能力。基于线性注意力的类 Mamba 机制,使模型在工业实时检测场景中具有更高的效率和实用性。”

(四)农业领域

在农业相关论文中,可描述为:“农业场景中,病虫害植株、杂草等伪装目标与正常作物外观相似,检测难度大。MFM 模块通过融合多尺度频域和空域特征,捕捉农业目标的全局光谱与结构特征,增强对病虫害早期症状、杂草与作物的区分能力。类 Mamba 的线性注意力机制降低了模型计算复杂度,使其能够在农业无人机、田间机器人等设备上实现实时检测,为精准农业提供技术支持。”

3. YOLO与MFM的结合     

        MFM 与 YOLO 结合时,借多尺度频域 - 空域特征融合强化 YOLO 对小目标、多尺度目标的特征提取能力,提升复杂场景下的检测精度;频域全局建模抑制背景干扰,与 YOLO 的强泛化性互补,增强模型在光照变化、复杂背景下的鲁棒性。

4. MFM代码部分

多尺度频率辅助类 Mamba 线性注意力模块(MFM),使用类mamba模块,融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力_哔哩哔哩_bilibili

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一个v12_changemodel,将下面的核心代码复制到下面这个路径当中,如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

            ​​​​​​         

第二:在task.py中导入

 ​​​                

第三:在task.py中的模型配置部分下面代码

                   ​​​​​​​​​​​​​​ 

第四:将模型配置文件复制到YOLOV12.YAMY文件中

       ​​​​​​​​​​​​​​ 

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

 上面是原模型,下面是改进模型

改进后的模型

 ​​​​​​​​​​​​​​ 

http://www.dtcms.com/a/278964.html

相关文章:

  • Docker 拉取镜像并离线迁移至云桌面指南(以Redis为例)
  • 【API测试】Apifox、Apipost、Postman测试工具详解,Mock介绍
  • docker私有仓库
  • Java 树形结构、层级结构数据构建
  • 密码学中立方攻击的另类应用
  • 力扣454.四数相加Ⅱ
  • idea删除的文件怎么找回
  • 【第一章编辑器开发基础第二节编辑器布局_1水平与垂直布局(1/4)】
  • git项目,有idea文件夹,怎么去掉
  • 【第一章编辑器开发基础第一节绘制编辑器元素_6滑动条控件(6/7)】
  • 衡石科技技术手册--仪表盘过滤控件详解
  • SpringBoot集成SAP,本地IDEA启动和Windows服务器部署
  • 第八章排序 选择题
  • 【HarmonyOS】元服务入门详解 (一)
  • 从“直觉抢答”到“深度思考”:大模型的“慢思考”革命,思维链、树、图如何让AI越来越像人?
  • 生产者消费者问题,详解(操作系统os)
  • 扩散生成基础原理(二)——DDPM概率去噪扩散模型
  • 1.2.1 面向对象详解——AI教你学Django
  • git 下载报错:fetch-pack: unexpected disconnect while reading sideband packet
  • 139-CNN-BiLSTM-Selfattention-ABKDE预测模型!
  • 深度学习基础:损失函数(Loss Function)全面解析
  • 搭建k8s高可用集群,“Unable to register node with API server“
  • LINUX714 自动挂载/nfs;物理卷
  • 侧链的出现解决了主链哪些性能瓶颈?
  • Android系统的问题分析笔记 - Android上的调试方式 debuggerd
  • .NET 9 GUID v7 vs v4:时间有序性如何颠覆数据库索引性能
  • 如何快速去除latex表格中的加粗
  • 杨辉三角的认识与学习
  • 图像修复:深度学习GLCIC神经网络实现老照片划痕修复
  • 未来手机会自动充电吗