当前位置：首页 > news >正文

多尺度频率辅助类 Mamba 线性注意力模块（MFM），融合频域和空域特征，提升多尺度、复杂场景下的目标检测能力

news 2025/7/15 7:30:03

在伪装物体检测领域，现有方法大多依赖空间局部特征，难以有效捕捉全局信息，而 Transformer 类方法虽能建模长距离依赖关系，却存在计算成本高、网络结构复杂的问题。同时，频域特征虽具备全局建模能力，可频繁的频域与空域转换会增加计算复杂度。此外，Mamba 方法凭借高效的注意力机制和轻量化设计，在降低计算成本方面展现出巨大潜力，但其在伪装物体检测中的应用尚未被充分探索。基于此，为解决传统方法在全局信息捕捉和计算效率上的不足，MFM 模块应运而生，它融合频域和空域特征，通过多尺度策略进一步提取全局信息，优化了传统基于 Transformer 的方法。

1.MFM（Multi-scale Frequency-Assisted Mamba-Like Linear Attention）原理

MFM 模块的核心原理是将频域特征与类 Mamba 线性注意力机制相结合，以实现高效的全局特征建模。其借助快速傅里叶变换（FFT）将输入特征转换到频域，生成查询 Q、键 K 和值 V，通过频域注意力机制捕捉全局依赖关系，再经逆快速傅里叶变换（IFFT）转回空域。同时，引入线性注意力机制替代传统非线性 Softmax，降低计算复杂度，并利用选择性状态空间模型（如 MLLA）中的遗忘门机制（结合 LePE、RoPE 和 CPE 等位置编码），增强对长序列特征的处理能力。此外，通过多尺度结构（如采用不同尺寸的深度 wise 卷积）处理不同尺度的特征，结合频率权重模块（FWM）进行残差连接，强化频域信息的表示，从而在有效捕捉全局信息的同时，降低计算开销。

MFM 模块的设计融合了频域特征提取、多尺度处理及类 Mamba 线性注意力机制，具体结构如下：

输入预处理阶段
输入特征 Ei 首先经过条件位置编码（CPE）处理，以增强特征的位置信息表征，随后通过层归一化（LN）稳定特征分布，得到张量 E~i。这一步骤确保后续操作中特征的空间位置关系和数值稳定性。
多尺度特征分解与提取
将 E~i 沿通道维度拆分为多个分支，每个分支先通过 1×1 卷积降低通道维度，再分别经过不同尺寸的深度 wise 卷积（如 3×3、5×5）生成多尺度特征张量。例如，采用 3×3 和 5×5 深度 wise 卷积捕捉不同感受野下的局部特征，使模块能够处理图像中不同大小的目标或细节。
线性注意力机制集成
对每个尺度的特征张量，先通过激活函数（如 Sigmoid）进行非线性变换，再经 reshape 操作调整维度，输入线性注意力层 La。线性注意力层采用类 Mamba 的选择性状态空间模型（SSM）结构，通过遗忘门机制（结合 LePE、RoPE 等位置编码）建模长距离依赖关系，替代传统 Transformer 的二次复杂度注意力，将计算复杂度降至线性级别。不同尺度的注意力结果经拼接（Φ）后得到融合特征 Ai。
频域信息增强模块
引入频率权重模块（FWM）强化频域特征表示：通过快速傅里叶变换（FFT）将输入特征转换至频域，经卷积、批归一化、GELU 激活等操作生成频域权重，再与原频域特征点乘，最后通过逆傅里叶变换（IFFT）转回空域，形成频域残差连接。该过程增强了特征中的全局频域信息，抑制背景噪声。
特征融合与输出
将多尺度注意力融合特征 Ai 与频域增强后的特征进行点乘，再通过 1×1 卷积调整通道维度，得到 Fi1。随后，Fi1 与 FWM 处理后的残差特征、原始输入特征 Ei 相加，并再次经过 CPE 编码，得到 Fi2。最后，Fi2 与多层感知机（MLP）处理后的结果、层归一化（LN）输出融合，形成最终输出特征 Fi，实现多尺度频域 - 空域特征的高效整合。

整个结构通过多尺度分解、线性注意力机制和频域残差连接，在降低计算复杂度的同时，增强了模型对全局上下文和多尺度目标的表征能力，适用于伪装物体检测等需要捕捉复杂特征依赖关系的任务。

2. MFM习作思路

一）医学领域

在医学相关论文中，可描述为：“针对医学影像中病变区域与周围组织相似度高、边界模糊等检测难题，提出将 MFM 模块应用于医学伪装物体（如病变区域）检测。该模块通过多尺度频域 - 空域特征融合，有效捕捉医学影像中病变组织的全局结构特征，抑制复杂背景噪声，提升对微小病变或边界模糊病变的检测精度。同时，基于类 Mamba 的线性注意力机制，降低了模型计算复杂度，使其适用于医学影像的实时分析与诊断。”

（二）遥感领域

在遥感领域论文中可表述为：“在遥感图像中，伪装目标（如军事设施、隐藏建筑等）常与自然背景高度融合，传统方法难以有效检测。MFM 模块通过多尺度频域注意力提取遥感图像中的全局上下文信息，增强对不同尺度伪装目标的特征表示，克服了遥感图像中目标尺度变化大、背景复杂的挑战。结合类 Mamba 的轻量化设计，该模块在保证检测精度的同时，大幅降低了计算量，适用于大规模遥感图像的高效处理。”

（三）缺陷检测领域

对于缺陷检测领域，可这样描述：“工业产品表面缺陷常因与正常区域纹理、颜色相似而难以识别，MFM 模块被引入缺陷检测任务。其通过多尺度频域 - 空域特征协同处理，有效提取缺陷的全局特征，区分缺陷与正常区域的细微差异，提升对微小缺陷、复杂纹理表面缺陷的检测能力。基于线性注意力的类 Mamba 机制，使模型在工业实时检测场景中具有更高的效率和实用性。”

（四）农业领域

在农业相关论文中，可描述为：“农业场景中，病虫害植株、杂草等伪装目标与正常作物外观相似，检测难度大。MFM 模块通过融合多尺度频域和空域特征，捕捉农业目标的全局光谱与结构特征，增强对病虫害早期症状、杂草与作物的区分能力。类 Mamba 的线性注意力机制降低了模型计算复杂度，使其能够在农业无人机、田间机器人等设备上实现实时检测，为精准农业提供技术支持。”

3. YOLO与MFM的结合

MFM 与 YOLO 结合时，借多尺度频域 - 空域特征融合强化 YOLO 对小目标、多尺度目标的特征提取能力，提升复杂场景下的检测精度；频域全局建模抑制背景干扰，与 YOLO 的强泛化性互补，增强模型在光照变化、复杂背景下的鲁棒性。

4. MFM代码部分

多尺度频率辅助类 Mamba 线性注意力模块（MFM），使用类mamba模块，融合频域和空域特征，提升多尺度、复杂场景下的目标检测能力_哔哩哔哩_bilibili

YOLO12模型改进方法，快速发论文，总有适合你的改进，还不改进上车_哔哩哔哩_bilibili

代码获取：YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一个v12_changemodel，将下面的核心代码复制到下面这个路径当中，如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

第二：在task.py中导入包

第三：在task.py中的模型配置部分下面代码

第四：将模型配置文件复制到YOLOV12.YAMY文件中

第五：运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

上面是原模型，下面是改进模型