【YOLOv8改进- Backbone主干】CVPR2025 MambaOut :为图像分类任务设计的轻量级模型,曼巴永存!
YOLOV8目标检测创新改进与实战案例专栏
专栏目录: YOLOV8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
专栏链接: YOLOV8基础解析+创新改进+实战案例
介绍
摘要
“曼巴(Mamba)是一种具有状态空间模型(SSM)的类似循环神经网络(RNN)的标记混合器架构,最近被引入以解决注意力机制的二次复杂性,并随后应用于视觉任务。然而,与基于卷积和注意力的模型相比,曼巴在视觉任务上的表现往往不尽如人意。在本文中,我们深入研究了曼巴的本质,并从概念上得出结论,曼巴非常适合具有长序列和自回归特性的任务。对于视觉任务,由于图像分类与这两个特性都不相符,我们假设曼巴对于此任务不是必需的;检测和分割任务也不是自回归的,但它们具有长序列特性,所以我们认为探索曼巴在这些任务中的潜力仍然是值得的。为了凭经验验证我们的假设,我们通过堆叠曼巴块同时去除其核心标记混合器 SSM 构建了一系列名为曼巴输出(MambaOut)的模型。实验结果有力地支持了我们的假设。具体来说,我们的曼巴输出模型在 ImageNet 图像分类任务上超越了所有视觉曼巴模型,表明曼巴对于此任务确实是不必要的。至于检测和分割,曼巴输出无法与最先进的视觉曼巴模型的性能相匹配,这展示了曼巴在长序列视觉任务中的潜力。代码可在此链接获取。”
文章链接
论文地址:论文地址
代码地址:代码地址
基本原理
MambaOut是为探究Mamba在视觉任务中必要性而构建的一系列模型,它基于Gated CNN块,去除了Mamba中的核心组件SSM。
- 提出背景:Transformer的注意力机制在处理长序列时存在二次复杂度问题,Mamba作为一种新模型,其基于RNN机制的SSM可降低计算复杂度,被引入视觉任务,但表现不如预期。为探究Mamba在视觉任务中的必要性,提出MambaOut模型。
- 技术原理:MambaOut基于Gated CNN块构建,与Mamba的主要区别是去除了SSM。Gated CNN块可视为MetaFormer的token mixer和MLP的简化集成