当前位置: 首页 > news >正文

VMamba: Visual State Space Model学习笔记

摘要

背景

设计计算高效的网络架构是计算机视觉的持续需求

方法

将状态空间语言模型Mamba改编为具有线性时间复杂度的视觉主干网络Vmamba
核心是带有2D选择性扫描模块的可视状态空间(VSS)块的堆栈,通过四条扫描线路的遍历,SS2D弥合了一维选择性扫描的有序性质与二维视觉数据的非循序结构之间的差距,并有助于从各种来源和角度收集上下文信息,基于VSS块开发了VMamba架构,并通过一系列架构和实现增强加速他们

贡献

广泛的实验证明了VMamba在各种视觉感知任务的出色表现,凸显了与现有基准模型相比卓越的输入拓展效率

引言

背景

视觉表示学习仍然是计算机视觉领域的基础研究领域,为表示视觉数据中复杂模式,主干网络的两大类分别是CNN和ViT,ViT集成了自注意力机制,在大规模数据上通常表现出优越的学习能力,

挑战

然而自注意力的二次复杂性与标记的数量不同在涉及大空间分辨率的下游任务中施加了大量计算开销。

研究现状

人们做出了重大努力提高注意力计算效率,然而现有方法要么限制了有效感受野大小,要么在各种任务中表现明显下降,这促使开发一种既保留自注意力机制的固有优势,即全局感受野和动态加权参数。
在NLP领域的状态空间模型Mamba以成为有前途的线性复杂度的长序列建模方法,

提出新方法

基于此推出了Vmamba,这是一种视觉骨干网络,集成了SSM块以实现高效的视觉表示学习。核心算法是并行选择性扫描操作,本质上是处理一维顺序数据而设计,为解决这个问题提出了二维选择性扫描(SS2D),设置一种专为空间域遍历的四向扫描机制。SS2D通过图像patch仅通过沿其相应扫描路径计算的压缩隐藏状态获取上下文知识,从将计算复杂度从二次降至线性。
![[Pasted image 20251018104757.png]]

贡献

提出了VMamba,一种基于SSM的视觉骨干,具有线性时间复杂度的视觉表示学习
引入SS2D桥接一维阵列扫描和二维平面遍历,从而能够扩展选择性SSM处理视觉数据
VMamba在各种视觉任务中取得了良好的性能,并表现出对输入序列长度的显著适应性,显示计算复杂度的线性增长

方法部分

对于给定输入I∈RH×W×3I \in \mathbb{R}^{H \times W \times 3}IRH×W×3
先划分成H/4×W/4H/4 \times W/4H/4×W/4的二维特征图,再通过包含一个下采样层(第一阶段除外)和若干个视觉状态空间(VSS)块,构建不同分辨率的分层表示。
具体来说,每个VSS块删除了乘法分支,并替换为了SS2D模块,如图d所示,改进的VSS块由一个具有两个残差模块的网络分枝组成。
![[Pasted image 20251018105500.png]]

视觉数据的2D选择性扫描(SS2D)

![[Pasted image 20251018110333.png]]

SS2D包括三个步骤,交叉扫描,选择性扫描和交叉合并
交叉扫描:将输入patch沿着四个不同的遍历路径展开序列
选择性扫描:通过选择性扫描并行处理每个patch序列
交叉合并:将生成的序列重塑并合并形成输出映射

SS2D允许图像中每个像素跨不同方向整合其他来自其他所有像素的信息,有助于在2D空间建立全局感受野

实验

图像分类

![[Pasted image 20251018152736.png]]

在ImageNet-1K上评估了图像分类的性能
在FLOP中,VMamba-T达到了82.6%的Top-1,优于 DeiT-S 2.8% 和 1.3% Swin-T。值得注意的是,VMamba 在小型和基本规模上都保持了其性能优势。例如,VMamba-B 的 top-1 精度超过 83.9% DeiT-B 2.1% ,超越 0.4% Swin-B。
在计算效率上,Vmamba-T实现了 1,686 张图像/秒的吞吐量,这要么优于最先进的方法,要么可与最先进的方法相媲美。 VMamba-S 和 VMamba-B 延续了这一优势,分别实现 877 了映像吞吐量和 646 映像吞吐量。与基于SSM的模型相比,VMamba-T 的吞吐量 1.47× 高于 S4ND-Conv-T 和 1.08× Vim-S,同时分别保持了明显的性能领先于 0.4% 2.1% 这些模型。

下游任务

![[Pasted image 20251018153426.png]]

在目标检测上,通过12个epoch的微调后,VMamba-T/S/B 的目标检测 mAP 分别优于 47.3%/48.7%/49.2% mAP 的 4.6%/3.9%/2.3% Swin-T/S/B 和 mAP 的 3.1%/3.3%/2.2% ConvNeXt-T/S/B。VMamba-T/S/B 实现的实例分割 mAP 分别超过 3.4%/2.8%/ Swin-T/S/B 1.8 % mAP 和 ConvNeXt-T/S/B 2.6%/1.9%/ 1.4 % mAP。此外,VMamba 的优势在使用多尺度训练的 36 个 epoch 微调计划中得以延续,凸显了其在需要密集预测的下游任务中的强大潜力。
在语义分割上,VMamba-T 在单尺度 (SS) 设置中实现了 3.4% 高于 Swin-T 和 1.9% ConvNeXt-T 的 mIoU,并且在多尺度 (MS) 输入中优势仍然存在。对于小型和基础级别的模型,VMamba-S/B 在 SS 设置中优于 2.6% NAT-S 2.5% /B [25] / mIoU,在 MS 设置中优于 1.7% / 1.9% mIoU。

结论

方法

提出了VMmaba,这是一种使用状态空间模型构建的高效视觉骨干模型,将选择性SSM的优势集成到了视觉数据处理中,通过SS2D模块弥合了有序1D扫描和非顺序2D遍历之间的差距。

效果

在线性时间复杂度下VMamba在大分辨率输入的下游任务中有优势

局限

现有预训练方法与VMamba等基于SSM架构的兼容性有待探索
尚未大规模探索VMamba架构并进行细粒度的超参数搜索
尚未探索如何弥合SS2D与通用任务扫描模式的差距

http://www.dtcms.com/a/546013.html

相关文章:

  • 设计排版优秀网站邯郸市口碑网络技术有限公司
  • Win11配置VMware-workstation以及Ubuntu环境
  • 网站建设开题报告wordpress is电影主题
  • 网络营销怎么做网站邢台泰尚网络科技有限公司
  • 多级缓存系统设计:从本地到分布式,打造高性能利器
  • 网站建设企业建站哪家好wordpress 红包广告
  • VS的Qt项目在Git拉取后丢失QT的项目设置
  • 北京公司建网站要多少费用电脑网站生成手机网站
  • 怎么做盗版电影网站吗免费做网站哪里有
  • erd-editor:一款免费开源的ERD设计工具
  • 如何查看一个网站是什么程序做的住宅装饰装修工程施工规范
  • 网站空间企业个人网页设计需要考什么证书
  • 2025青科会启幕,网易伏羲携游戏AI前沿实践共话未来
  • 网站建设领先广州代做网站
  • 聊网站推广免费下载一个app
  • 深圳电商网站制作公司郑州二七区做网站
  • vue路径大小写引入检查与修复;配置git大小写敏感
  • 赣州网站开发公司网站开发的重难点
  • dvadmin开发文档(第一版)
  • 设计网站视频教程长沙网站推广优化
  • 淘宝电子面单API集成中的常见技术难点与解决方案
  • 高端网站制作要多少钱河北网站开发公司
  • 电脑制作网站的软件免费发布信息平台网
  • 西宁网站seo价格永康企业网站建设公司
  • 做视频特技的网站网站字体排版技巧
  • Rust 的零成本抽象:深入理解 Option 与 Result 的设计哲学
  • rust:什么是所有权
  • 模版网站好吗搜索引擎最新排名
  • 【js逆向案例二】瑞数6 深圳大学某医院
  • 网站编辑怎么样东莞网站建设网站推广价钱