当前位置: 首页 > news >正文

【论文阅读|V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING】

论文题目:V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING

年份:2024

期刊会议: arXiv

代码链接:https://github.com/wangck20/V2M

目录

    • 现阶段存在的问题
        • 1. 二维结构信息丢失
        • 2. 一维 Mamba 架构的局限性
        • 3. 提升视觉任务表现
      • 相关研究
  • 方法
        • 二维状态空间模型设计:
    • V2M流程
    • 1. 输入与预处理
    • 2. 四向旋转
    • 3. 2D 状态空间模型 (2D SSM) 计算
    • 4. 水平方向隐状态拆解与并行计算
    • 5. 输入变换与拼接
    • 6. 2D SSM输出拼接与旋转复原
    • 7. 最终输出
    • 实验
      • 分类任务
      • 消融实验
        • 理论分析

现阶段存在的问题

Visual 2-Dimensional Mamba(V2M)提出的核心目的在于为视觉任务设计一种保留二维结构信息、同时具有高效状态空间建模能力的新型视觉骨干网络。其主要解决的痛点包括:

1. 二维结构信息丢失
  • 问题:传统 Mamba 属于一维序列模型,视觉任务通常将图像切成 patch,并展平成序列输入,这破坏了图像的二维局部结构(如邻域相关性)。
  • 解决方案:V2M 将 SSM 从 1D 扩展至 2D,直接在二维网格上对状态进行递推,分别从行和列方向考虑邻接状态,保持局部空间结构。
2. 一维 Mamba 架构的局限性
  • 问题:即使采用多种扫描策略,1D Mamba 仍难以重构原始二维空间关系。
  • 解决方案:V2M 使用二维状态方程,以更加自然的方式在二维栅格上传播状态(从四个角开始),避免长路径扫描对空间连贯性的破坏。
3. 提升视觉任务表现
  • 问题:1D Mamba 无法充分利用图像的二维结构表示。
  • 解决方案:V2M 通过二维 SSM 建模,提升模型对局部与全局视觉信息的捕捉能力,在 ImageNet、COCO、ADE20K 等任务上超越基线模型。

相关研究

  • CNN 系列:ResNet、RegNet 等
  • Vision Transformers:ViT、Swin Transformer
  • Visual-Mamba 系列:Vim(Zhu et al., 2024)、LocalMamba(Huang et al., 2024)
  • 状态空间模型(SSM):S4 (Gu et al.,2021a)、Mamba (Gu & Dao,2023)
  • 二维 SSM 基础:Roesser Model (Kung et al.,1977)
  • 视觉表示学习
    • 监督:ResNet,MoCo 等
    • 自监督:MAE、SimCLR、BYOL 等

方法

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

二维状态空间模型设计:

二维状态更新方程如下:

{ h 1 i , j + 1 = A 1 h 1 i , j + A 3 h 2 i , j + B 1 x i , j h 2 i + 1 , j = A 2 h 1 i , j + A 4 h 2 i , j + B 2 x i , j y i , j = C 1 h 1 i , j + C 2 h 2 i , j \begin{cases} h_1^{i,j+1} = A_1 h_1^{i,j} + A_3 h_2^{i,j} + B_1 x_{i,j} \\ h_2^{i+1,j} = A_2 h_1^{i,j} + A_4 h_2^{i,j} + B_2 x_{i,j} \\ y_{i,j} = C_1 h_1^{i,j} + C_2 h_2^{i,j} \end{cases} h1i,j+1=A1h1i,j+A3h2i,j+B1xi,jh2i+1,j=A2h1i,j+A4h2i,j+B2xi,jyi,j=C1h

http://www.dtcms.com/a/312292.html

相关文章:

  • 字节-面试
  • 性能测试工具ApacheBench、Jmeter
  • gitee使用教程
  • 昇思学习营-开发版-模型推理和性能优化
  • 在 Elasticsearch 中使用 LTR 参与检索
  • k8s+isulad 国产化技术栈云原生技术栈搭建3-master节点安装
  • 查找位置函数
  • 垃圾收集器G1ZGC详解
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 77-1(题目+回答)
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 76-1(题目+回答)
  • set和map使用
  • 技巧|SwanLab记录混淆矩阵攻略
  • express-jwt报错:Error: algorithms should be set
  • 【智能体cooragent】不同的单智能体调用的大模型的推理的输入与输出
  • 笔试——Day26
  • 【LLM】如何在Cursor中调用Dify工作流
  • Makefile 从入门到精通:自动化构建的艺术
  • 【Java基础知识 16】 数组详解
  • 微积分思想的严密性转变 | 极限、逼近与程序化
  • 计算机技术与软件专业技术资格(水平)考试简介
  • 【Pytorch✨】LSTM01 入门
  • 集成电路学习:什么是HAL硬件抽象层
  • 【设计模式】 3.设计模式基本原则
  • 对于考研数学的理解
  • 【攻防实战】记一次DOUBLETROUBLE攻防实战
  • build文件夹下面的主要配置文件
  • win10任务栏出问题了,原来是wincompressbar导致的
  • 扫雷游戏完整代码
  • RK3399 启动流程 --从复位到系统加载
  • Munge 安全认证和授权服务的工作原理,以及与 Slurm 的配合