当前位置：首页 > news >正文

【论文阅读|V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING】

news 2025/11/16 22:14:16

论文题目：V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING

年份：2024

期刊会议： arXiv

代码链接：https://github.com/wangck20/V2M

- 现阶段存在的问题
- - - 1. 二维结构信息丢失
    - 2. 一维 Mamba 架构的局限性
    - 3. 提升视觉任务表现
  - 相关研究
方法
- - - 二维状态空间模型设计：
- V2M流程
- 1. 输入与预处理
- 2. 四向旋转
- 3. 2D 状态空间模型 (2D SSM) 计算
- 4. 水平方向隐状态拆解与并行计算
- 5. 输入变换与拼接
- 6. 2D SSM输出拼接与旋转复原
- 7. 最终输出
- 实验
- - 分类任务
  - 消融实验
  - - 理论分析

现阶段存在的问题

Visual 2-Dimensional Mamba（V2M）提出的核心目的在于为视觉任务设计一种保留二维结构信息、同时具有高效状态空间建模能力的新型视觉骨干网络。其主要解决的痛点包括：

1. 二维结构信息丢失

问题：传统 Mamba 属于一维序列模型，视觉任务通常将图像切成 patch，并展平成序列输入，这破坏了图像的二维局部结构（如邻域相关性）。
解决方案：V2M 将 SSM 从 1D 扩展至 2D，直接在二维网格上对状态进行递推，分别从行和列方向考虑邻接状态，保持局部空间结构。

2. 一维 Mamba 架构的局限性

问题：即使采用多种扫描策略，1D Mamba 仍难以重构原始二维空间关系。
解决方案：V2M 使用二维状态方程，以更加自然的方式在二维栅格上传播状态（从四个角开始），避免长路径扫描对空间连贯性的破坏。

3. 提升视觉任务表现

问题：1D Mamba 无法充分利用图像的二维结构表示。
解决方案：V2M 通过二维 SSM 建模，提升模型对局部与全局视觉信息的捕捉能力，在 ImageNet、COCO、ADE20K 等任务上超越基线模型。

方法

在这里插入图片描述

二维状态空间模型设计：

二维状态更新方程如下：

$\begin{cases} h_1^{i,j+1} = A_1 h_1^{i,j} + A_3 h_2^{i,j} + B_1 x_{i,j} \\ h_2^{i+1,j} = A_2 h_1^{i,j} + A_4 h_2^{i,j} + B_2 x_{i,j} \\ y_{i,j} = C_1 h_1^{i,j} + C_2 h_2^{i,j} \end{cases}$