当前位置：首页 > news >正文

Mamba在视觉领域的应用——综述

news 2025/8/24 20:33:41

参考论文：Mamba in Vision: A Comprehensive Survey of Techniques and Applications

论文翻译：Mamba 模型研究综述 | 从 CNN 到 ViT 再到 Mamba ，推动计算机视觉进步！ - 文章 - 开发者社区 - 火山引擎

本文会根据上述论文链接的翻译内容做部分总结和解释。

一、计算机视觉领域的发展

卷积神经网络CNNs

通过卷积层捕捉多个尺度上的特征并构建空间层次，实现了从像素数据中直接学习复杂模式。

缺点：CNNs在捕捉长程依赖性方面存在固有的挑战，这需要更深层次和更复杂的架构，这会增加计算成本并降低效率。

这里的长程依赖性存在挑战是指：

远距离像素的相关性（例如，一只动物的头部和尾部之间的联系）。
全局上下文的理解（例如，背景中和主体对象的关系）。

需要更深层次和复杂的架构是因为：
卷积操作依赖固定大小的卷积核，仅能在一个小的局部区域提取特征，为了扩大感受野，需要堆叠更多的卷积层，这会导致网络深度的增加。

循环神经网络（RNNs）

为了提升序列建模和全局上下文理解，循环神经网络（RNNs）[126]最初被开发，随后引入了 Transformer （Transformers），在深度学习领域取得了重大突破。尤其是具有长短时记忆（LSTM）单元的RNNs，在处理顺序数据时提高了捕获时间依赖的能力。

缺点：顺序性质限制了并行处理，降低了速度并降低了可扩展性。

RNNs的简单理解

RNNs 是一种专门用于处理序列数据的神经网络模型，其核心特性是能够通过隐藏状态（hidden state）记住之前的输入，从而建模序列中的时间依赖性或上下文关系。

怎么通过隐藏状态记住之前的输入？

隐藏状态 $h_{t}$ 将前一时间步的状态 $h_{t-1}$ 和当前时间步的输入 $x_t$ 结合起来，这种递归机制让其能够“记住”序列的上下文信息。

什么是顺序性质？

RNN 的输出 htht 和隐藏状态 ht−1ht−1 存在时间上的依赖关系，必须按时间步逐步计算。这种依赖性导致 RNN 的计算具有顺序性质。换句话说，当前时间步的计算不能开始，直到前一个时间步的计算完成。

Transformer

通过其自注意力机制， Transformer 通过允许模型动态优先考虑输入数据的不同部分，克服了不能并行处理的这一限制。

为了处理图像，开发了视觉 Transformer （ViTs），并将其视为一系列的 Patch ，比卷积神经网络更有效地捕获全局依赖性。

缺点：然而，尽管ViTs在各种计算机视觉任务中表现出强大的性能，但由于其自注意力机制的四次方复杂度，特别是在高分辨率和实时应用中，面临计算效率的挑战。

混合模型

混合模型应运而生，以解决传统架构的局限性，通过将CNNs、RNNs和Transformer的优势集成到计算机视觉任务中。

例如，卷积长短时记忆网络（卷积LSTM）通过在LSTM单元内集成卷积操作，增强了模型捕捉空间-时间关系的能力。同样，MobileViT将CNN的局部特征提取与Transformer的全局上下文建模相结合。混合架构旨在实现高性能和计算效率之间的平衡，但由于组件优化的要求，增加了复杂性。

状态空间模型SSMs

状态空间模型（SSMs）受到了关注，作为一种有前途的替代方案，尤其是在处理具有长期依赖关系的时间序列数据时，有效地管理长程依赖关系至关重要。

在这个领域，结构化状态空间序列（S4）模型是一个显著的发展，它利用状态空间表示来实现线性计算复杂度。因此，长序列可以有效地处理，同时保持精度。

S4 模型通过集成循环和卷积操作来实现这一目标，这有助于减少序列建模通常 associated 的计算需求。

二、Mamba的出现以及与其他模型的对比

Mamba

基于SSMs的基础原则，Mamba模型在序列建模方面实现了重大突破。Mamba将状态空间理论与先进的深度学习技术相结合，使用选择性状态表示，该表示根据输入数据动态调整。

这种选择性状态机制可以动态过滤掉次要信息，专注于输入序列的最相关部分，从而降低计算开销并提高效率。Mamba架构采用了一种面向硬件的、基于扫描的算法，专为GPU优化，避免了传统卷积SSM的低效性。这使得训练和推理更快，能够更有效地处理视觉数据，并实现计算机视觉的转型方法。

Mamba模型在视频处理、长时序序列处理、远程感知、大型空间数据集处理以及高效精确的高分辨率数据处理等任务中具有特别优势。卷积神经网络（CNNs）和 Transformer （Transformers）由于高计算需求面临可扩展性问题，而Mamba模型通过提供线性可扩展性，在序列长度上实现线性扩展，使其成为实时和大规模应用的理想选择。

将状态空间原理与选择性注意力机制相结合，Mamba模型为处理复杂视觉任务提供了稳健的方法，使计算机视觉解决方案更加高效和可扩展。图1（a）定性比较了CNN、Transformer和Mamba框架，图1（b）基于各种指标在ImageNet-1K数据集上提供了定量比较。

图解

图 (a) 是一个雷达图，展示了 CNN、Transformer 和 Mamba 在多个关键性能维度上的比较，包括以下指标：

1. Inductive Bias（归纳偏置）

定义：

        模型对输入数据潜在结构（如空间相关性）的自带先验假设。

比较：

Transformer 和 Mamba 在归纳偏置上相对较弱，因为它们更依赖数据驱动的学习，而不是事先假设图像的局部特性。
CNN 在归纳偏置上表现最强（蓝色部分突出），因为 CNN 强烈依赖于局部卷积操作，自然适配图像的局部特征提取。

2. Memory Usage（内存使用）

定义：

        模型在计算时的内存需求。

比较：

Transformer 的内存使用量最大（黄色部分较高），尤其是自注意力机制的计算需要存储整个序列的依赖。
CNN 的内存使用量最低，而 Mamba 的内存需求介于两者之间。

3. Computational Efficiency（计算效率）

定义：

        模型在推理和训练时的计算复杂度和效率。

比较：

CNN 的计算效率最高，主要因为卷积操作在硬件加速上的成熟支持。
Transformer 的计算效率较低（尤其在高分辨率任务中），而 Mamba 的效率相对较高（受益于状态空间模型的线性复杂度）。

4. Receptive Field（感受野）

定义：

        模型在一个特定位置能够看到的输入范围。

比较：

Transformer 和 Mamba 的感受野较大，能捕获全局上下文信息。
CNN 的感受野相对较小（需要通过层级堆叠逐步扩大）。

5. Pre-trained Models（预训练模型的数量）

定义：

         在不同任务或数据集上可用的预训练模型数量。

比较：

Transformer 的预训练模型生态系统最丰富，因为近年来研究者对其关注较多。
CNN 的预训练模型稍少，而 Mamba 尚处于新兴阶段，预训练模型的数量有限。

6. Inference Time（推理时间）

定义：

        单次前向推理所需的时间。

比较：

CNN 推理时间最短，Transformer 的推理时间最长，而 Mamba 处于中间。
Transformer 的推理时间受到序列长度影响，尤其在高分辨率图像中。

7. Training Time（训练时间）

定义：

        模型在给定数据上完成训练所需的时间。

比较：

CNN 的训练时间较短，而 Transformer 由于自注意力机制的复杂性，训练时间最长。
Mamba 在此处表现优于 Transformer，但略逊于 CNN。

8. Flexibility in Feature Extraction（特征提取的灵活性）

定义：

        模型对不同任务、不同类型特征的适应能力。

比较：

Transformer 和 Mamba 更具灵活性，因其自注意力机制或状态空间建模方式可以捕获全局和局部特征。
CNN 的特征提取方式主要局限于局部结构，灵活性稍弱。

9. Scalability to High Resolution（高分辨率扩展性）

定义：

        模型在处理高分辨率图像时的适应能力。

比较：

Transformer 和 Mamba 的高分辨率适应性较优，因为它们能够捕获图像的全局上下文信息。
CNN 在处理高分辨率数据时可能需要显著增加层数和参数，扩展性较差。

总结 (a)：

CNN：在归纳偏置、计算效率、推理时间和训练时间方面占优，适合快速训练和推理的任务。
Transformer：在感受野、特征提取灵活性和高分辨率扩展性上表现突出，但内存使用和计算效率会限制其实际应用。
Mamba：结合了 CNN 和 Transformer 的优势，在多项指标上表现平衡，是一种更具潜力的架构。

图 (b) 是一个散点图，比较了 CNN、Transformer 和 Mamba 模型在 ImageNet-1K 数据集上的 Top-1 准确率 与计算性能的关系。

图例说明：

Marker Size（点的大小）：表示模型的参数数量（#Params，单位百万，M）。
Marker Color（点的颜色）：表示浮点运算次数（FLOPs，单位 G，越高代表计算量越大）。
Throughput（点旁的数字，单位 T）：表示模型的推理吞吐量（单位为图片/秒，越高越好）。

分析：

1. CNN（蓝色区域，三角形标记）：

示例模型：

        ConvNeXt-T、EfficientNetV2-S。

性能特点：

参数量较小，计算复杂度（FLOPs）低。
Top-1 准确率较低，通常在 82%-84%。
吞吐量高（如 EfficientNetV2-S 的吞吐量为 3196 images/sec），适合高效的实时应用。

2. Transformer（黄色区域，方形标记）：

示例模型：

        Swin-T、Swin-B。

性能特点：

参数量和计算复杂度较高（如 Swin-B 的 FLOPs 达到 535G）。
Top-1 准确率较高（如 Swin-B 达到 85%+）。
吞吐量一般偏低（如 Swin-T 为 1720 images/sec），在高分辨率数据上效率受限。

3. Mamba（紫色区域，圆形标记）：

示例模型：

        Mamba-S、Mamba-L2。

性能特点：

参数量和计算复杂度适中。
在 Top-1 准确率（如 Mamba-L2 达到 85.5%）上表现接近 Transformer，但消耗的 FLOPs 更低。
吞吐量更高（如 Mamba-S 为 2758 images/sec，优于 Transformer）。
兼具高效性和准确性，在性能-效率权衡方面表现优异。

总结 (b)：

CNN 在训练和推理效率上表现最好，但在准确性上不及 Transformer 和 Mamba。
Transformer 具有最高的准确率，但其计算复杂度大，推理效率较低。
Mamba 在准确率和计算效率之间实现了较好的平衡，显示了其作为新一代模型的潜力。

下表比较了不同综述论文对 Mamba 模型的研究维度

作者的工作主要贡献

作者对计算机视觉中的Mamba模型进行了全面的概述，突出了它们的独特特征，并对其进行了与CNNs和Transformer的比较分析。
作者提出了一种新型的分类方法，根据计算机视觉中的应用领域对Mamba模型进行分类，以指导研究行人根据自身需求选择合适的模型。
作者展示了Mamba模型核心组件（扫描方法）的优势和劣势，以及它们的具体应用场景。
最后，作者概括了Mamba模型中的关键挑战，并提出了未来研究的方向，以进一步提高它们在计算机视觉领域的应用。

三、Mamba在视觉领域的发展

2024年初，Mamba在视觉任务上的适应性开始发展，出现了如VMamba（ NeurIPS (2024)）和Vision Mamba（ICML (2024)）等模型。这些初始模型推动了视觉处理领域的边界，为复杂挑战提供了高效的解决方案。为了方便未来研究者，作者开发了一个全面的分类法，如图2所示。这种分类突显了基于Mamba模型的广泛应用，涵盖了九个类别，在医学图像分析方面做出了重要贡献。

Generation and Restoration（生成与重建）
Video Processing（视频处理）
Image Enhancement（图像增强）
Multimodal（多模态任务）
Classification, Detection, and Segmentation（分类、检测与分割）
Point Cloud Analysis（点云分析）
General Purpose（通用模型）
Medical Image Analysis（医学影像分析）
Remote Sensing（遥感）

四、Mamba视觉模型总览

在图 3 中作者提供了基于 Mamba 的视觉模型的基本处理流程。

该流程从对输入图像进行分块（patching）开始，随后进行一系列扫描操作，旨在提取多尺度特征。

然后，将这些分块传递到一个 Mamba 模块（Mamba block） 中，该模块通常由线性投影、卷积层、SiLU 激活函数以及 SSM（状态空间模型）操作组成，以优化特征提取。根据具体任务需求，许多模型还会集成 CNN、MLP 或 Transformer 块，以进一步提升性能。

接下来，作者将在下一节探讨 Mamba 模块的内部工作机制。

1. 输入图像分块（Image Patching）

输入图像（Input Image）：输入的原始图像首先被分割成一系列小的图像块（patches）。这一过程类似于 Transformer 模型（如 ViT）的图像分块操作，将全局图像划分成固定大小的局部区域。

目的：将大图像转化为小块，便于后续处理，同时更易于捕捉图像的局部特征。

2. 多尺度扫描操作（Scanning）

扫描任务：将分块后的图像进行多尺度特征扫描操作。

扫描操作的目的是提取图像块中的全局和局部信息。

多尺度特征是视觉任务的关键，能够同时捕获局部细节（如边缘）和全局模式（如整体结构）。

3. Mamba 模块的处理（Mamba Block）

核心部分：Mamba Block

多次迭代（N×）： Mamba 模块通常被重复堆叠多次，以逐步增强特征提取的深度和表征能力。

模块组成：

        ①Scanning（扫描）：再次扫描分块数据，进一步提取局部和全局特征。

        ②Linear Projection（线性投影）：对扫描后的数据进行线性变换，将局部特征投影到更高维度的特征空间。

        ③Conv（卷积层）：使用卷积层捕获特征的局部空间模式。

        ④SiLU 激活函数：使用 SiLU（Sigmoid Linear Unit）激活函数引入非线性特性，有助于提取更复杂的特征。

        ⑤SSM（状态空间模型）：SSM 是 Mamba 模块的关键创新，它通过状态空间建模方法捕捉长期依赖以及序列信息，尤其适用于复杂视觉任务。

        ⑥线性投影：对最终提取的特征再次进行线性投影，为输出做准备。

4. 可选模块（Optional CNN/MLP/Transformer）

模块选择：根据具体任务需求，Mamba 模型可以与其他经典模块（如 CNN、MLP 或 Transformer）结合。这些模块进一步增强了模型的特定领域能力，例如：

CNN：用于强化局部特征提取。

Transformer：用于捕捉全局上下文与序列关系。

MLP：用于简单、高效的特征映射。

5. 最终预测（Prediction）

输出：最后，模型根据处理后的特征进行预测，完成图像分类、分割、检测或其他视觉任务。

五、Mamba模型基础知识

5.1 状态空间模型SSM---State Space Model

状态空间模型（SSM）是深度学习中用于序列数据的一种基础模型。这些模型旨在将一维输入序列 $x_{(t)}$ （定义在实向量空间 $\mathbb{R}^{L}$ 中）映射到输出序列 $y_{(t)}$ （同样定义在 $\mathbb{R}^{N}$ 中），这一过程通过一个中间的潜在状态 $h_{(t)}$ （位于 $\mathbb{R}^{N}$ 中）进行转换。该模型的动态由一组线性变换控制，具体表示为以下方程：

其中，矩阵 A、B 和 C 分别控制状态转移、输入映射和输出映射。这些矩阵的维度为：

$A\in \mathbb{R}^{N\times N}$ ：状态转移矩阵；
$A\in \mathbb{R}^{N\times 1}$ ：输入映射矩阵；
$A\in \mathbb{R}^{1\times N}$ ：输出映射矩阵。

在实际应用中，连续时间模型需要离散化为离散时间模型，以便在数字系统中实现。这通常通过 零阶保持假设（Zero-Order Hold Assumption） 进行离散化，其中连续时间系统的参数 AA 和 BB 基于采样时间步长 Δ（正实数）被转换为离散形式：

离散化后的模型方程为：

为了提高计算效率，整个序列的输出可以通过全局卷积操作同时计算，从而提升模型的可扩展性和处理速度：

其中 ⋆ 代表卷积操作，L表示序列长度，卷积核 $\bar{K}$ 由以下部分组成:

5.2 选择性状态空间模型SSSM-Selective State Space Model

基于传统的 SSM 框架，选择性状态空间模型（Selective SSM，简称 Mamba） 引入了一种动态和自适应机制，用于管理序列状态之间的交互。与传统 SSM 中的固定参数 A 和 B 不同，Mamba 模型采用输入依赖的参数，实现了更灵活和上下文感知的参数化。

输入依赖的参数是什么意思？

输入依赖的参数（input-dependent parameters）是指模型的参数值不再是固定的，而是根据输入数据动态计算和调整。这种动态计算使得模型能够根据输入数据的具体特性自适应地调整行为，从而提升对复杂模式的建模能力和上下文感知能力。

在 Mamba 模型中，参数 B 和 C 不再是静态的，而是输入序列 x的函数。这一动态计算能够使模型根据输入序列的具体特性调整其行为，从而对序列数据进行更细致的理解和处理。这些参数的维度为：

$B\in \mathbb{R}^{B\times L\times N }$
$C\in \mathbb{R}^{B\times L\times N }$

其中：B：批大小；L：序列长度；N：状态数。

Mamba 模型确保了相对于序列长度的线性可扩展性，并在多个领域（特别是计算机视觉任务）中展示了出色的性能。

5.2.1 Mamba模型在视觉任务中的适配

VMamba 和 Vision Mamba (Vim) 是最早将 Mamba 模型适配到视觉任务的模型。这些模型通过将图像转化为二维图像块（patches）并应用多种扫描技术，在处理 Mamba 块之前对数据进行预处理：

VMamba： 使用交叉扫描（cross-scanning），沿水平方向和垂直方向对图像块进行处理。
Vim： 将图像视为二维图像块序列，并应用双向 SSM，同时引入位置嵌入（position embeddings）。

然而，这些初始模型面临以下挑战：

难以与基于完整 ViT（Vision Transformer）的模型竞争，尤其是在捕获空间关系和高效处理高分辨率图像方面。
扫描技术在捕获图像不同部分的空间关系和上下文信息方面的效率仍需进一步提升。

随后，许多研究提出了改进方案来解决这些问题。扫描技术已成为基于 Mamba 框架的核心部分，其在有效捕获输入图像的空间关系和上下文信息方面起到了关键作用。接下来的章节将对这些扫描技术进行详细分析。

六、Mamba的扫描策略

扫描是 Mamba 模型中的一个关键过程，它将二维视觉数据转化为一维序列，以实现更高效的模型处理。在这一过程中，已发展出各种扫描方法，用以在保持空间完整性和计算效率之间寻求平衡，同时确保模型的准确性不会受到影响。不同的扫描技术根据用途的不同在 Mamba 模型中发挥着独特作用。

6.1 局部扫描 Local Scanning

将图像划分为更小的窗口，每个窗口独立进行处理。

优点： 能够很好地保留局部细节。

缺点： 可能无法捕获图像的全局上下文信息。

6.2 全局扫描 Global Scanning

一次性处理整幅图像。

优点： 能很好地捕获图像的全局模式。

缺点： 可能会忽略局部的细节信息。

6.3 多头扫描 Multi-head Scanning

将图像块划为多个子空间，允许模型在管理计算资源的同时捕获复杂的模式。

特点： 在局部和全局信息之间取得平衡。

6.4 双向扫描 Bidirectional Sanning

同时沿水平方向和垂直方向扫描图像。

优点： 能够有效捕获图像的空间信息。

缺点： 计算资源需求较高。

6.5 多种扫描路径示例

多样化的扫描路径使 Mamba 模型能够适应不同数据集的特性和各种任务需求。

顺序扫描（Sequential Scan, A）：

沿水平方向或垂直方向逐行或逐列扫描。
缺点： 可能难以捕获长距离依赖关系。

之字形扫描（Zigzag Scan, B）：

每行或每列交替改变扫描方向。
特点： 平衡了局部和全局信息。

对角线扫描（Diagonal Scan, C 和 D）：

沿对角线方向扫描（连续或交替）。
用途： 在特定图像模式中有效。

螺旋扫描（Spiral Scan, E）：

从中心向外螺旋式扫描。
适用场景： 如医学影像和遥感领域中的详细空间分析。

径向扫描（Radial Scan, F）：

从中心向四周以辐射状进行扫描。
特点： 强调图像的全面覆盖。

希尔伯特曲线扫描（Hilbert Curve Scan, G）：

使用希尔伯特空间填充曲线进行扫描，能够保持局部连续性。

6.6 复杂扫描方法的整合

基础扫描方法可以组合成更复杂的扫描方法。如图5所示。

1. 全方向选择性扫描（Omnidirectional Selective Scanning, 图 5(f)）[135, 196]：

将顺序扫描（图 4 的 A 行）中的第一、第二、第五和第七列与之字形扫描（图 4 的 C 行）中的第三、第二、第八和第五列相结合。
优点： 能够全面捕获空间信息。
缺点： 计算成本较高。

2. 跳跃扫描（Atrous Scanning 或 Skipping Scanning）：

使用跳跃机制捕获细节，同时保持计算效率。
特点： 当与顺序扫描或之字形扫描结合时，能够提供更好的空间理解能力。

6.7 Mamba模型中的具体扫描方法应用

双向扫描（Bidirectional Scanning, 图 5(a)）：

应用： Vision Mamba [203]、VL-Mamba [118] 和 Motion Mamba [194]。
特点： 同时在水平和垂直方向捕获全局上下文，尽管计算成本较高。

时空选择性扫描（Spatiotemporal Selective Scanning, 图 5(b)）：

应用： Vivim [178]。
特点： 在三维双向扫描的基础上添加时间维度，用于视频处理。
缺点： 计算需求较大。

交叉扫描（Cross-scanning, 图 5(c)）：

应用： VL-Mamba [118]。
特点： 捕获多样化的空间特征。

二维选择性扫描（2D Selective Scan, 图 5(d)）：

应用： VMamba [94] 和 VMRNN [140]。
特点： 从四个方向向中心扫描，有效平衡局部和全局上下文。

局部扫描（Local Scanning, 图 5(d)）：

应用： LocalMamba [59] 和 FreqMamba [197]。
特点： 将图像划分为小窗口，捕获局部依赖，但可能丢失全局上下文。

之字形扫描（Zigzag Scanning, 图 5(e)）：

应用： ZigMa [55]。
特点： 以之字形模式捕获多样化的空间特征，但计算复杂度较高。

全方向选择性扫描（Omnidirectional Selective Scanning, 图 5(f)）：

应用： VmambaIR [135] 和 RS-Mamba [196]。
特点： 覆盖全面，但计算成本较高。

连续二维扫描（Continuous 2D Scanning, 图 5(g)）：

应用： PlainMamba [173]。
特点： 保持空间连续性，但可能忽略细粒度细节。

分层扫描（Hierarchical Scanning, 图 5(h)）：

应用： Motion Mamba [194]。
特点： 捕获多层次特征，但增加了模型复杂度。

高效二维扫描（Efficient 2D Scanning, 图 5(i)）：

应用： EfficientVMamba [116]。
特点： 使用跳过采样机制，在全局和局部特征提取之间优化性能和计算成本。

6.8 扫描方式的选择与性能权衡

任务和数据依赖性

扫描方法的效果依赖于具体任务和数据集。例如，对于遥感图像的语义分割研究 [206]，简单的扫描方法在无需额外计算成本的情况下表现与复杂方法相当。
这表明，尽管高级扫描技术可以捕获更丰富的时空关系，但它们未必总是带来显著的性能提升。

未来方向

自适应扫描：未来研究可探索基于图像内容动态调整的自适应扫描方法。这些方法可以在训练过程中学习优化的扫描模式，从而提升效率和准确性。

作者在表2中给出了现有扫描方法的特殊特性、优缺点和潜在用例。

扫描方法 优势劣势 潜在应用场景
双向扫描（Bidirectional Scanning）[203] - 捕获前向和后向的依赖关系 - 增强特征区分能力 - 相较单向扫描减少了冗余 - 可能引入伪影或分辨率问题 - 增加计算复杂度目标检测、图像分类、语义分割
3D 双向扫描（3D Bidirectional Scanning）[73] - 捕获 3D 数据中的空间关系 - 处理体积型图像数据 - 计算开销高 - 3D 数据处理需要更多内存 3D 医学成像、体积数据处理、视频处理
交叉扫描（Cross Scanning）[118] - 增强多方向空间信息的捕获能力 - 提升图像数据处理性能 - 增加计算复杂度 - 跨扫描信息的集成可能需要额外步骤文本识别、对齐目标检测
局部扫描（Local Scanning）[59] - 捕获细粒度细节 - 灵活结合其他方法 - 在处理局部区域时效率较高 - 可能无法捕获长距离依赖 - 窗口大小需要精心调整纹理分析、人脸识别、局部特征提取
之字形扫描（Zigzag Scanning）[55] - 提供全面的 2D 空间覆盖 - 同时捕获水平和垂直依赖 - 扫描方向变化可能引入伪影 - 和更简单的方法相比计算效率较低遥感图像分析、高分辨率语义分割
全向选择性扫描（Omnidirectional Selective Scanning）[135] - 全面的多方向扫描 - 捕获大范围空间关系 - 适用于大区域的遥感图像 - 增加计算复杂度 - 需要显著的内存和处理能力高分辨率遥感图像、卫星成像、精细分割
连续 2D 扫描（Continuous 2D Scanning）[173] - 在空间区域之间提供平滑过渡 - 对连续数据处理有效 - 对大图像的计算强度较高 - 可能无法捕获离散空间结构连续数据分析、PlainMamba、场景分割
分层扫描（Hierarchical Scanning）[194] - 在不同尺度下捕获局部和全局特征 - 在复杂图像结构处理中高效 - 增加模型复杂性和计算需求 - 需要精心设计以平衡局部和全局信息场景分割、多尺度目标检测、医学图像分割
高效二维扫描（Efficient 2D Scanning, ES2D）/ 空洞卷积扫描（Atrous Scanning）[116] - 在保持全局感受野的同时降低计算成本 - 同时捕获局部和全局上下文 - 跳采样可能丢失细粒度细节 - 空洞率（Atrous Rate）需要调整移动视觉任务、实时检测、边缘计算
二维选择性扫描（2D Selective Scanning, SS2D）[94] - 保留 2D 空间依赖关系 - 多方向扫描提高特征区分能力并增强结构完整性 - 增加计算复杂度 - 可能引入冗余医学成像、细粒度目标检测、语义分割

扫描方法	优势	劣势	潜在应用场景
双向扫描（Bidirectional Scanning）[203]	- 捕获前向和后向的依赖关系<br>- 增强特征区分能力<br>- 相较单向扫描减少了冗余	- 可能引入伪影或分辨率问题<br>- 增加计算复杂度	目标检测、图像分类、语义分割
3D 双向扫描（3D Bidirectional Scanning）[73]	- 捕获 3D 数据中的空间关系<br>- 处理体积型图像数据	- 计算开销高<br>- 3D 数据处理需要更多内存	3D 医学成像、体积数据处理、视频处理
交叉扫描（Cross Scanning）[118]	- 增强多方向空间信息的捕获能力<br>- 提升图像数据处理性能	- 增加计算复杂度<br>- 跨扫描信息的集成可能需要额外步骤	文本识别、对齐目标检测
局部扫描（Local Scanning）[59]	- 捕获细粒度细节<br>- 灵活结合其他方法<br>- 在处理局部区域时效率较高	- 可能无法捕获长距离依赖<br>- 窗口大小需要精心调整	纹理分析、人脸识别、局部特征提取
之字形扫描（Zigzag Scanning）[55]	- 提供全面的 2D 空间覆盖<br>- 同时捕获水平和垂直依赖	- 扫描方向变化可能引入伪影<br>- 和更简单的方法相比计算效率较低	遥感图像分析、高分辨率语义分割
全向选择性扫描（Omnidirectional Selective Scanning）[135]	- 全面的多方向扫描<br>- 捕获大范围空间关系<br>- 适用于大区域的遥感图像	- 增加计算复杂度<br>- 需要显著的内存和处理能力	高分辨率遥感图像、卫星成像、精细分割
连续 2D 扫描（Continuous 2D Scanning）[173]	- 在空间区域之间提供平滑过渡<br>- 对连续数据处理有效	- 对大图像的计算强度较高<br>- 可能无法捕获离散空间结构	连续数据分析、PlainMamba、场景分割
分层扫描（Hierarchical Scanning）[194]	- 在不同尺度下捕获局部和全局特征<br>- 在复杂图像结构处理中高效	- 增加模型复杂性和计算需求<br>- 需要精心设计以平衡局部和全局信息	场景分割、多尺度目标检测、医学图像分割
高效二维扫描（Efficient 2D Scanning, ES2D）/ 空洞卷积扫描（Atrous Scanning）[116]	- 在保持全局感受野的同时降低计算成本<br>- 同时捕获局部和全局上下文	- 跳采样可能丢失细粒度细节<br>- 空洞率（Atrous Rate）需要调整	移动视觉任务、实时检测、边缘计算
二维选择性扫描（2D Selective Scanning, SS2D）[94]	- 保留 2D 空间依赖关系<br>- 多方向扫描提高特征区分能力并增强结构完整性	- 增加计算复杂度<br>- 可能引入冗余	医学成像、细粒度目标检测、语义分割

七、Mamba在计算机视觉的应用

本节展示了 Mamba 模型在不同计算机视觉任务中的贡献与多样性，包括通用框架（4.1）、图像分类、目标检测与分割（4.2）、图像增强（4.3）、生成与恢复（4.4）、三维点云处理（4.5）、视频处理（4.6）、遥感图像分析（4.7）、医学影像分析（4.8）以及多模态模型（4.9）。我们在图 6 中展示了 Mamba 模型在各种计算机视觉任务中的分布情况，突出了其在不同任务中的应用。

图 6 表明，Mamba 模型在计算机视觉的多个领域都有广泛应用，其中 医疗影像分析 占据核心地位，模型主要集中在 2D 和 3D 图像分割 任务。其他领域如 通用框架 和 多模态任务 也显示了 Mamba 在灵活性和适应性上的潜力，而在 点云分析 和 视频处理 中的应用则相对较少。

7.1 通用框架

通用 Mamba 框架旨在为分类、检测和分割等任务提供灵活且可适应的解决方案。

VMamba [94] 通过 VSS 块和 SS2D 模块将一维扫描与二维视觉数据相结合，提升了性能，而 Vision Mamba [203] 使用带有位置嵌入的双向 Mamba 块克服了单向扫描的局限性。

然而，捕获全局上下文仍然是一个挑战。Vim-F [189] 通过快速傅里叶变换（FFT）利用频域信息扩展了全局感受野，而 Mamba-R [145] 使用寄存器令牌减少了特征图中的伪影，提高了输出的质量。随着模型的不断发展，平衡长距离依赖学习能力与计算效率变得至关重要。

为优化这些方面，MSVMamba [134] 提出了一个多尺度二维扫描方法，结合卷积前馈网络（ConvFFN），实现了性能与计算的平衡。FractalVMamba [139] 使用分形扫描曲线适应不同图像分辨率，加强了空间关系建模。LocalMamba [59] 引入了窗口选择性扫描方法，在不同网络层动态调整扫描策略，在视觉任务中表现优于 ViTs 和 CNNs。EfficientVMamba [116] 通过将基于跳跃的选择性扫描与高效跳采样相结合，成功降低了计算量（FLOPs），同时保持了高性能。

扩展 Mamba 到高维数据时带来了新挑战。Mamba-ND [74] 通过在各维度间交替顺序，保留了 SSM 的线性复杂度，同时在图像分类和天气预报任务中实现了高准确性。

为增强图像建模的灵活性，SUM [54] 将 Mamba 框架与 U-Net 结构结合。与此同时，Heracles [115] 通过整合局部和全局 SSM 以及注意力机制，有效应对高分辨率图像和时间序列分析的复杂性。

MambaMixer [5] 提出了一个双令牌和信道选择机制，用于提高视觉和时间序列任务中维度间的通信效率。

SiMBA [114] 采用了更简单但高效的架构，通过引入爱因斯坦傅里叶变换（EinFFT）进行信道建模并结合 Mamba 块进行序列建模，为 SSM 在图像和时间序列任务中设立了新标准。专注于空间连续性和方向感知的 PlainMamba [173] 成为各种视觉识别任务的竞争选择。

表 3 概述了通用 Mamba 模型的特点，包括其任务用途、独特功能和目标领域。

模型名称 任务类型 独特功能 目标领域 优点
Vision Mamba 分类、检测、分割双向 Mamba 块，带位置嵌入，增强全局信息捕获 ImageNet、COCO、ADE20K 捕获长距离依赖，适合多任务
VMamba 分类、检测、分割 VSS 块 + SS2D 模块，结合 1D 与 2D 数据 ImageNet、COCO、ADE20K 局部与全局特征提取平衡
Mamba-ND 分类、动作识别、预测任意多维数据建模，交替扫描序列 ImageNet、HMDB-51、UCF-101、ERA5、BTCV 适合高维任务和多模态场景
LocalMamba 分类、检测、分割窗口选择性扫描，动态调整扫描策略 ImageNet、COCO、ADE20K 强化局部依赖建模，灵活应对不同分辨率
EfficientVMamba 分类、检测、分割跳跃选择性扫描 + 卷积模块，降低计算成本 ImageNet、COCO、ADE20K 高计算效率，适合资源受限场景
SiMBA 分类、检测、分割、时间序列预测爱因斯坦 FFT（EinFFT）+ Mamba 块，序列建模 ImageNet、COCO、ADE20K，多时间序列数据集简单高效，图像与时间序列任务表现优异
PlainMamba 分类、检测、分割空间连续性与方向感知机制 ImageNet、COCO、ADE20K 结构简单但性能强大
Heracles 高分辨率图像与时间序列分析局部 + 全局 SSM，结合注意力机制 CIFAR-10、CIFAR-100、ImageNet、Oxford Flowers 应对高分辨率和时间序列任务的复杂性
MambaMixer 分类、检测、分割、时间序列预测双令牌与信道选择机制，提升跨维度通信效率 ImageNet，多时间序列数据集视觉与时间序列任务的高效统一建模
Mamba-R 分类、分割寄存器令牌（Register Tokens），减少特征伪影 ImageNet、ADE20K 输出更干净，适合细粒度任务
MSVMamba 分类、检测、分割多尺度扫描方法 + 卷积前馈网络（ConvFFN） ImageNet、COCO、ADE20K 全局与局部信息捕获平衡
FractalVMamba 分类、检测、分割分形扫描曲线，增强空间关系建模 ImageNet、COCO、ADE20K 复杂空间关系建模能力强
Vim-F 分类、检测、分割快速傅里叶变换（FFT），扩展全局感受野 ImageNet、COCO 全局上下文理解能力强

SUM
视觉注意力建模条件 VSS 块（C-VSS）+ U-Net 结构各种视觉任务数据集
高效注意力建模，适用范围广

模型名称	任务类型	独特功能	目标领域	优点
Vision Mamba	分类、检测、分割	双向 Mamba 块，带位置嵌入，增强全局信息捕获	ImageNet、COCO、ADE20K	捕获长距离依赖，适合多任务
VMamba	分类、检测、分割	VSS 块 + SS2D 模块，结合 1D 与 2D 数据	ImageNet、COCO、ADE20K	局部与全局特征提取平衡
Mamba-ND	分类、动作识别、预测	任意多维数据建模，交替扫描序列	ImageNet、HMDB-51、UCF-101、ERA5、BTCV	适合高维任务和多模态场景
LocalMamba	分类、检测、分割	窗口选择性扫描，动态调整扫描策略	ImageNet、COCO、ADE20K	强化局部依赖建模，灵活应对不同分辨率
EfficientVMamba	分类、检测、分割	跳跃选择性扫描 + 卷积模块，降低计算成本	ImageNet、COCO、ADE20K	高计算效率，适合资源受限场景
SiMBA	分类、检测、分割、时间序列预测	爱因斯坦 FFT（EinFFT）+ Mamba 块，序列建模	ImageNet、COCO、ADE20K，多时间序列数据集	简单高效，图像与时间序列任务表现优异
PlainMamba	分类、检测、分割	空间连续性与方向感知机制	ImageNet、COCO、ADE20K	结构简单但性能强大
Heracles	高分辨率图像与时间序列分析	局部 + 全局 SSM，结合注意力机制	CIFAR-10、CIFAR-100、ImageNet、Oxford Flowers	应对高分辨率和时间序列任务的复杂性
MambaMixer	分类、检测、分割、时间序列预测	双令牌与信道选择机制，提升跨维度通信效率	ImageNet，多时间序列数据集	视觉与时间序列任务的高效统一建模
Mamba-R	分类、分割	寄存器令牌（Register Tokens），减少特征伪影	ImageNet、ADE20K	输出更干净，适合细粒度任务
MSVMamba	分类、检测、分割	多尺度扫描方法 + 卷积前馈网络（ConvFFN）	ImageNet、COCO、ADE20K	全局与局部信息捕获平衡
FractalVMamba	分类、检测、分割	分形扫描曲线，增强空间关系建模	ImageNet、COCO、ADE20K	复杂空间关系建模能力强
Vim-F	分类、检测、分割	快速傅里叶变换（FFT），扩展全局感受野	ImageNet、COCO	全局上下文理解能力强
SUM	视觉注意力建模	条件 VSS 块（C-VSS）+ U-Net 结构	各种视觉任务数据集	高效注意力建模，适用范围广

总结说明：

核心优化方向：

效率：如 EfficientVMamba 和 SiMBA 专注于降低计算复杂度，适合资源有限的实际应用。
全局与局部建模：如 Vision Mamba、FractalVMamba 和 MSVMamba 强调全局依赖与局部特征的平衡。

多维扩展：

如 Mamba-ND 和 Heracles，能够处理高维数据（如时间序列和多模态任务）。

应用灵活性：

SUM 和 MambaMixer 具备多场景适应能力，可应用于广泛的视觉任务和时间序列建模。

7.2 图像分类、目标检测与分割

7.2.1 图像分类

Mamba 模型在图像分类任务中解决了诸多挑战。例如，在农业场景中，昆虫的伪装性和物种多样性使得识别任务异常复杂。为此，InsectMamba [150] 通过将状态空间模型（SSMs）与卷积神经网络（CNNs）和多头自注意力机制（Multi-Head Self-Attention）相结合，显著提升了分类的准确性。同样，Res-VMamba [9] 将 Mamba 机制与深度残差学习结合，在细粒度识别任务（如食品图像分类）中树立了新的标杆。

此外，诸如 RSMamba [14] 和 SpectralMamba [180] 等模型在复杂的遥感数据分类中表现出色，这将在 第 4.7 节 中详细讨论。Mamba 模型还被广泛应用于医学图像分类领域，例如，MedMamba [185] 和 MamMIL [28] 针对各种成像模式优化了特征提取，显著提高了分类性能和诊断准确性。这些模型将在 第 4.8.1 节 中进一步探讨。

7.2.2 目标检测

在目标检测领域，Fusion-Mamba [24] 通过将特征映射到隐藏状态空间以减少多模态之间的差异，提高了跨模态检测的准确性。然而，在航空影像等场景中，小目标检测仍然是一个难题，因为数据少且背景噪声多。SOAR [143] 通过将 SSMs 与轻量级的 YOLO v9 架构结合，改善了小目标检测的效果。同时，Mamba-YOLO [156] 在 YOLO 架构的基础上引入了 LSBlock 和 RGBlock 模块，通过与 SSMs 集成，更好地建模局部图像依赖性，提升了检测的精确度。

此外，MIM-ISTD [16] 采用嵌套的 Mamba 架构改进了红外小目标检测（ISTD）。在三维目标检测任务中，Voxel Mamba [186] 使用无组状态空间模型（Group-Free SSM），增强了点云数据中的特征提取能力，这种方法解决了序列化过程中保持体素空间邻近性的难题。同时，HTD-Mamba [130] 专注于高光谱数据，通过结合金字塔 SSM、谱对比学习和空间编码的光谱增强技术，能够有效捕获长距离依赖并融合多分辨率的光谱特征。

7.2.3 分割任务

在分割任务中，尤其是高分辨率图像，Mamba 架构也带来了显著的提升。例如，RWKV-SAM [184] 通过将 Mamba 与 RWKV 线性注意力架构结合，精确地分割高分辨率图像。而 VMamba-CS [20] 则采用基于 VMamba 的编码器-解码器网络，在建筑表面裂缝的自动检测任务中表现出色。此外，Mamba 架构还彻底革新了遥感图像和医学图像分割任务的效果，这将在第 4.7 节和第 4.8.2 节中详细讨论。

表 4 提供了这些模型的详细概览，从中可以清晰了解每个模型在分类、检测和分割任务中的具体应用和独特贡献。

模型名称 任务类型 独特功能 目标领域 代码
InsectMamba [150] 昆虫害虫分类整合 SSMs、CNNs、MSA 和 MLPs，提升细粒度特征提取能力农业害虫图像（5 个数据集）暂无
Res-VMamba [9] 细粒度食品分类将残差学习与 VMamba 结合，增强分类准确性 CNFOOD-241 数据集有代码
Fusion-Mamba [24] 跨模态目标检测使用隐藏状态空间实现跨模态特征融合，改善特征一致性 M3FD、FLIR-Aligned 数据集暂无
MiM-ISTD [16] 红外小目标检测嵌套式结构，结合外部和内部 Mamba 模块，实现高效特征捕获 NUAA-SIRST、IRSTD-1K 数据集有代码
SOAR [143] 航空小目标检测基于 Vision Mamba 的 YOLO v9，结合可编程梯度信息（PGI），提升小目标检测精度航空影像（自定义数据集）暂无
Voxel Mamba [186] 3D 目标检测基于无组策略（Group-Free Strategy），增强 3D 体素序列化的精度点云数据（Waymo Open、nuScenes 数据集）暂无
Mamba-YOLO [156] 目标检测基于 SSM 的 YOLO，结合 LSBlock 和 RGBlock，实现局部依赖特征增强 COCO、VOC 数据集有代码
HTD-Mamba [130] 高光谱目标检测使用金字塔 SSM 捕获多分辨率光谱特征，结合光谱对比学习和空间编码增强技术高光谱成像（4 个公开数据集）暂无
RWKV-SAM [184] 高质量图像分割结合 RWKV 和 Mamba，提升高分辨率图像的高效分割性能高分辨率图像分割数据集暂无
VMamba-CS [20] 裂缝分割基于 VMamba 的框架，用于精准分割混凝土、沥青和砖石表面裂缝混凝土、沥青、砖石表面暂无

模型名称	任务类型	独特功能	目标领域	代码
InsectMamba [150]	昆虫害虫分类	整合 SSMs、CNNs、MSA 和 MLPs，提升细粒度特征提取能力	农业害虫图像（5 个数据集）	暂无
Res-VMamba [9]	细粒度食品分类	将残差学习与 VMamba 结合，增强分类准确性	CNFOOD-241 数据集	有代码
Fusion-Mamba [24]	跨模态目标检测	使用隐藏状态空间实现跨模态特征融合，改善特征一致性	M3FD、FLIR-Aligned 数据集	暂无
MiM-ISTD [16]	红外小目标检测	嵌套式结构，结合外部和内部 Mamba 模块，实现高效特征捕获	NUAA-SIRST、IRSTD-1K 数据集	有代码
SOAR [143]	航空小目标检测	基于 Vision Mamba 的 YOLO v9，结合可编程梯度信息（PGI），提升小目标检测精度	航空影像（自定义数据集）	暂无
Voxel Mamba [186]	3D 目标检测	基于无组策略（Group-Free Strategy），增强 3D 体素序列化的精度	点云数据（Waymo Open、nuScenes 数据集）	暂无
Mamba-YOLO [156]	目标检测	基于 SSM 的 YOLO，结合 LSBlock 和 RGBlock，实现局部依赖特征增强	COCO、VOC 数据集	有代码
HTD-Mamba [130]	高光谱目标检测	使用金字塔 SSM 捕获多分辨率光谱特征，结合光谱对比学习和空间编码增强技术	高光谱成像（4 个公开数据集）	暂无
RWKV-SAM [184]	高质量图像分割	结合 RWKV 和 Mamba，提升高分辨率图像的高效分割性能	高分辨率图像分割数据集	暂无
VMamba-CS [20]	裂缝分割	基于 VMamba 的框架，用于精准分割混凝土、沥青和砖石表面裂缝	混凝土、沥青、砖石表面	暂无

7.3 图像增强、生成与恢复、点云分析、视频处理、遥感、医疗图像分析暂略

翻译可看文章开头链接。

7.4 多模态

多模态模型能够处理多种数据类型，例如图像、文本、音频和视频，其关键挑战在于如何融合异构数据，以充分利用每种模态的互补信息。以下是当前 Mamba 模型在多模态任务中的具体应用和创新：

模型名称 任务类型 独特功能 目标领域 代码
SurvMamba [18] 生存预测分层 Mamba 和交互融合 Mamba，用于多模态数据融合病理和基因组数据暂无
Meteor [70] 视觉语言理解推理遍历 Mamba 和多层次推理嵌入，用于大规模语言模型（LLMs）视觉和语言数据有代码
TransMA [160] mRNA 药物递送预测多模态分子结构融合与分子注意力机制分子结构数据有代码
CMViM [174] 阿尔茨海默病诊断对比掩码 Vim 自动编码器，支持模态内和模态间学习 3D 医学图像暂无
SpikeMba [75] 视频内容定位多模态脉冲显著性检测器和基于 SSM 的上下文推理视频和语言数据暂无
Broad Mamba [136] 情感识别用于序列建模的 Broad Mamba 和基于概率引导的融合策略对话情感数据暂无
Mamba-FETrack [56] RGB-事件跟踪模态特定的 Mamba 主干网络和高效交互学习 RGB 和事件数据有代码
MambaTalk [172] 手势合成具有离散运动先验和多模态集成的两阶段建模手势数据暂无
VL-Mamba [118] 多模态学习 SSM 支持的长序列建模和视觉选择性扫描机制多模态语言模型暂无
MambaMorph [158] 图像配准视觉 SSM 与交叉扫描模块结合，以及混合 VMamba-CNN 网络 3D 医学图像暂无
Sigma [144] 多模态分割 Siamese Mamba 网络与 Mamba 融合机制，用于模态交互 RGB-热图像、RGB-深度图像暂无
FusionMamba [167] 图像融合动态特征增强和基于 Mamba 的跨模态融合多模态医学和生物医学图像暂无
ReMamber [177] 引导式图像分割用于图像-文本交互和高效多模态融合的 Mamba Twister 块视觉-语言数据暂无
TM-Mamba [153] 运动分组基于文本控制的选择与嵌入，用于空间图形拓扑人类运动数据暂无
Cobra [195] 多模态语言模型线性计算复杂度和高效的多模态 Mamba 融合多模态学习暂无
MambaDFuse [79] 图像融合双阶段特征融合和增强的多模态 Mamba 块医学和红外图像融合暂无

模型名称	任务类型	独特功能	目标领域	代码
SurvMamba [18]	生存预测	分层 Mamba 和交互融合 Mamba，用于多模态数据融合	病理和基因组数据	暂无
Meteor [70]	视觉语言理解	推理遍历 Mamba 和多层次推理嵌入，用于大规模语言模型（LLMs）	视觉和语言数据	有代码
TransMA [160]	mRNA 药物递送预测	多模态分子结构融合与分子注意力机制	分子结构数据	有代码
CMViM [174]	阿尔茨海默病诊断	对比掩码 Vim 自动编码器，支持模态内和模态间学习	3D 医学图像	暂无
SpikeMba [75]	视频内容定位	多模态脉冲显著性检测器和基于 SSM 的上下文推理	视频和语言数据	暂无
Broad Mamba [136]	情感识别	用于序列建模的 Broad Mamba 和基于概率引导的融合策略	对话情感数据	暂无
Mamba-FETrack [56]	RGB-事件跟踪	模态特定的 Mamba 主干网络和高效交互学习	RGB 和事件数据	有代码
MambaTalk [172]	手势合成	具有离散运动先验和多模态集成的两阶段建模	手势数据	暂无
VL-Mamba [118]	多模态学习	SSM 支持的长序列建模和视觉选择性扫描机制	多模态语言模型	暂无
MambaMorph [158]	图像配准	视觉 SSM 与交叉扫描模块结合，以及混合 VMamba-CNN 网络	3D 医学图像	暂无
Sigma [144]	多模态分割	Siamese Mamba 网络与 Mamba 融合机制，用于模态交互	RGB-热图像、RGB-深度图像	暂无
FusionMamba [167]	图像融合	动态特征增强和基于 Mamba 的跨模态融合	多模态医学和生物医学图像	暂无
ReMamber [177]	引导式图像分割	用于图像-文本交互和高效多模态融合的 Mamba Twister 块	视觉-语言数据	暂无
TM-Mamba [153]	运动分组	基于文本控制的选择与嵌入，用于空间图形拓扑	人类运动数据	暂无
Cobra [195]	多模态语言模型	线性计算复杂度和高效的多模态 Mamba 融合	多模态学习	暂无
MambaDFuse [79]	图像融合	双阶段特征融合和增强的多模态 Mamba 块	医学和红外图像融合	暂无

八、Mamba与其他传统框架的分析对比

本节对 Mamba (M)、CNN (C) 和 Transformer (T) 模型进行了广泛的比较。分析的重点指标包括：

参数数量（以百万为单位，M）
浮点运算数（FLOPs，以 GigaFLOPs 为单位，G）
Top-1 准确率（%）
平均交并比（mIoU）
特定 IoU 阈值下的平均精度（𝐴𝑃𝑥）
可扩展性
核心计算机视觉任务的表现，包括图像分类、目标检测、语义分割、视频动作分类和遥感任务。

为了确保不同模型规模的公平比较，模型被按照尺寸类别划分为：

Tiny（T）
Small（S）
Base（B）
Medium（M）
Large（L）
Huge（H）

通过这一分析，我们将突出各模型在关键任务中的优劣势，以帮助理解它们在这些任务中的适用性。

在进行任务特定的比较之前，我们首先概述 CNN、Transformer 和 Mamba 框架之间的基础性区别，相关内容总结在 表 15 中。

方面 CNN Transformer Mamba
核心机制 通过可学习滤波器的卷积层 [69] 自注意力机制 [142] 基于状态空间模型（SSMs）的选择性扫描操作 [37]
特征提取 通过分层卷积进行局部特征提取 [69] 通过多头注意力进行全局特征提取 [25] 结合 SSMs 和动态扫描机制，同时提取局部和全局特征 [37, 206]
感受野 受限于核大小，随着网络深度增加而扩大 [69, 94] 由于自注意力机制，从一开始就具有全局感受野 [25, 94] 全局感受野，由 SSMs 动态管理感受野大小 [94]
位置信息 通过卷积隐式编码 [69] 通过位置嵌入显式添加 [142] 通过 SSM 结构隐式建模 [37, 206]
计算复杂度 对于图像大小为 n，复杂度为 O(kn)O(kn)，其中 kk 是核大小 [69] 由于自注意力机制，复杂度为 O(n2)O(n2) [142] 通过高效的 SSM 和选择性扫描降低到 O(n)O(n) [37]
内存使用 对于图像大小为 n，复杂度为 O(n)O(n) [69] 注意力图导致复杂度为 O(n2)O(n2) [25] 高效实现下复杂度为 O(n)O(n) [203]
高分辨率扩展性 表现良好，但可能丢失全局上下文 [94] 由于二次复杂度，扩展到高分辨率较为困难 [94] 通过线性复杂度高效扩展 [94, 203]
归纳偏置 强空间归纳偏置 [69] 偏置较小，更依赖数据 [25] 中等，结合了空间和序列级模式 [8]
小数据集表现 由于归纳偏置和分层学习的优势，表现通常较好 [78] 数据不足时可能表现较差 [68] 与 CNN 类似，但仍需更多研究 [37]
大数据集表现 表现良好，但随着网络深度增加可能会趋于饱和 [78] 在数据充足时表现卓越 [68] 表现优异，尤其适合处理长序列数据 [94]
特征检测灵活性 受限于卷积结构 [69] 由于注意力机制，灵活性较高 [142] 灵活，可适应多种扫描和选择性机制 [37]
计算机视觉领域成熟度 非常成熟，应用广泛 [78] 越来越被接受 [68] 新兴领域，研究尚有限 [37]
预训练模型 模型丰富 [78] 预训练模型数量快速增长 [68] 预训练模型较少，但数量逐渐增加 [94]
训练时间 由于局部处理，训练时间较短 [78] 由于注意力机制的计算成本，处理大输入时较慢 [68] 对长序列来说比 Transformer 更快 [37]
推理时间 通常较快 [78] 推理时间通常较长 [68] 推理时间介于 CNN 和 Vision Transformer (ViT) 之间，表现良好 [37, 203]
能量消耗 简单模型通常能耗较低，但随着深度增加而提高 [69] 由于注意力机制和大模型规模，能耗较高 [25] 由于线性时间复杂度，通常能效较高 [37]

方面	CNN	Transformer	Mamba
核心机制	通过可学习滤波器的卷积层 [69]	自注意力机制 [142]	基于状态空间模型（SSMs）的选择性扫描操作 [37]
特征提取	通过分层卷积进行局部特征提取 [69]	通过多头注意力进行全局特征提取 [25]	结合 SSMs 和动态扫描机制，同时提取局部和全局特征 [37, 206]
感受野	受限于核大小，随着网络深度增加而扩大 [69, 94]	由于自注意力机制，从一开始就具有全局感受野 [25, 94]	全局感受野，由 SSMs 动态管理感受野大小 [94]
位置信息	通过卷积隐式编码 [69]	通过位置嵌入显式添加 [142]	通过 SSM 结构隐式建模 [37, 206]
计算复杂度	对于图像大小为 n，复杂度为 O(kn)O(kn)，其中 kk 是核大小 [69]	由于自注意力机制，复杂度为 O(n2)O(n2) [142]	通过高效的 SSM 和选择性扫描降低到 O(n)O(n) [37]
内存使用	对于图像大小为 n，复杂度为 O(n)O(n) [69]	注意力图导致复杂度为 O(n2)O(n2) [25]	高效实现下复杂度为 O(n)O(n) [203]
高分辨率扩展性	表现良好，但可能丢失全局上下文 [94]	由于二次复杂度，扩展到高分辨率较为困难 [94]	通过线性复杂度高效扩展 [94, 203]
归纳偏置	强空间归纳偏置 [69]	偏置较小，更依赖数据 [25]	中等，结合了空间和序列级模式 [8]
小数据集表现	由于归纳偏置和分层学习的优势，表现通常较好 [78]	数据不足时可能表现较差 [68]	与 CNN 类似，但仍需更多研究 [37]
大数据集表现	表现良好，但随着网络深度增加可能会趋于饱和 [78]	在数据充足时表现卓越 [68]	表现优异，尤其适合处理长序列数据 [94]
特征检测灵活性	受限于卷积结构 [69]	由于注意力机制，灵活性较高 [142]	灵活，可适应多种扫描和选择性机制 [37]
计算机视觉领域成熟度	非常成熟，应用广泛 [78]	越来越被接受 [68]	新兴领域，研究尚有限 [37]
预训练模型	模型丰富 [78]	预训练模型数量快速增长 [68]	预训练模型较少，但数量逐渐增加 [94]
训练时间	由于局部处理，训练时间较短 [78]	由于注意力机制的计算成本，处理大输入时较慢 [68]	对长序列来说比 Transformer 更快 [37]
推理时间	通常较快 [78]	推理时间通常较长 [68]	推理时间介于 CNN 和 Vision Transformer (ViT) 之间，表现良好 [37, 203]
能量消耗	简单模型通常能耗较低，但随着深度增加而提高 [69]	由于注意力机制和大模型规模，能耗较高 [25]	由于线性时间复杂度，通常能效较高 [37]

总结

CNN：

优势：特征提取能力强，特别适用于局部模式检测；计算复杂度较低；在小数据集上表现优异。

劣势：感受野有限，很难捕获全局上下文；在大数据集上可能遇到性能瓶颈。

Transformer：

优势：全局特征提取能力强，感受野从一开始便是全局的；在大数据集上表现优越。

劣势：计算复杂度高，尤其是高分辨率任务；对小数据集的表现依赖于数据量。

Mamba：

优势：结合了 CNN 的局部特征提取能力和 Transformer 的全局特征提取能力；计算复杂度低（线性）；能效高，尤其在长序列处理任务中表现优异。

劣势：作为新兴框架，相关研究和预训练模型仍较少。

总体来看，Mamba 模型在计算效率、扩展性和特征提取灵活性上具有显著优势，特别适合处理长序列数据和多模态任务。

8.1 目标检测

图像分类、分割等暂略

针对目标检测任务，使用 COCO 数据集 [85] 和 Mask R-CNN [48] 框架，对五个性能最优的模型进行了评估，分别在 1×（12 个 epoch） 和 3×（36 个 epoch） 的训练计划下进行实验。模型的排名基于 𝐴𝑃𝑏 50（平均精度，IoU 阈值为 50%）得分。结果总结在 表 17 和 图 7(d) 中。

图 (Fig. 7) 展示了不同模型在多个任务中的性能表现与参数数量（# Parameters）以及计算复杂度（通过圆圈大小表示FLOPs）的关系。

从 图 7(d) 可以明显看出，Mamba 模型（包括 VMamba-S [94]、LocalVMamba-S [59] 和 GroupMamba-T [129]）在 1×训练计划 下是表现最优的模型之一。值得注意的是，GroupMamba-T [129] 的 𝐴𝑃𝑏 50 得分仅比表现最好的模型 InternImage-B [151] 低 1.1 分，但其参数量减少了 65.21%，FLOPs（浮点运算次数）减少了 44.31%。

在 3×训练计划 下，VMamba-S [94] 和 VMamba-T [94] 在性能最优的五个模型中依然是强有力的竞争者。特别是，VMamba-T 的 𝐴𝑃𝑏 50 得分仅比 InternImage-B [151] 低 0.8 分，但其参数量减少了 56.52%，FLOPs 也减少了 45.91%。

这些结果表明，VMamba 模型在保持竞争性能的同时，显著降低了计算成本，非常适合资源受限的环境。

九、潜在局限性与未来展望

尽管 Mamba 模型在深度学习领域取得了显著进展并展现了令人期待的能力，但其广泛应用和最佳性能仍受到一些局限的阻碍。本节总结了这些潜在的局限性，并探讨了未来的发展方向，以确保 Mamba 模型能够充分发挥其潜力。

9.1 有限的泛化能力：领域特定偏差与隐藏状态累积

尽管 Mamba 具备全局感受野，但其在不同领域中泛化的能力仍然有限。这一问题主要由以下两个因素导致：

领域特定信息的捕获：
Mamba 的选择性扫描过程会在隐藏状态中捕获领域特定的信息 [97]，从而产生压缩的表示，这种表示往往偏向于训练数据，限制了模型适应新领域的能力。例如，训练于自然图像的模型可能更关注纹理模式，而训练于医学扫描图像的模型则可能优先关注解剖结构 [60]，难以学习领域无关的特征。
隐藏状态的累积性：
双向扫描等方法通常强化领域特定的偏差 [203]。为了解决隐藏状态累积问题，可以在 Mamba 架构中直接应用 Dropout 层或权重归一化技术。这些方法在训练过程中引入控制噪声或约束，以帮助模型学习更具泛化性的表示 [37]。
此外，开发新的扫描机制以避免捕获领域特定偏差至关重要。例如，基于输入自适应的领域自适应扫描或通过可学习掩码有选择地关注相关特征的策略，可能会显著提升模型的泛化能力 [87]。

9.2 选择高效扫描机制的挑战

Mamba 最初是为 1D 序列数据设计的，因此在将其选择性扫描方法适配到多维视觉数据时面临重大挑战 [59]。主要问题包括：

空间依赖性与层次结构的捕获：
图像的复杂空间依赖性和层次结构难以通过传统扫描技术（如线性扫描或光栅扫描 [203]）准确捕获，这种技术往往无法保留详细的空间关系，导致图像分析性能受限。这种限制源于 Mamba 的 1D 序列处理特性 与视觉信息的多维性之间的差异。
多方向扫描的冗余性：
多方向扫描会增加计算需求，进一步加剧视觉数据适配的复杂性。

改进方向：
为了提升 Mamba 在视觉任务中的表现，已经探索了一些有前景的策略 [55, 116, 178, 203]：

开发多维选择性 SSMs，以在保留 Mamba 计算优势的同时更高效地处理视觉数据。
引入受人类视觉处理启发的层次扫描模式，或使用基于注意力的扫描机制来增强模型处理复杂视觉数据的能力 [194]。
应用稀疏扫描技术，仅处理图像中最具信息性的区域，从而优化大规模视觉任务中的计算效率和性能 [116]。
针对不同扫描技术的实验研究提供了有价值的洞察 [206]。

9.3 有限的预训练模型可用性与社区支持

深度学习架构的适配在很大程度上依赖于预训练模型的可用性。目前，Mamba 的预训练模型种类和数量远少于更成熟的架构（如 Transformers）。尽管已经有一个具有 28 亿参数 的 Mamba 模型问世 [37]，但整体可用的预训练模型仍然较为稀缺，这限制了其在各种下游任务中的适用性。

此外，Mamba 研究社区相对较新，活跃研究者数量较少。这一情况减缓了技术创新的速度，也限制了开发者可用的资源。

改进方向：

在多样化数据集上进行大规模预训练，以扩展预训练模型的可用性。这样可以通过微调（fine-tuning）实现特定任务的高效适配，从而缩短训练时间并提升整体性能。
鼓励社区内部的协作与知识共享，例如：组织研讨会、开发开源资源库，以及创建线上讨论平台。这些举措可以促进社区发展、知识交流并加速 Mamba 架构的改进 [105]。

9.4 可解释性与解释性：揭示“黑箱”

尽管 Mamba 在多种计算机视觉任务中表现出色，但其在可解释性和可解释性（Explainability）方面仍面临困难。Mamba 的 SSM 具有复杂的序列性质，结合非线性激活函数和选择性状态更新，导致难以追踪模型的决策过程或确定哪些特征对其预测影响最大 [1]。

非线性扫描机制：
Mamba 的选择性扫描机制本质上是非线性的，这使得难以明确指出导致特定预测的具体计算序列。
高维隐藏状态：
隐藏状态捕获了复杂的压缩表示，这种表示难以解释其内部编码的特定特征和关系 [168]。

改进方向：

最近的研究 [1, 43] 通过将 Mamba 层重新解释为隐式自注意力机制，揭示了模型中的隐藏注意力矩阵 [1]。这一发现允许将 Transformers 的解释性技术应用到 Mamba 架构中。
探索各种方法以增强可解释性，例如：
- 注意力启发的可视化技术，突出输入数据中的重要空间和时间模式 [121]。
- 特征归因方法，识别对输入特征最有影响的关键部分。
- 状态分析，通过干预 SSM 状态了解信息流 [43]。
使用与模型无关的解释性方法（Model-agnostic Explainability Methods）进一步揭示 Mamba 的决策过程 [127]。

9.5 安全性与对抗性鲁棒性

VMamba [94] 面临显著的安全性挑战，特别是在对抗攻击方面的脆弱性。例如，最近的研究 [26] 表明，VMamba 易受全图像和特定区域的对抗性扰动攻击，可能导致模型预测发生改变。然而，与 Transformers 架构相比，特别是在较小模型中，VMamba 展现出了更强的对抗鲁棒性 [26]。

漏洞分析：