当前位置：首页 > news >正文

SMamba: 基于稀疏Mamba的事件相机目标检测

news 2025/11/12 5:37:25

论文信息

标题：SMamba: 基于稀疏Mamba的事件相机目标检测
作者：Nan Yang¹*, Yang Wang¹*, Zhanwen Liu¹†, Meng Li², Yisheng An¹, Xiangmo Zhao¹
机构：¹西安交通大学，²华为技术有限公司
会议：AAAI 2025
代码：https://github.com/Zizzzzzzz/SMamba_AAAI2025

摘要

基于Transformer的方法在事件相机目标检测中取得了显著的性能，这得益于其全局建模能力。然而，这些方法忽视了非事件区域和噪声区域的影响，并统一处理这些区域，导致计算开销很高。为了减轻计算成本，一些研究人员提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域，但这牺牲了全局建模能力，导致次优性能。为了在准确性和效率之间取得更好的权衡，我们提出了稀疏Mamba（SMamba），它通过自适应稀疏化减少计算量，同时保持全局建模能力。具体来说，我们提出了一个时空连续性评估模块，通过利用活动事件和噪声事件之间的时空分布差异来衡量token的信息内容，并丢弃信息量不足的token。基于评估结果，我们设计了一种信息优先的局部扫描策略，以缩短高信息量token之间的扫描距离，促进它们在空间维度上的交互。此外，为了将全局交互从2D空间扩展到3D表示，我们提出了一个全局通道交互模块，从全局空间视角聚合通道信息。在三个数据集（Gen1、1Mpx和eTram）上的结果表明，我们的模型在性能和效率方面均优于其他方法。

代码— https://github.com/Zizzzzzzz/SMamba_AAAI2025

引言

鲁棒的目标检测对于智能系统（如自动驾驶和机器人）至关重要（Liu等，2024b；Zhang等，2013；Li等，2024；Liu等，2023）。然而，基于帧的相机在帧率和动态范围方面存在固有局限性，导致在高运动速度和不利曝光条件（如低光照和过曝光）等具有挑战性的场景中产生低质量图像，阻碍了判别性特征的提取（Lichtsteiner, Posch和Delbruck 2008；Sayed和Brostow 2021；Liu等，2024c；Yan, Gong和Zhang 2018；Liu等，2024d）。在这些场景中，事件相机因其独特优势而成为更优选择：它异步检测像素级光强度变化，提供高时间分辨率和高动态范围，即使在具有挑战性的条件下也能表现出稳定和鲁棒的性能（Finateu等，2020；Huang等，2023；Son等，2017；Gallego等，2020）。

图1：(a) 三个数据集上的事件稀疏性统计。每个点代表一个场景。(b) 与Transformer中统一计算所有区域相比，我们提出的SMamba可以抑制非事件和噪声区域（灰色区域）参与计算，仅保留信息丰富的区域（黄色区域），显著减轻计算开销并同时抑制噪声干扰。(c) Gen1数据集上最先进方法与我们的SMamba之间的mAP-FLOPs-参数量比较，其中圆圈半径表示参数量。SMamba在准确性和效率之间实现了卓越的平衡。

为了充分利用事件相机在目标检测任务中的卓越性能，研究人员已经开发了各种基于精心设计的神经网络架构的方法，包括基于SNN、基于GNN、基于CNN和基于Transformer的方法。理论上，基于SNN（Cordone, Miramond和Thierion 2022）和基于GNN（Schaefer, Gehrig和Scaramuzza 2022）的方法可以实现低延迟推理，但需要专用硬件，并且在真实场景中表现不佳。最近的研究表明，基于Transformer的方法（Gehrig和Scaramuzza 2023；Peng等，2023；Zubic, Gehrig和Scaramuzza 2024；Zubic等，2023），由于具有更大的感受野，显著优于基于局部感受野的CNN方法（Dosovitskiy等，2021；Perot等，2020；Li等，2022）。然而，这些方法通常将事件流转换为离散token，并统一处理非事件和噪声区域，忽略了空间稀疏性（Peng等，2024）和低信噪比（Ding等，2023）的影响，导致大量冗余计算和次优性能。如图1(a)所示，我们计算了Gen1（De Tournemire等，2020）、1Mpx（Perot等，2020）和eTram（Verma等，2024）数据集上触发事件像素的比例（事件空间比例）和相机运行时间内事件的平均数量（事件率）。结果表明，在96%的场景中，事件空间比例低于30%，表明具有很高的空间稀疏性。为了提高在稀疏事件数据上的计算效率，SAST（Peng等，2024）提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域，但牺牲了全局建模能力。此外，token评分模块通过间接梯度传播路径进行优化，使框架优化变得复杂，需要更多迭代。

在本文中，我们提出了稀疏Mamba（SMamba），它通过自适应丢弃信息量不足的token有效降低计算成本，并通过信息引导的空间选择性扫描和基于全局空间的通道选择性扫描捕获全局上下文，实现更好的准确性和效率权衡，如图1(b,c)所示。具体来说，我们通过利用活动事件和噪声事件之间的时空分布差异，设计了时空连续性评估（STCA）模块，无需复杂的模块设计和具有挑战性的优化。通过评估每个token对应区域内事件的时空连续性来衡量token的信息内容，生成稀疏化图以指导非事件和噪声token的丢弃。基于评估结果，我们提出了信息优先的局部扫描（IPL-Scan）策略，该策略在窗口级别根据信息内容对token进行排序，促进2D空间中高信息量token之间的交互，同时保留关键的局部内容。此外，为了进一步将全局交互从2D空间扩展到3D表示，我们提出了全局通道交互（GCI）模块，基于2D全局上下文动态集成通道信息。在三个数据集（Gen1、1Mpx和eTram）上的实验结果表明，我们的方法实现了卓越的性能和更高的效率。总体而言，我们的贡献可以总结如下：

(1) 我们提出了SMamba，它基于时空连续性评估自适应丢弃非事件和噪声token，并捕获空间和通道维度上的全局关系，展示了准确性和效率之间的最佳平衡。

(2) 设计了IPL-Scan，指导模型在扫描过程中关注高信息量token，从而提高空间上下文建模能力。

(3) 设计了GCI模块，通过从全局空间视角聚合通道信息，将全局交互扩展到3D特征空间，进一步提高全局建模能力。

(4) 在Gen1、1Mpx和eTram数据集上的实验结果表明，我们的SMamba超越了最先进方法，实现了卓越的性能。

基于事件的目标检测

现有的基于事件的目标检测方法可以根据所采用的神经网络架构进行分类：基于SNN、基于GNN、基于CNN和基于Transformer的方法。基于SNN（Cordone, Miramond和Thierion 2022）和基于GNN（Schaefer, Gehrig和Scaramuzza 2022）的方法有效利用了事件数据的稀疏和异步特性，从而实现了高计算效率。然而，它们网络架构的不成熟限制了处理复杂目标检测任务的能力，导致性能有限。

基于CNN和基于Transformer的方法首先将事件转换为类图像张量，便于与后续处理架构兼容。著名的基于CNN的方法，如RED（Perot等，2020）和ASTMNet（Li等，2022），将CNN与RNN集成，有效提取时空特征。最近，基于Transformer的方法（Gehrig和Scaramuzza 2023；Peng等，2023；Zubic, Gehrig和Scaramuzza 2024）受益于自注意力机制的全局感受野，超越了基于CNN的方法，取得了卓越的性能。然而，自注意力机制统一处理非事件和噪声区域，导致大量冗余计算。为了解决这个问题，SAST（Peng等，2024）提出了一种窗口-token共稀疏化策略，自适应丢弃不重要的窗口和token。然而，该方法依赖窗口注意力实现低计算开销，牺牲了全局建模能力。

视觉Mamba

Mamba在效率和性能之间取得了更好的平衡，成为Transformer的有效替代方案。具体来说，Mamba通过引入输入依赖的选择性扫描机制（S6）提高了全局建模能力，并提出了并行扫描机制以保持状态空间模型(SSMs)的线性复杂度。受Mamba在NLP领域成功的启发，Vim（Zhu等，2024）和Vamba（Liu等，2024a）将Mamba集成到视觉骨干网络设计中，提出了适应图像非因果特性的多扫描策略，取得了突破性成果。随后，许多研究将Mamba应用于各种视觉任务，包括医学图像分割（Xu等，2024）、遥感图像分割（Patro和Agneeswaran 2024）、图像恢复（Guo等，2024；Zou等，2024）以及目标检测和跟踪（Huang等，2024；Dong等，2024），证明了Mamba在视觉领域的巨大潜力。然而，Mamba缺乏有效处理稀疏事件数据的机制，导致大量冗余计算。

方法

预备知识：SSMs和Mamba

经典的状态空间模型（SSM）是一个线性时不变系统。给定输入序列 $x(t)∈RLx(t)\;\in\;\mathbb{R}^{L}$ ，它维护一个隐藏状态 $h(t)∈˙RN\boldsymbol{h}(t)\ \dot{\in}\ \mathbb{R}^{N}$ 来存储上下文信息，并生成输出 $y(t)∈RL\boldsymbol{y}(t)\,\in\,\mathbb{R}^{L}$ 。计算过程如下：
$h′(t)=Ah(t)+Bx(t),y(t)=Ch(t),h^{\prime}(t)=\mathbf{A}h(t)+\mathbf{B}x(t),y(t)=\mathbf{C}h(t),$
其中 $A∈RN×N\mathbf{A}\in\mathbb{R}^{N\times N}$ 是状态矩阵， $B∈RN×L\boldsymbol{B}\in\mathbb{R}^{N\times L}$ 和 $C∈RL×N\mathbf{C}\in\mathbb{R}^{L\times N}$ 分别是输入和输出矩阵。

为了提高SSM的全局建模能力，Mamba（Gu和Dao 2023）提出了输入依赖的选择性扫描机制（S6），通过引入时间尺度参数 $Δ\Delta$ 和零阶保持（ZOH）来引入非线性和离散化。过程如下：
$ht=A‾ht−1+B‾xt,yt=Cht,h_{t}=\mathbf{\overline{{A}}}h_{t-1}+\mathbf{\overline{{B}}}x_{t},y_{t}=\mathbf{C}h_{t},$
$A‾=exp⁡(ΔA),B‾=(ΔA)−1(exp⁡(ΔA)−I)⋅ΔB.\begin{array}{r}{\overline{{\mathbf{A}}}=\exp(\Delta\mathbf{A}),\overline{{\mathbf{B}}}=(\Delta\mathbf{A})^{-1}(\exp(\Delta\mathbf{A})-\mathbf{I})\cdot\Delta\mathbf{B}.}\end{array}$

SMamba概述

SMamba的框架如图2(a)所示。首先，事件流输入到时空连续性评估（STCA）模块，如图2(d)所示，该模块生成稀疏化图以指导稀疏化操作。同时，事件流被转换为体素张量（Zhu等，2019）并分割为块以进行token化。这些token随后通过四个阶段进行多尺度特征提取。前两个阶段采用稀疏空间Mamba（SSM）层，如图2(b)所示，包括稀疏SS2D（2D选择性扫描）模块，以在保留的token上改善全局空间交互；稀疏MLP模块，进一步减少计算开销；以及ConvLSTM（Shi等，2015），在时间步之间传输时空信息，其输出发送到后续层。最后两个阶段使用空间-通道混合Mamba（SCMM）层，如图2©所示，包括稀疏SS2D模块、全局通道交互（GCI）模块，该模块通过从全局视角促进通道交互，将全局建模扩展到3D表示空间，以及ConvLSTM。最后三个阶段产生的特征随后输入到特征金字塔网络（FPN）进行多尺度特征融合。最后，YOLOX（Ge等，2021）检测头输出检测结果。

图2：SMamba的架构。给定输入事件流，STCA模块（如(d)所示）基于时空连续性评估token的信息内容，并生成稀疏化图以指导稀疏化操作。同时，事件流被预处理并传输到四个阶段，以在空间和通道维度上进行全面的全局交互。前两个阶段采用稀疏空间Mamba（SSM）层（如(b)所示），以在保留的token上促进全局空间交互。最后两个阶段使用空间-通道混合Mamba（SCMM）层（如(c)所示），以在3D表示空间内排列全局建模。

时空连续性评估

事件相机在亮度变化超过阈值的位置异步触发事件，导致显著的空间稀疏性，特别是在相机静止的场景中（Verma等，2024）。此外，事件相机的固有电路特性会产生大量噪声（Ding等，2023；Duan 2024）。这些空白和噪声区域信息量不足，导致不必要的计算和潜在干扰。

我们观察到，活动事件和噪声事件在时空分布上表现出显著差异。具体来说，噪声事件在空间上是孤立的或在时间上是不连续的，而活动事件通常位于移动物体的边缘，表现出空间接近性和时间连续性（Kim等，2021）。基于这一先验，我们提出了时空连续性评估（STCA）模块，如图2(d)所示，通过评估事件的时空连续性来评估token重要性，并选择性地丢弃信息量不足的token，减少计算开销。

具体来说，给定事件流 ${(xi,yi,ti,pi)}i=1N\left\{\left(x_{i},y_{i},t_{i},p_{i}\right)\right\}_{i=1}^{N}$ ，其中 $x_{i},y_{i})$ 是空间坐标， $t_{i}$ 表示时间戳， $pi∈{−1,1}ˉp_{i}\:\in\:\bar{\{-1,1\}}$ 表示事件极性。首先累积每个像素位置的事件时间戳，生成时间连续性评分图 $St∈RH×WS^{t}\in\mathbb{R}^{H\times W}$ ，该图量化了每个空间位置的时间连续性。公式如下：
$Sx,yt=∑i,xi=x,yi=yti.S_{x,y}^{t}=\sum_{i,x_{i}=x,y_{i}=y}t_{i}.$
接下来，使用核大小和步长为 $P$ 的平均池化来提取与每个token对应的时态信息内容 $St∈R^H˙/P×W/PS^{t}\ \in\ \hat{\mathbb{R}}^{\dot{H}/P\times W/P}$ ，其中 $P$ 表示事件token化期间使用的块大小。随后，有效聚合邻域信息以评估空间连续性。对于活动事件，附近的邻居更可能由同一移动边缘触发，而远处的邻居更可能是噪声。因此，为了减轻噪声对信息内容评估的影响，采用高斯函数在邻域内执行基于距离的加权聚合，从而平滑噪声同时保持更完整的物体结构（Wan等，2022）。公式如下：
$Sst=∑q∈Ω(exp⁡(−∥q−c∥22σ2)Sqt)∑q∈Ωexp⁡(−∥q−c∥22σ2),S^{s t}=\frac{\sum_{q\in\Omega}\left(\exp\left(-\frac{\|q-c\|^{2}}{2\sigma^{2}}\right)S_{q}^{t}\right)}{\sum_{q\in\Omega}\exp\left(-\frac{\|q-c\|^{2}}{2\sigma^{2}}\right)},$
其中 $c$ 是邻域 $Ω\Omega$ 的中心， $S_{q}^{t}$ 表示邻居 $q$ 的值， $σ\sigma$ 表示方差。在生成的时空连续性评分图 $S^{s t}$ 中，每个像素值表示对应token的活动事件信息内容。值越大，token越重要。

时空连续性评分图 $S^{s t}$ 的平均值表示场景的稀疏性，作为丢弃信息量不足token的阈值。为了根据场景的稀疏性水平自适应保留重要token，并避免关键物体信息的丢失，引入了手动调整的稀疏性缩放因子 $β\beta$ 来调节丢弃比例。阈值定义如下：
$α=sum(Sst)βHWP2.\alpha=\frac{sum\left(S^{s t}\right)}{\beta\frac{H W}{P^{2}}}.$
基于此阈值，生成稀疏化图 $D∈RH/P×W/PD\ \ \in\ \mathbb{R}^{H/P\times W/P}$ 用于稀疏化操作。表达式如下：
$Dx,y={1,ifSx,yst>=α,0,ifSx,yst<α.D_{x,y}=\left\{\begin{array}{l l}{1,\;\mathrm{if}\ S_{x,y}^{s t}>=\alpha,}\\ {0,\;\mathrm{if}\ S_{x,y}^{s t}<\alpha.}\end{array}\right.$
稀疏化图随后传播到后续层，以指导稀疏化操作。

信息优先的局部扫描

2D空间扫描策略，如Bidi-Scan和Cross-Scan，可能会在扫描序列中分散与物体相关的token，导致扫描间隔变远，削弱它们之间的交互（Liu等，2024a；Shi, Dong和Xu 2024）。因此，我们提出了信息优先的局部扫描（IPL-Scan），它减轻了2D扫描方法的局限性，并设计了稀疏SS2D，将IPL-Scan和Bidi-Scan结合起来促进全局交互，如图3所示。

时空连续性评分图量化了token的信息，分数越高表示是前景物体的可能性越大。根据此图对token重新排序，信息内容更高的token被优先处理，这缩短了重要token之间的扫描距离，促进了它们之间的交互。此外，信息内容较低的token稍后处理，这减轻了噪声的潜在干扰。

考虑到直接重新排序可能会破坏局部信息，在排序过程中引入了局部约束。处理一个token时，其 $\times k$ 邻域也会立即被处理。具体来说，使用核和步长为 $k$ 的最大池化从每个 $\times k$ 局部窗口中提取最大值。这些最大值代表局部窗口，首先被排序。随后，排序结果通过 $k$ 上采样，得到窗口级别的排序结果。这种策略有效促进了潜在物体区域之间的交互，同时保留了局部信息。

图3：稀疏SS2D。为了便于观察，使用了较大的块大小进行token化。信息量不足和噪声token（灰色区域）被丢弃不参与计算，保留的token（黄色区域）通过Bidi-Scan和IPL-Scan扩展为三个扫描序列，每个序列使用单独的S6块并行处理。IPL-Scan的窗口排序结果在每个窗口中心指示（以红色突出显示）

全局通道交互

为了将全局交互从2D空间扩展到3D表示，我们提出了全局通道交互（GCI）模块，如图2©所示，该模块将双向通道（Bidi-channel）扫描机制与 $\times 1$ 卷积结合，基于全局和局部内容动态集成通道信息。

特征张量 $X∈RC×H×W\boldsymbol{X}\,\in\,\mathbb{R}^{C\times H\times W}$ 通过两个不同分支处理：Bidi-channel Scan和 $\times 1$ 卷积，分别在全局和局部级别促进通道交互。在Bidi-channel Scan分支中，X通过Linear和DWConv（深度卷积）进行预处理，以捕获局部上下文，然后送入Bidi-channel Scan，如图4所示。X沿H和W维度展平，随后进行转置，将每个通道的全局空间信息视为交互的基本单位。接着，通过翻转生成反向序列，然后与原始序列一起输入到S6中，以实现从全局视角的自适应交互。基于全局空间内容执行选择性扫描，使每个通道能够从更全面的视角选择性地关注其他通道，准确捕获通道之间的依赖关系，进一步增强全局建模能力。另一个分支使用 $\times 1$ 卷积捕获通道之间的像素级依赖关系，实现局部自适应交互。最后，两个分支的结果被集成，实现全面的通道交互。

实验

本节首先概述实验设置。随后，将我们的方法与最先进（SOTA）方法进行对比分析。然后展示可视化结果，以证明我们方法的场景适应性。最后，进行消融研究以验证我们方法的有效性。

实验设置

本小节详述了使用的数据集、验证指标和实现细节。

数据集。我们在两个自动驾驶数据集Gen1（De Tournemire等，2020）和1Mpx（Perot等，2020），以及一个交通监控数据集eTram（Verma等，2024）上进行实验。Gen1数据集包含超过39小时的304×240分辨率事件数据，提供了超过255,000个标记的汽车和行人，标注频率为1 Hz、2 Hz或4 Hz。1Mpx数据集提供14.65小时的1280×720分辨率、60 Hz标注频率的更高分辨率数据，包含七个类别中超过2500万个标记框。eTram数据集是为交通监控收集的，包含约10小时1280×720分辨率的数据，涵盖八个类别中约200万个标记框，标注频率为30 Hz。eTram是从路边视角收集的，由于相机固定位置，与另外两个数据集相比表现出更大的稀疏性（Verma等，2024）。

指标。使用COCO mAP（平均精度）（Lin等，2014）评估目标检测的准确性。模型大小通过参数计数来衡量。此外，遵循SAST（Peng等，2024），我们在测试集的前1,000个样本上计算平均FLOPs（每秒浮点运算次数），以评估计算复杂度。我们还将推理时间（运行时间）与其他方法进行比较。

实现细节。为了保证比较公平性，我们遵循RVT（Gehrig和Scaramuzza 2023）中建立的数据集预处理方法、增强技术、混合批处理策略、事件表示方法和评估协议。

定量结果

我们提供了我们的方法与2种基于CNN的方法：RED（Perot等，2020）、ASTMNet（Li等，2022）；以及5种基于Transformer的方法：ERGO-12（Zubic等，2023）、RVT（Gehrig和Scaramuzza 2023）、GET（Peng等，2023）、SAST（Peng等，2024）和S5-ViT（Zubic, Gehrig和Scaramuzza 2024）在Gen1、1Mpx数据集上的对比分析。在eTram数据集上，我们将我们的方法与3种基于Transformer的方法：RVT、SAST和S5-ViT进行比较，因为其他工作的相关代码尚未发布。为了与基于SSM的方法比较，我们使用VMamba（Liu等，2024a）中的VSS块构建了一个名为VSS的检测框架。此外，建立了没有稀疏化策略的基线模型，以评估所提方法的有效性。

结果如表1和表2所示。在Gen1数据集上，我们的SMamba以最低的FLOPs和参数计数优于所有其他方法。与ERGO-12相比，SMamba以仅5%的FLOPs和27%的参数计数达到了相同的mAP。在1Mpx和eTram数据集上，SMamba在相似FLOPs和更低参数计数的情况下，比SAST-CB在mAP上分别高出0.6%和2.6%。通过将我们的稀疏化策略进一步集成到基线中，SMamba在三个数据集上分别将FLOPs减少了23%、22%和31%，同时mAP分别提高了0.4%、0.5%和0.3%。我们的稀疏化操作使网络专注于重要区域，减轻了空白和噪声区域的干扰，从而降低了计算开销并提高了准确性。SMamba的推理速度比基于CNN的方法和基于Transformer的方法ERGO-12更快，与SAST-CB相当，但实现了更高的准确性。在自动驾驶和交通监控数据集上的一致性能改进表明，我们的方法可以泛化到不同的稀疏性水平，同时在准确性和效率之间实现理想的权衡。

方法	骨干网络	Gen1				1Mpx
方法	骨干网络	mAP	FLOPs	参数量	运行时间	mAP	FLOPs	参数量	运行时间
RED	CNN+RNN	40.0	6.0G	24.1M	16.7ms	43.0	19.0G	24.1M	39.3ms
ASTMNet	CNN+RNN	46.7	29.3G	100M	35.6ms	48.3	75.7G	100M	72.3ms
ERGO-12	Transformer	50.4	50.8G	59.6M	69.9ms	40.6	50.8G	59.6M	100ms
RVT-B	Transformer+RNN	47.2	3.5G	18.5M	10.2ms	47.4	10.3G	18.5M	11.9ms
GET-T	Transformer+RNN	47.9	3.6G	21.9M	16.8ms	48.4	10.6G	21.9M	21.9ms
SAST-CB	Transformer+RNN	48.2	2.4G	18.9M	22.7ms	48.7	6.4G	18.9M	23.6ms
S5-ViT-B	Transformer+SSM	47.7	>3.1G	18.2M	9.4ms	47.8	>9.1G	18.2M	10.9ms
VSS	SSM+RNN	49.5	3.4G	19.3M	17.4ms	48.2	10.3G	19.3M	17.7ms
Baseline	SSM+RNN	50.0	3.1G	16.1M	25.2ms	48.8	9.5G	16.7M	27.5ms
SMamba	SSM+RNN	50.4	2.4G (-23%)	16.1M	24.0ms	49.3	7.4G (-22%)	16.7M	26.0ms

表1：与最先进方法在两个自动驾驶数据集Gen1和1Mpx上的性能比较。报告的FLOPs属于骨干网络。括号中的值(*)表示与基线方法相比FLOPs减少的百分比。

方法	eTram
方法	mAP	FLOPs 参数量	运行时间
RVT-B	29.5	10.3G 18.5M 6.2G	11.9ms
SAST-CB	30.0	18.9M	24.4ms
S5-ViT-B	29.3 >9.1G	18.2M	10.9ms
VSS	31.3	10.3G 19.3M	17.7ms
Baseline	32.3	9.5G 16.7M	27.5ms
SMamba	32.6	6.6G (-31%) 16.7M	25.2ms

表2：与最先进方法在交通监控数据集eTram上的性能比较。

稀疏化可视化

图5展示了在eTram和1Mpx数据集上原始事件、评分图、稀疏化图和稀疏化结果的可视化，场景复杂度递增。eTram由静止相机收集，与由移动相机获取的1Mpx相比，表现出更大的稀疏性。随着事件密度增加，STCA模块保留越来越多的token。这表明我们的STCA表现出强大的场景自适应能力，有效减轻了空白区域和噪声的干扰，同时选择重要token。

图5：原始事件、评分图、稀疏化图和稀疏化结果的可视化。

消融研究

为了评估所提方法的有效性，我们在eTram数据集上进行了一系列消融研究。

方法	mAP	FLOPs	参数量
方差熵评分模块 STCA	30.8 30.4 31.2 32.6	6.5G 6.6G 7.0G 6.6G	16.7M 16.7M 17.0M 16.7M

表3：不同评分方法的性能。

STCA模块。我们比较了STCA与两种信息内容评估指标——方差和熵，以及可学习事件评分模块（Peng等，2024），同时保持架构一致性。如表3所示，我们的方法表现出卓越的性能，超过其他方法。方差和熵无法区分活动事件和噪声事件，导致信息内容误判。评分模块通过间接梯度传播路径进行优化，导致次优的token评分。相比之下，STCA基于时空连续性先验有效区分了活动事件与噪声和空白区域。

扫描模式。我们在稀疏SS2D中对扫描模式进行消融，结果如表4所示。将2D扫描路径从7（Bidi-Scan）增加到4（Cross-Scan）仅将mAP提高了0.5%。单独使用IPL-Scan产生最差的性能，这是由于空间结构信息大量丢失。然而，Bidi-Scan和IPL-Scan的组合实现了最佳性能，mAP提高了12.4%。在IPL-Scan中移除局部约束导致性能显著下降，表明局部信息的关键作用。

方法	mAP	FLOPs	参数量
IPL-Scan Bidi-Scan	29.9	6.5G	16.3M
Cross-Scan Bidi-Scan + IPL-Scan Bidi-Scan + IPL-Scan (无局部约束)	30.2 30.7 32.6 30.7	6.6G	16.5M
		6.6G	16.9M
		6.6G 6.6G	16.7M 16.7M

表4：不同扫描模式的性能。

图6展示了我们的扫描方法与Bidi-Scan和Cross-Scan的视觉对比。Bidi-Scan和Cross-Scan在2D方向组织扫描序列，这限制了上下文交互，导致特征区分度较低。相比之下，我们的IPL-Scan缩短了同一物体不同区域之间的扫描距离，从而促进了这些区域之间的交互，使模型能够学习更具判别性的特征表示。

全局通道交互模块设计。我们用MLP替换GCI模块作为基线，分析Bidi-channel Scan和 $\times 1$ 卷积的贡献。结果如表5所示。用Bidi-channel Scan替换MLP将mAP提高了0.5%，同时将FLOPs和参数量分别减少了35%和16.7%。全局空间上下文为交互提供了更全面的视角，使通道信息聚合更加准确。结合 $\times 1$ 卷积引入了像素级通道交互，进一步将mAP提高了1.1%，这表明局部信息对通道交互同样重要。

(a)保留的Tokens (b)Bidi-Scan (c) Cross-Scan (d) 我们的方法

图6：Bidi-Scan、Cross-Scan和我们方法的特征可视化。

Bidi-channel Scan 1×1	mAP	FLOPs	参数量
MLP	31.0	9.7G	19.2M
	31.5	6.3G	16.0M
	32.6	6.6G	16.7M

表5：GCI模块组件的性能

全局通道交互模块放置位置。我们使用MLP作为基线，检查在不同阶段放置GCI模块的影响。表6中的结果表明，在最后两个阶段放置GCI模块实现了最佳性能，mAP提高了1.6%，同时将FLOPs和参数量分别减少了132%和13%。这可以归因于最后两个阶段具有更高的语义级别和更丰富的通道信息，使全面的通道交互更加有益。

S1	S2 S3	S4	mAP	FLOPs	参数量
	MLP		31.0	9.7G	19.2M
			31.0	6.2G	16.7M
			32.6	6.6G	16.7M
			31.4	6.8G	17.2M
			31.5	7.0G	17.8M

表6：GCI在不同阶段后的性能

结论

在本文中，我们提出了稀疏Mamba，它在基于事件的目标检测中实现了准确性和效率之间的卓越平衡。STCA模块自适应丢弃非事件和噪声token，显著减少计算开销。IPL-Scan和GCI模块分别在空间和通道维度上捕获全局上下文。IPL-Scan缩短了高信息量token之间的扫描距离，促进了空间上下文建模。GCI模块从全局空间视角聚合通道信息，在3D空间内实现全局交互。三个数据集上的实验结果表明，我们的方法实现了卓越的性能和计算效率。

局限性。我们的STCA依赖于事件噪声在时间和空间上独立的假设，这可能限制其处理大爆发或噪声簇的有效性。在未来的工作中，我们将进一步考虑集成更有效的语义学习，以更好地区分时空连续的噪声token。