SMamba: 基于稀疏Mamba的事件相机目标检测
论文信息
标题:SMamba: 基于稀疏Mamba的事件相机目标检测
作者:Nan Yang¹*, Yang Wang¹*, Zhanwen Liu¹†, Meng Li², Yisheng An¹, Xiangmo Zhao¹
机构:¹西安交通大学,²华为技术有限公司
会议:AAAI 2025
代码:https://github.com/Zizzzzzzz/SMamba_AAAI2025
摘要
基于Transformer的方法在事件相机目标检测中取得了显著的性能,这得益于其全局建模能力。然而,这些方法忽视了非事件区域和噪声区域的影响,并统一处理这些区域,导致计算开销很高。为了减轻计算成本,一些研究人员提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域,但这牺牲了全局建模能力,导致次优性能。为了在准确性和效率之间取得更好的权衡,我们提出了稀疏Mamba(SMamba),它通过自适应稀疏化减少计算量,同时保持全局建模能力。具体来说,我们提出了一个时空连续性评估模块,通过利用活动事件和噪声事件之间的时空分布差异来衡量token的信息内容,并丢弃信息量不足的token。基于评估结果,我们设计了一种信息优先的局部扫描策略,以缩短高信息量token之间的扫描距离,促进它们在空间维度上的交互。此外,为了将全局交互从2D空间扩展到3D表示,我们提出了一个全局通道交互模块,从全局空间视角聚合通道信息。在三个数据集(Gen1、1Mpx和eTram)上的结果表明,我们的模型在性能和效率方面均优于其他方法。
代码— https://github.com/Zizzzzzzz/SMamba_AAAI2025
引言
鲁棒的目标检测对于智能系统(如自动驾驶和机器人)至关重要(Liu等,2024b;Zhang等,2013;Li等,2024;Liu等,2023)。然而,基于帧的相机在帧率和动态范围方面存在固有局限性,导致在高运动速度和不利曝光条件(如低光照和过曝光)等具有挑战性的场景中产生低质量图像,阻碍了判别性特征的提取(Lichtsteiner, Posch和Delbruck 2008;Sayed和Brostow 2021;Liu等,2024c;Yan, Gong和Zhang 2018;Liu等,2024d)。在这些场景中,事件相机因其独特优势而成为更优选择:它异步检测像素级光强度变化,提供高时间分辨率和高动态范围,即使在具有挑战性的条件下也能表现出稳定和鲁棒的性能(Finateu等,2020;Huang等,2023;Son等,2017;Gallego等,2020)。
为了充分利用事件相机在目标检测任务中的卓越性能,研究人员已经开发了各种基于精心设计的神经网络架构的方法,包括基于SNN、基于GNN、基于CNN和基于Transformer的方法。理论上,基于SNN(Cordone, Miramond和Thierion 2022)和基于GNN(Schaefer, Gehrig和Scaramuzza 2022)的方法可以实现低延迟推理,但需要专用硬件,并且在真实场景中表现不佳。最近的研究表明,基于Transformer的方法(Gehrig和Scaramuzza 2023;Peng等,2023;Zubic, Gehrig和Scaramuzza 2024;Zubic等,2023),由于具有更大的感受野,显著优于基于局部感受野的CNN方法(Dosovitskiy等,2021;Perot等,2020;Li等,2022)。然而,这些方法通常将事件流转换为离散token,并统一处理非事件和噪声区域,忽略了空间稀疏性(Peng等,2024)和低信噪比(Ding等,2023)的影响,导致大量冗余计算和次优性能。如图1(a)所示,我们计算了Gen1(De Tournemire等,2020)、1Mpx(Perot等,2020)和eTram(Verma等,2024)数据集上触发事件像素的比例(事件空间比例)和相机运行时间内事件的平均数量(事件率)。结果表明,在96%的场景中,事件空间比例低于30%,表明具有很高的空间稀疏性。为了提高在稀疏事件数据上的计算效率,SAST(Peng等,2024)提出了基于窗口注意力的稀疏化策略来丢弃不重要的区域,但牺牲了全局建模能力。此外,token评分模块通过间接梯度传播路径进行优化,使框架优化变得复杂,需要更多迭代。
在本文中,我们提出了稀疏Mamba(SMamba),它通过自适应丢弃信息量不足的token有效降低计算成本,并通过信息引导的空间选择性扫描和基于全局空间的通道选择性扫描捕获全局上下文,实现更好的准确性和效率权衡,如图1(b,c)所示。具体来说,我们通过利用活动事件和噪声事件之间的时空分布差异,设计了时空连续性评估(STCA)模块,无需复杂的模块设计和具有挑战性的优化。通过评估每个token对应区域内事件的时空连续性来衡量token的信息内容,生成稀疏化图以指导非事件和噪声token的丢弃。基于评估结果,我们提出了信息优先的局部扫描(IPL-Scan)策略,该策略在窗口级别根据信息内容对token进行排序,促进2D空间中高信息量token之间的交互,同时保留关键的局部内容。此外,为了进一步将全局交互从2D空间扩展到3D表示,我们提出了全局通道交互(GCI)模块,基于2D全局上下文动态集成通道信息。在三个数据集(Gen1、1Mpx和eTram)上的实验结果表明,我们的方法实现了卓越的性能和更高的效率。总体而言,我们的贡献可以总结如下:
(1) 我们提出了SMamba,它基于时空连续性评估自适应丢弃非事件和噪声token,并捕获空间和通道维度上的全局关系,展示了准确性和效率之间的最佳平衡。
(2) 设计了IPL-Scan,指导模型在扫描过程中关注高信息量token,从而提高空间上下文建模能力。
(3) 设计了GCI模块,通过从全局空间视角聚合通道信息,将全局交互扩展到3D特征空间,进一步提高全局建模能力。
(4) 在Gen1、1Mpx和eTram数据集上的实验结果表明,我们的SMamba超越了最先进方法,实现了卓越的性能。
相关工作
本节全面概述了基于事件的目标检测方法,随后回顾了视觉Mamba的最新进展。
基于事件的目标检测
现有的基于事件的目标检测方法可以根据所采用的神经网络架构进行分类:基于SNN、基于GNN、基于CNN和基于Transformer的方法。基于SNN(Cordone, Miramond和Thierion 2022)和基于GNN(Schaefer, Gehrig和Scaramuzza 2022)的方法有效利用了事件数据的稀疏和异步特性,从而实现了高计算效率。然而,它们网络架构的不成熟限制了处理复杂目标检测任务的能力,导致性能有限。
基于CNN和基于Transformer的方法首先将事件转换为类图像张量,便于与后续处理架构兼容。著名的基于CNN的方法,如RED(Perot等,2020)和ASTMNet(Li等,2022),将CNN与RNN集成,有效提取时空特征。最近,基于Transformer的方法(Gehrig和Scaramuzza 2023;Peng等,2023;Zubic, Gehrig和Scaramuzza 2024)受益于自注意力机制的全局感受野,超越了基于CNN的方法,取得了卓越的性能。然而,自注意力机制统一处理非事件和噪声区域,导致大量冗余计算。为了解决这个问题,SAST(Peng等,2024)提出了一种窗口-token共稀疏化策略,自适应丢弃不重要的窗口和token。然而,该方法依赖窗口注意力实现低计算开销,牺牲了全局建模能力。
视觉Mamba
Mamba在效率和性能之间取得了更好的平衡,成为Transformer的有效替代方案。具体来说,Mamba通过引入输入依赖的选择性扫描机制(S6)提高了全局建模能力,并提出了并行扫描机制以保持状态空间模型(SSMs)的线性复杂度。受Mamba在NLP领域成功的启发,Vim(Zhu等,2024)和Vamba(Liu等,2024a)将Mamba集成到视觉骨干网络设计中,提出了适应图像非因果特性的多扫描策略,取得了突破性成果。随后,许多研究将Mamba应用于各种视觉任务,包括医学图像分割(Xu等,2024)、遥感图像分割(Patro和Agneeswaran 2024)、图像恢复(Guo等,2024;Zou等,2024)以及目标检测和跟踪(Huang等,2024;Dong等,2024),证明了Mamba在视觉领域的巨大潜力。然而,Mamba缺乏有效处理稀疏事件数据的机制,导致大量冗余计算。
方法
预备知识:SSMs和Mamba
经典的状态空间模型(SSM)是一个线性时不变系统。给定输入序列x(t)∈RLx(t)\;\in\;\mathbb{R}^{L}x(t)∈RL,它维护一个隐藏状态h(t)∈˙RN\boldsymbol{h}(t)\ \dot{\in}\ \mathbb{R}^{N}h(t) ∈˙ RN来存储上下文信息,并生成输出y(t)∈RL\boldsymbol{y}(t)\,\in\,\mathbb{R}^{L}y(t)∈RL。计算过程如下:
h′(t)=Ah(t)+Bx(t),y(t)=Ch(t),h^{\prime}(t)=\mathbf{A}h(t)+\mathbf{B}x(t),y(t)=\mathbf{C}h(t),h′(t)=Ah(t)+Bx(t),y(t)=Ch(t),
其中A∈RN×N\mathbf{A}\in\mathbb{R}^{N\times N}A∈RN×N是状态矩阵,B∈RN×L\boldsymbol{B}\in\mathbb{R}^{N\times L}B∈RN×L和C∈RL×N\mathbf{C}\in\mathbb{R}^{L\times N}C∈RL×N分别是输入和输出矩阵。
为了提高SSM的全局建模能力,Mamba(Gu和Dao 2023)提出了输入依赖的选择性扫描机制(S6),通过引入时间尺度参数Δ\DeltaΔ和零阶保持(ZOH)来引入非线性和离散化。过程如下:
ht=A‾ht−1+B‾xt,yt=Cht,h_{t}=\mathbf{\overline{{A}}}h_{t-1}+\mathbf{\overline{{B}}}x_{t},y_{t}=\mathbf{C}h_{t},ht=Aht−1+Bxt,yt=Cht,
A‾=exp(ΔA),B‾=(ΔA)−1(exp(ΔA)−I)⋅ΔB.\begin{array}{r}{\overline{{\mathbf{A}}}=\exp(\Delta\mathbf{A}),\overline{{\mathbf{B}}}=(\Delta\mathbf{A})^{-1}(\exp(\Delta\mathbf{A})-\mathbf{I})\cdot\Delta\mathbf{B}.}\end{array}A=exp(ΔA),B=(ΔA)−1(exp(ΔA)−I)⋅ΔB.
SMamba概述
SMamba的框架如图2(a)所示。首先,事件流输入到时空连续性评估(STCA)模块,如图2(d)所示,该模块生成稀疏化图以指导稀疏化操作。同时,事件流被转换为体素张量(Zhu等,2019)并分割为块以进行token化。这些token随后通过四个阶段进行多尺度特征提取。前两个阶段采用稀疏空间Mamba(SSM)层,如图2(b)所示,包括稀疏SS2D(2D选择性扫描)模块,以在保留的token上改善全局空间交互;稀疏MLP模块,进一步减少计算开销;以及ConvLSTM(Shi等,2015),在时间步之间传输时空信息,其输出发送到后续层。最后两个阶段使用空间-通道混合Mamba(SCMM)层,如图2©所示,包括稀疏SS2D模块、全局通道交互(GCI)模块,该模块通过从全局视角促进通道交互,将全局建模扩展到3D表示空间,以及ConvLSTM。最后三个阶段产生的特征随后输入到特征金字塔网络(FPN)进行多尺度特征融合。最后,YOLOX(Ge等,2021)检测头输出检测结果。
时空连续性评估
事件相机在亮度变化超过阈值的位置异步触发事件,导致显著的空间稀疏性,特别是在相机静止的场景中(Verma等,2024)。此外,事件相机的固有电路特性会产生大量噪声(Ding等,2023;Duan 2024)。这些空白和噪声区域信息量不足,导致不必要的计算和潜在干扰。
我们观察到,活动事件和噪声事件在时空分布上表现出显著差异。具体来说,噪声事件在空间上是孤立的或在时间上是不连续的,而活动事件通常位于移动物体的边缘,表现出空间接近性和时间连续性(Kim等,2021)。基于这一先验,我们提出了时空连续性评估(STCA)模块,如图2(d)所示,通过评估事件的时空连续性来评估token重要性,并选择性地丢弃信息量不足的token,减少计算开销。
具体来说,给定事件流{(xi,yi,ti,pi)}i=1N\left\{\left(x_{i},y_{i},t_{i},p_{i}\right)\right\}_{i=1}^{N}{(xi,yi,ti,pi)}i=1N,其中(xi,yi)(x_{i},y_{i})(xi,yi)是空间坐标,tit_{i}ti表示时间戳,pi∈{−1,1}ˉp_{i}\:\in\:\bar{\{-1,1\}}pi∈{−1,1}ˉ表示事件极性。首先累积每个像素位置的事件时间戳,生成时间连续性评分图St∈RH×WS^{t}\in\mathbb{R}^{H\times W}St∈RH×W,该图量化了每个空间位置的时间连续性。公式如下:
Sx,yt=∑i,xi=x,yi=yti.S_{x,y}^{t}=\sum_{i,x_{i}=x,y_{i}=y}t_{i}.Sx,yt=i,xi=x,yi=y∑ti.
接下来,使用核大小和步长为PPP的平均池化来提取与每个token对应的时态信息内容St∈R^H˙/P×W/PS^{t}\ \in\ \hat{\mathbb{R}}^{\dot{H}/P\times W/P}St ∈ R^H˙/P×W/P,其中PPP表示事件token化期间使用的块大小。随后,有效聚合邻域信息以评估空间连续性。对于活动事件,附近的邻居更可能由同一移动边缘触发,而远处的邻居更可能是噪声。因此,为了减轻噪声对信息内容评估的影响,采用高斯函数在邻域内执行基于距离的加权聚合,从而平滑噪声同时保持更完整的物体结构(Wan等,2022)。公式如下:
Sst=∑q∈Ω(exp(−∥q−c∥22σ2)Sqt)∑q∈Ωexp(−∥q−c∥22σ2),S^{s t}=\frac{\sum_{q\in\Omega}\left(\exp\left(-\frac{\|q-c\|^{2}}{2\sigma^{2}}\right)S_{q}^{t}\right)}{\sum_{q\in\Omega}\exp\left(-\frac{\|q-c\|^{2}}{2\sigma^{2}}\right)},Sst=∑q∈Ωexp(−2σ2∥q−c∥2)∑q∈Ω(exp(−2σ2∥q−c∥2)Sqt),
其中ccc是邻域Ω\OmegaΩ的中心,SqtS_{q}^{t}Sqt表示邻居qqq的值,σ\sigmaσ表示方差。在生成的时空连续性评分图SstS^{s t}Sst中,每个像素值表示对应token的活动事件信息内容。值越大,token越重要。
时空连续性评分图SstS^{s t}Sst的平均值表示场景的稀疏性,作为丢弃信息量不足token的阈值。为了根据场景的稀疏性水平自适应保留重要token,并避免关键物体信息的丢失,引入了手动调整的稀疏性缩放因子β\betaβ来调节丢弃比例。阈值定义如下:
α=sum(Sst)βHWP2.\alpha=\frac{sum\left(S^{s t}\right)}{\beta\frac{H W}{P^{2}}}.α=βP2HWsum(Sst).
基于此阈值,生成稀疏化图D∈RH/P×W/PD\ \ \in\ \mathbb{R}^{H/P\times W/P}D ∈ RH/P×W/P用于稀疏化操作。表达式如下:
Dx,y={1,ifSx,yst>=α,0,ifSx,yst<α.D_{x,y}=\left\{\begin{array}{l l}{1,\;\mathrm{if}\ S_{x,y}^{s t}>=\alpha,}\\ {0,\;\mathrm{if}\ S_{x,y}^{s t}<\alpha.}\end{array}\right.Dx,y={1,if Sx,yst>=α,0,if Sx,yst<α.
稀疏化图随后传播到后续层,以指导稀疏化操作。
信息优先的局部扫描
2D空间扫描策略,如Bidi-Scan和Cross-Scan,可能会在扫描序列中分散与物体相关的token,导致扫描间隔变远,削弱它们之间的交互(Liu等,2024a;Shi, Dong和Xu 2024)。因此,我们提出了信息优先的局部扫描(IPL-Scan),它减轻了2D扫描方法的局限性,并设计了稀疏SS2D,将IPL-Scan和Bidi-Scan结合起来促进全局交互,如图3所示。
时空连续性评分图量化了token的信息,分数越高表示是前景物体的可能性越大。根据此图对token重新排序,信息内容更高的token被优先处理,这缩短了重要token之间的扫描距离,促进了它们之间的交互。此外,信息内容较低的token稍后处理,这减轻了噪声的潜在干扰。
考虑到直接重新排序可能会破坏局部信息,在排序过程中引入了局部约束。处理一个token时,其k×kk \times kk×k邻域也会立即被处理。具体来说,使用核和步长为kkk的最大池化从每个k×kk \times kk×k局部窗口中提取最大值。这些最大值代表局部窗口,首先被排序。随后,排序结果通过kkk上采样,得到窗口级别的排序结果。这种策略有效促进了潜在物体区域之间的交互,同时保留了局部信息。
全局通道交互
为了将全局交互从2D空间扩展到3D表示,我们提出了全局通道交互(GCI)模块,如图2©所示,该模块将双向通道(Bidi-channel)扫描机制与1×11 \times 11×1卷积结合,基于全局和局部内容动态集成通道信息。
特征张量X∈RC×H×W\boldsymbol{X}\,\in\,\mathbb{R}^{C\times H\times W}X∈RC×H×W通过两个不同分支处理:Bidi-channel Scan和1×11 \times 11×1卷积,分别在全局和局部级别促进通道交互。在Bidi-channel Scan分支中,X通过Linear和DWConv(深度卷积)进行预处理,以捕获局部上下文,然后送入Bidi-channel Scan,如图4所示。X沿H和W维度展平,随后进行转置,将每个通道的全局空间信息视为交互的基本单位。接着,通过翻转生成反向序列,然后与原始序列一起输入到S6中,以实现从全局视角的自适应交互。基于全局空间内容执行选择性扫描,使每个通道能够从更全面的视角选择性地关注其他通道,准确捕获通道之间的依赖关系,进一步增强全局建模能力。另一个分支使用1×11 \times 11×1卷积捕获通道之间的像素级依赖关系,实现局部自适应交互。最后,两个分支的结果被集成,实现全面的通道交互。
实验
本节首先概述实验设置。随后,将我们的方法与最先进(SOTA)方法进行对比分析。然后展示可视化结果,以证明我们方法的场景适应性。最后,进行消融研究以验证我们方法的有效性。
实验设置
本小节详述了使用的数据集、验证指标和实现细节。
数据集。我们在两个自动驾驶数据集Gen1(De Tournemire等,2020)和1Mpx(Perot等,2020),以及一个交通监控数据集eTram(Verma等,2024)上进行实验。Gen1数据集包含超过39小时的304×240分辨率事件数据,提供了超过255,000个标记的汽车和行人,标注频率为1 Hz、2 Hz或4 Hz。1Mpx数据集提供14.65小时的1280×720分辨率、60 Hz标注频率的更高分辨率数据,包含七个类别中超过2500万个标记框。eTram数据集是为交通监控收集的,包含约10小时1280×720分辨率的数据,涵盖八个类别中约200万个标记框,标注频率为30 Hz。eTram是从路边视角收集的,由于相机固定位置,与另外两个数据集相比表现出更大的稀疏性(Verma等,2024)。
指标。使用COCO mAP(平均精度)(Lin等,2014)评估目标检测的准确性。模型大小通过参数计数来衡量。此外,遵循SAST(Peng等,2024),我们在测试集的前1,000个样本上计算平均FLOPs(每秒浮点运算次数),以评估计算复杂度。我们还将推理时间(运行时间)与其他方法进行比较。
实现细节。为了保证比较公平性,我们遵循RVT(Gehrig和Scaramuzza 2023)中建立的数据集预处理方法、增强技术、混合批处理策略、事件表示方法和评估协议。
定量结果
我们提供了我们的方法与2种基于CNN的方法:RED(Perot等,2020)、ASTMNet(Li等,2022);以及5种基于Transformer的方法:ERGO-12(Zubic等,2023)、RVT(Gehrig和Scaramuzza 2023)、GET(Peng等,2023)、SAST(Peng等,2024)和S5-ViT(Zubic, Gehrig和Scaramuzza 2024)在Gen1、1Mpx数据集上的对比分析。在eTram数据集上,我们将我们的方法与3种基于Transformer的方法:RVT、SAST和S5-ViT进行比较,因为其他工作的相关代码尚未发布。为了与基于SSM的方法比较,我们使用VMamba(Liu等,2024a)中的VSS块构建了一个名为VSS的检测框架。此外,建立了没有稀疏化策略的基线模型,以评估所提方法的有效性。
结果如表1和表2所示。在Gen1数据集上,我们的SMamba以最低的FLOPs和参数计数优于所有其他方法。与ERGO-12相比,SMamba以仅5%的FLOPs和27%的参数计数达到了相同的mAP。在1Mpx和eTram数据集上,SMamba在相似FLOPs和更低参数计数的情况下,比SAST-CB在mAP上分别高出0.6%和2.6%。通过将我们的稀疏化策略进一步集成到基线中,SMamba在三个数据集上分别将FLOPs减少了23%、22%和31%,同时mAP分别提高了0.4%、0.5%和0.3%。我们的稀疏化操作使网络专注于重要区域,减轻了空白和噪声区域的干扰,从而降低了计算开销并提高了准确性。SMamba的推理速度比基于CNN的方法和基于Transformer的方法ERGO-12更快,与SAST-CB相当,但实现了更高的准确性。在自动驾驶和交通监控数据集上的一致性能改进表明,我们的方法可以泛化到不同的稀疏性水平,同时在准确性和效率之间实现理想的权衡。
| 方法 | 骨干网络 | Gen1 | 1Mpx | ||||||
| mAP | FLOPs | 参数量 | 运行时间 | mAP | FLOPs | 参数量 | 运行时间 | ||
| RED | CNN+RNN | 40.0 | 6.0G | 24.1M | 16.7ms | 43.0 | 19.0G | 24.1M | 39.3ms |
| ASTMNet | CNN+RNN | 46.7 | 29.3G | 100M | 35.6ms | 48.3 | 75.7G | 100M | 72.3ms |
| ERGO-12 | Transformer | 50.4 | 50.8G | 59.6M | 69.9ms | 40.6 | 50.8G | 59.6M | 100ms |
| RVT-B | Transformer+RNN | 47.2 | 3.5G | 18.5M | 10.2ms | 47.4 | 10.3G | 18.5M | 11.9ms |
| GET-T | Transformer+RNN | 47.9 | 3.6G | 21.9M | 16.8ms | 48.4 | 10.6G | 21.9M | 21.9ms |
| SAST-CB | Transformer+RNN | 48.2 | 2.4G | 18.9M | 22.7ms | 48.7 | 6.4G | 18.9M | 23.6ms |
| S5-ViT-B | Transformer+SSM | 47.7 | >3.1G | 18.2M | 9.4ms | 47.8 | >9.1G | 18.2M | 10.9ms |
| VSS | SSM+RNN | 49.5 | 3.4G | 19.3M | 17.4ms | 48.2 | 10.3G | 19.3M | 17.7ms |
| Baseline | SSM+RNN | 50.0 | 3.1G | 16.1M | 25.2ms | 48.8 | 9.5G | 16.7M | 27.5ms |
| SMamba | SSM+RNN | 50.4 | 2.4G (-23%) | 16.1M | 24.0ms | 49.3 | 7.4G (-22%) | 16.7M | 26.0ms |
| 方法 | eTram | ||
| mAP | FLOPs 参数量 | 运行时间 | |
| RVT-B | 29.5 | 10.3G 18.5M 6.2G | 11.9ms |
| SAST-CB | 30.0 | 18.9M | 24.4ms |
| S5-ViT-B | 29.3 >9.1G | 18.2M | 10.9ms |
| VSS | 31.3 | 10.3G 19.3M | 17.7ms |
| Baseline | 32.3 | 9.5G 16.7M | 27.5ms |
| SMamba | 32.6 | 6.6G (-31%) 16.7M | 25.2ms |
稀疏化可视化
图5展示了在eTram和1Mpx数据集上原始事件、评分图、稀疏化图和稀疏化结果的可视化,场景复杂度递增。eTram由静止相机收集,与由移动相机获取的1Mpx相比,表现出更大的稀疏性。随着事件密度增加,STCA模块保留越来越多的token。这表明我们的STCA表现出强大的场景自适应能力,有效减轻了空白区域和噪声的干扰,同时选择重要token。
消融研究
为了评估所提方法的有效性,我们在eTram数据集上进行了一系列消融研究。
| 方法 | mAP | FLOPs | 参数量 |
| 方差 熵 评分模块 STCA | 30.8 30.4 31.2 32.6 | 6.5G 6.6G 7.0G 6.6G | 16.7M 16.7M 17.0M 16.7M |
STCA模块。我们比较了STCA与两种信息内容评估指标——方差和熵,以及可学习事件评分模块(Peng等,2024),同时保持架构一致性。如表3所示,我们的方法表现出卓越的性能,超过其他方法。方差和熵无法区分活动事件和噪声事件,导致信息内容误判。评分模块通过间接梯度传播路径进行优化,导致次优的token评分。相比之下,STCA基于时空连续性先验有效区分了活动事件与噪声和空白区域。
扫描模式。我们在稀疏SS2D中对扫描模式进行消融,结果如表4所示。将2D扫描路径从7(Bidi-Scan)增加到4(Cross-Scan)仅将mAP提高了0.5%。单独使用IPL-Scan产生最差的性能,这是由于空间结构信息大量丢失。然而,Bidi-Scan和IPL-Scan的组合实现了最佳性能,mAP提高了12.4%。在IPL-Scan中移除局部约束导致性能显著下降,表明局部信息的关键作用。
| 方法 | mAP | FLOPs | 参数量 |
| IPL-Scan Bidi-Scan | 29.9 | 6.5G | 16.3M |
| Cross-Scan Bidi-Scan + IPL-Scan Bidi-Scan + IPL-Scan (无局部约束) | 30.2 30.7 32.6 30.7 | 6.6G | 16.5M |
| 6.6G | 16.9M | ||
| 6.6G 6.6G | 16.7M 16.7M |
图6展示了我们的扫描方法与Bidi-Scan和Cross-Scan的视觉对比。Bidi-Scan和Cross-Scan在2D方向组织扫描序列,这限制了上下文交互,导致特征区分度较低。相比之下,我们的IPL-Scan缩短了同一物体不同区域之间的扫描距离,从而促进了这些区域之间的交互,使模型能够学习更具判别性的特征表示。
全局通道交互模块设计。我们用MLP替换GCI模块作为基线,分析Bidi-channel Scan和1×11 \times 11×1卷积的贡献。结果如表5所示。用Bidi-channel Scan替换MLP将mAP提高了0.5%,同时将FLOPs和参数量分别减少了35%和16.7%。全局空间上下文为交互提供了更全面的视角,使通道信息聚合更加准确。结合1×11 \times 11×1卷积引入了像素级通道交互,进一步将mAP提高了1.1%,这表明局部信息对通道交互同样重要。
| Bidi-channel Scan 1×1 | mAP | FLOPs | 参数量 |
| MLP | 31.0 | 9.7G | 19.2M |
| 31.5 | 6.3G | 16.0M | |
| 32.6 | 6.6G | 16.7M |
全局通道交互模块放置位置。我们使用MLP作为基线,检查在不同阶段放置GCI模块的影响。表6中的结果表明,在最后两个阶段放置GCI模块实现了最佳性能,mAP提高了1.6%,同时将FLOPs和参数量分别减少了132%和13%。这可以归因于最后两个阶段具有更高的语义级别和更丰富的通道信息,使全面的通道交互更加有益。
| S1 | S2 S3 | S4 | mAP | FLOPs | 参数量 |
| MLP | 31.0 | 9.7G | 19.2M | ||
| 31.0 | 6.2G | 16.7M | |||
| 32.6 | 6.6G | 16.7M | |||
| 31.4 | 6.8G | 17.2M | |||
| 31.5 | 7.0G | 17.8M |
结论
在本文中,我们提出了稀疏Mamba,它在基于事件的目标检测中实现了准确性和效率之间的卓越平衡。STCA模块自适应丢弃非事件和噪声token,显著减少计算开销。IPL-Scan和GCI模块分别在空间和通道维度上捕获全局上下文。IPL-Scan缩短了高信息量token之间的扫描距离,促进了空间上下文建模。GCI模块从全局空间视角聚合通道信息,在3D空间内实现全局交互。三个数据集上的实验结果表明,我们的方法实现了卓越的性能和计算效率。
局限性。我们的STCA依赖于事件噪声在时间和空间上独立的假设,这可能限制其处理大爆发或噪声簇的有效性。在未来的工作中,我们将进一步考虑集成更有效的语义学习,以更好地区分时空连续的噪声token。
致谢
本工作部分得到了中国国家重点研发计划项目(2023YFC3O817OO)、中国国家自然科学基金项目(U24B2O127和52172302)的支持。
参考文献
[参考文献列表与原文相同,此处省略]
