当前位置：首页 > news >正文

频域分析和注意力机制

news 2025/9/18 22:24:54

频域分析是通过将信号从时间或空间域转换到频率域，揭示信号的主要频率成分和特征。这一转换有助于理解信号中的细节、模糊或噪声在不同频率上的分布，为改善信号恢复提供理论基础。
注意力机制则通过动态调整不同特征的权重，强调对任务最重要的部分，从而实现更加高效和有针对性的特征利用。它可以在模型中自动关注关键区域或频段，以提升整体性能和效果。

将频域分析和注意力机制相结合，模型不仅能捕捉到信号中最关键的频率成分（如高频细节或低频信号），还能通过注意力机制对这些频率成分进行动态优化和加权。这样，模型在处理模糊或噪声时，能够更有效地集中于对恢复结果最有价值的频段，从而达到更准确、更细腻的恢复效果。

论文题目：FSTA-SNN:Frequency-based Spatial-Temporal Attention Module for Spiking Neural Networks

中文题目：FSTA-SNN：基于频率的脉冲神经网络时空注意力模块

论文链接：https://arxiv.org/pdf/2501.14744

官方github：https://github.com/yukairong/FSTA-SNN

摘要：

脉冲神经网络（SNNs）作为人工神经网络（ANNs）的潜在替代方案，因其固有的能量效率而备受关注。由于SNNs中脉冲生成的稀疏性，往往会忽略对中间输出脉冲的深入分析和优化。这一疏忽极大地限制了SNNs内在的能量优势，也削弱了其在时空特征提取方面的优势，导致准确率不足且能耗增加。在本工作中，我们从时域和空域两个角度分析了SNNs固有的脉冲特性。在空间分析方面，我们发现浅层网络主要学习垂直方向的变化，而深层网络则逐渐学习水平方向的特征变化。在时间分析方面，我们观察到不同时间步的特征学习没有明显差异，表明增加时间步对特征学习的影响有限。基于这些分析结果，我们提出了一种频域空间-时间注意力（FSTA）模块，以增强SNNs的特征学习能力。该模块旨在通过抑制冗余的脉冲特征，提高特征提取效率。实验结果显示，引入FSTA模块显著降低了脉冲的发放率，并在多个数据集上优于最新的先进方法。

1. 研究背景

研究问题：脉冲神经网络（SNNs）由于其固有的能量效率而被视为人工神经网络（ANNs）的有前途替代品。然而，SNNs中脉冲生成的固有稀疏性导致中间输出脉冲的深入分析和优化常常被忽视，这限制了SNNs的固有能量效率，并减少了其在时空特征提取方面的优势，导致准确度不足和不必要的能量消耗。

研究难点：由于缺乏可靠的数学理论工具，对SNNs中脉冲计算的探索和分析受到限制。当前的研究主要依赖于轻量级的脉冲计数或基于注意力的策略，但这些方法存在准确度下降、改进有限或引入额外复杂性等问题，且没有进行全面的网络级学习偏好评估。

文献综述：在ANN领域，将频率应用于深度学习任务的有效性已经得到证实，例如通过傅里叶变换或小波变换将模型从空间域转换到频率域进行直接学习，或利用频率信息进行网络内的局部特征提取。在SNNs中，频率的应用方法多样，包括用于时间编码和引入自适应脉冲频率的神经元。与这些方法不同，本文关注于利用基于频率的网络输出脉冲激活，并提出在层间集成基于频率的注意力模块以最小化冗余并降低脉冲发放率。

2. 本文贡献:

DCT-based Spatial Attention Submodule（DCT——SA）：提出了基于离散余弦变换（DCT）的全频谱空间注意力。该模块首先对输入进行时间维度上的平均，然后使用DCT的全频带频率基提取完整的频率特征。通过线性层压缩这些特征并应用Sigmoid函数获得空间注意力权重矩阵，最后将权重矩阵与输入相乘以增强特征矩阵。（本推文介绍的重点）

Temporal Attention Submodule for Amplitude Regulation（TA）：为了调节幅度变化，引入了时间注意力子模块。该模块首先使用平均和最大池化操作聚合输入脉冲特征图的时间通道特征，然后通过引入可学习参数α和β来平衡全局（最大池化）和局部（平均池化）信息。通过线性层和Sigmoid函数获得不同时间步长的权重，最后将这些权重应用于输入以进行时间增强。

研究贡献：本研究提出了一个全面的SNN学习偏好研究框架，引入了基于频率的脉冲分析方法，为优化稀疏化和提高能量效率提供了理论基础。还提出了FSTA模块，这是一个即插即用的组件，通过最小数量的额外参数有效降低了脉冲发放率，同时提高了性能。

三、创新方法

DCT-based Spatial Attention Submodule主要基于二维离散余弦变换（2D DCT），其目的是为了提取完整的频率特征，从而更好地对SNNs的空间注意力进行优化：

1. 输入特征图的平均化处理：首先对输入特征图X沿着时间维度进行平均化处理，将形状从RT,C,H,W变换为RC,H,W。这一步骤是为了利用不同时间步长上频率分布的相似性，减少时间维度上的冗余。

2. DCT变换：接着使用DCT变换对平均化后的特征图Xmean进行分析，以提取完整的频率特征Freq。这里的Freq表示频率成分的数量，而Freq ∈ Rfreq,H,W。

3. 线性层压缩与Sigmoid函数应用：通过线性层对提取的频率特征Freq进行压缩，并应用Sigmoid函数得到空间注意力权重矩阵freqw ∈ RH,W。这个矩阵编码了在哪些位置需要强调或抑制。

4. 特征增强：最后，将得到的空间注意力权重矩阵freqw与输入特征图X进行点乘并相加，从而增强特征矩阵。整个过程如下所示：

代码

https://github.com/AIFengheshu/Plug-play-modules

Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention

通过多频率多尺度注意力实现模态无关的医学图像分割领域泛化

问题：基于深度学习的医学图像分析大多忽视了频率方差的重要性，而频率方差是实现模态不可知和领域可泛化模型的关键因素。也没有考虑到在深度监督下的多任务学习可能引起的潜在信息损失。

Scale：病灶在图像中所占的相对面积，用前景像素除以总像素

Frequency：功率谱比，用高频成分除以全频成分，反映图像中细节信息相对于整体信息的占比

分析：不同医学成像模态在尺度和频率两个维度上表现出明显的差异，且有一定相关性（但以往研究往往只关注一个维度）。多频率的差异比多尺度更明显。

MADGNet框架：

        MFMSA模块：
            多频通道注意力（MFCA）：利用2D离散余弦变换提取频域特征，生成通道注意力图，抑制噪声通道。
            多尺度空间注意力（MSSA）：提取各尺度的边界特征，并通过可学习参数控制前景和背景信息流，最终聚合特征。
        E-SDM模块：
            集成式多任务学习：通过前向流（从核心任务预测开始，逐步生成子任务伪预测，利用空间注意力聚焦区域）和后向流（通过级联方式集成子任务预测，补偿上采样损失，最终生成核心任务预测）减少上采样信息丢失。