频域分析和注意力机制
频域分析是通过将信号从时间或空间域转换到频率域,揭示信号的主要频率成分和特征。这一转换有助于理解信号中的细节、模糊或噪声在不同频率上的分布,为改善信号恢复提供理论基础。
注意力机制则通过动态调整不同特征的权重,强调对任务最重要的部分,从而实现更加高效和有针对性的特征利用。它可以在模型中自动关注关键区域或频段,以提升整体性能和效果。
将频域分析和注意力机制相结合,模型不仅能捕捉到信号中最关键的频率成分(如高频细节或低频信号),还能通过注意力机制对这些频率成分进行动态优化和加权。这样,模型在处理模糊或噪声时,能够更有效地集中于对恢复结果最有价值的频段,从而达到更准确、更细腻的恢复效果。
论文题目:FSTA-SNN:Frequency-based Spatial-Temporal Attention Module for Spiking Neural Networks
中文题目:FSTA-SNN:基于频率的脉冲神经网络时空注意力模块
论文链接:https://arxiv.org/pdf/2501.14744
官方github:https://github.com/yukairong/FSTA-SNN
摘要:
脉冲神经网络(SNNs)作为人工神经网络(ANNs)的潜在替代方案,因其固有的能量效率而备受关注。由于SNNs中脉冲生成的稀疏性,往往会忽略对中间输出脉冲的深入分析和优化。这一疏忽极大地限制了SNNs内在的能量优势,也削弱了其在时空特征提取方面的优势,导致准确率不足且能耗增加。在本工作中,我们从时域和空域两个角度分析了SNNs固有的脉冲特性。在空间分析方面,我们发现浅层网络主要学习垂直方向的变化,而深层网络则逐渐学习水平方向的特征变化。在时间分析方面,我们观察到不同时间步的特征学习没有明显差异,表明增加时间步对特征学习的影响有限。基于这些分析结果,我们提出了一种频域空间-时间注意力(FSTA)模块,以增强SNNs的特征学习能力。该模块旨在通过抑制冗余的脉冲特征,提高特征提取效率。实验结果显示,引入FSTA模块显著降低了脉冲的发放率,并在多个数据集上优于最新的先进方法。
1. 研究背景
研究问题:脉冲神经网络(SNNs)由于其固有的能量效率而被视为人工神经网络(ANNs)的有前途替代品。然而,SNNs中脉冲生成的固有稀疏性导致中间输出脉冲的深入分析和优化常常被忽视,这限制了SNNs的固有能量效率,并减少了其在时空特征提取方面的优势,导致准确度不足和不必要的能量消耗。
研究难点:由于缺乏可靠的数学理论工具,对SNNs中脉冲计算的探索和分析受到限制。当前的研究主要依赖于轻量级的脉冲计数或基于注意力的策略,但这些方法存在准确度下降、改进有限或引入额外复杂性等问题,且没有进行全面的网络级学习偏好评估。
文献综述:在ANN领域,将频率应用于深度学习任务的有效性已经得到证实,例如通过傅里叶变换或小波变换将模型从空间域转换到频率域进行直接学习,或利用频率信息进行网络内的局部特征提取。在SNNs中,频率的应用方法多样,包括用于时间编码和引入自适应脉冲频率的神经元。与这些方法不同,本文关注于利用基于频率的网络输出脉冲激活,并提出在层间集成基于频率的注意力模块以最小化冗余并降低脉冲发放率。
2. 本文贡献:
DCT-based Spatial Attention Submodule(DCT——SA):提出了基于离散余弦变换(DCT)的全频谱空间注意力。该模块首先对输入进行时间维度上的平均,然后使用DCT的全频带频率基提取完整的频率特征。通过线性层压缩这些特征并应用Sigmoid函数获得空间注意力权重矩阵,最后将权重矩阵与输入相乘以增强特征矩阵。(本推文介绍的重点)
Temporal Attention Submodule for Amplitude Regulation(TA):为了调节幅度变化,引入了时间注意力子模块。该模块首先使用平均和最大池化操作聚合输入脉冲特征图的时间通道特征,然后通过引入可学习参数α和β来平衡全局(最大池化)和局部(平均池化)信息。通过线性层和Sigmoid函数获得不同时间步长的权重,最后将这些权重应用于输入以进行时间增强。
研究贡献:本研究提出了一个全面的SNN学习偏好研究框架,引入了基于频率的脉冲分析方法,为优化稀疏化和提高能量效率提供了理论基础。还提出了FSTA模块,这是一个即插即用的组件,通过最小数量的额外参数有效降低了脉冲发放率,同时提高了性能。
三、创新方法
DCT-based Spatial Attention Submodule主要基于二维离散余弦变换(2D DCT),其目的是为了提取完整的频率特征,从而更好地对SNNs的空间注意力进行优化:
1. 输入特征图的平均化处理:首先对输入特征图X沿着时间维度进行平均化处理,将形状从RT,C,H,W变换为RC,H,W。这一步骤是为了利用不同时间步长上频率分布的相似性,减少时间维度上的冗余。
2. DCT变换:接着使用DCT变换对平均化后的特征图Xmean进行分析,以提取完整的频率特征Freq。这里的Freq表示频率成分的数量,而Freq ∈ Rfreq,H,W。
3. 线性层压缩与Sigmoid函数应用:通过线性层对提取的频率特征Freq进行压缩,并应用Sigmoid函数得到空间注意力权重矩阵freqw ∈ RH,W。这个矩阵编码了在哪些位置需要强调或抑制。
4. 特征增强:最后,将得到的空间注意力权重矩阵freqw与输入特征图X进行点乘并相加,从而增强特征矩阵。整个过程如下所示:
代码
https://github.com/AIFengheshu/Plug-play-modules
Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention
通过多频率多尺度注意力实现模态无关的医学图像分割领域泛化
问题:基于深度学习的医学图像分析大多忽视了频率方差的重要性,而频率方差是实现模态不可知和领域可泛化模型的关键因素。也没有考虑到在深度监督下的多任务学习可能引起的潜在信息损失。
Scale:病灶在图像中所占的相对面积,用前景像素除以总像素
Frequency:功率谱比,用高频成分除以全频成分,反映图像中细节信息相对于整体信息的占比
分析:不同医学成像模态在尺度和频率两个维度上表现出明显的差异,且有一定相关性(但以往研究往往只关注一个维度)。多频率的差异比多尺度更明显。
MADGNet框架:
MFMSA模块:
多频通道注意力(MFCA):利用2D离散余弦变换提取频域特征,生成通道注意力图,抑制噪声通道。
多尺度空间注意力(MSSA):提取各尺度的边界特征,并通过可学习参数控制前景和背景信息流,最终聚合特征。
E-SDM模块:
集成式多任务学习:通过前向流(从核心任务预测开始,逐步生成子任务伪预测,利用空间注意力聚焦区域)和后向流(通过级联方式集成子任务预测,补偿上采样损失,最终生成核心任务预测)减少上采样信息丢失。
分块介绍:
(1)特征提取
使用预训练的ResNeSt(由拆分注意力残差块组成)从输入图像中提取特征图。通过二维卷积将通道数减少到(每个阶段的通道数量会影响解码器的复杂性),融合编码器和前一解码块的特征(恢复特征到输入图像的分辨率)
(2)尺度分解
通过缩减通道和分辨率来减少输入特征图的计算量,以提高计算效率
(3) 多频率通道注意力(MFCA)
频率域中对每个尺度分支的特征进行特征提取,采用二维离散余弦变换生成基图像D
然后每个被压缩为
,
,
,分别通过全局平均池化、全局最大池化和全局最小池化压缩后通过两个全连接层
,
(r为缩减率):
最后根据第s个尺度分支的通道注意力图重新校准特征图
(4)多尺度空间注意力(MSSA)
MFCA中校准后的特征图用于确定判别性边界线索,区分不同尺度的空间域。MSSA为每个尺度分支引入两个可学习参数来控制前景和背景的信息流
,
其中F为前景注意力图,B=1-F为背景注意力图。同时恢复第s个尺度分支的通道数为Cs,并在上采样后应用残差连接,聚合不同尺度分支的精细特征,得到空间精细特征图,其中A为特征聚合函数。
(5)Ensemble Multi-task Learning with Deep Supervision深度监督的集成多任务学习
这是一种众所周知的可以增强模型表征能力的训练策略。但是低分辨率特征图必须通过上采样提升至高分辨率,以便计算真实标签与预测结果之间的损失函数,这种大幅度的上采样操作会因预测细节边界和结构时出现的信息丢失,干扰模型的表征能力。
为此,提出一种结合深度监督的多任务学习新策略集成子解码模块(E-SDM),核心思想是通过在上采样后整合子任务预测来补充信息损失,从而改进核心任务预测。
a)并行多任务学习vs(b)集成多任务学习
Forward Stream前向流:核心任务和子任务伪预测在第i个解码阶段生成,其中。通过空间注意力机制,从核心伪预测出发,确保后续子任务预测聚焦于特定区域。
Backward Stream反向流:
可以递归地从最终的核心任务重写:
损失函数:
对于深度监督的多任务学习,定义核心任务为区域分割R,子任务为边界检测B和距离图回归D。
区域预测的损失函数为:(加权IOU损失+交叉熵损失)。
定义边界检测B的损失函数为交叉熵损失,距离图回归D的损失函数为均方误差损失。
- 论文链接:arxiv.org/pdf/2405.06284
- 代码连接:GitHub - Inha-CVAI/MADGNet: CVPR2024 Accepted Paper
CVPR2024 Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Mul-CSDN博客