当前位置：首页 > news >正文

Efficient Multi-Scale Attention Module with Cross-Spatial Learning 学习笔记

news 2025/10/15 14:43:07

摘要

背景

在CV任务中说明了产生更加可辨别的特征表示的通道或空间注意力机制的显著有效性

挑战

然而，建模跨通道关系使用通道维度压缩可能会导致提取深度视觉表示的副作用

方法

提出了EMA模块，致力于保留每一个通道的信息并减少计算开销，将部分通道重塑为批量维度，并将通道维度分组为多个子特征，使得空间语义特征在每个特征组中均匀分布。
具体说：
除了对全局信息进行编码以重新校准每个并行分支的通道加权外，两个并行分支的输出特征也被进一步聚合通过跨维度的交互以捕获像素级别的成对关系

贡献

进行了丰富的消融实验在图像分类和目标检测任务上来评估价值

引言

背景

跟随CNN的发展，在图像分类和目标检测领域出现了很多值得注意的网络拓扑，当将CNN扩展到多个卷积层时，表现出增强学习特征的显著能力。

挑战

然而，CNN的缺点是堆叠更多深度卷积需要大量内存和计算资源注意力机制由于灵活的结构特点，不仅增强了更具区别性的特征学习的表示，而且也能轻易插入CNN的主干网络。

研究现状

注意力机制主要分为空间注意力，通道注意力和他们二者一起
，作为通道注意力的代表，SE明确建模了跨维度交互以提取通道注意力，CBAM通过特征图中空间和通道维度的语义关系建立了跨通道和跨空间信息
管理模型复杂度最有效的一种方式是对通道维度进行降维，但降维操作可能会在深度提取视觉表征时带来副作用

提出新方法

跨维度相互作用有助于通道或空间注意力的预测。基于分组结果，修改了CA的顺序处理方法，提出了新的有效的多尺度注意力EMA，无需降维，用两个卷积核放置在并行子网络中，一个是 $\times 1$ 卷积核，一个是 $\times 3$ 卷积核

贡献

提出了一种新的跨空间学习方法并设计了多尺度并行子网络以建立短距和长距的依赖
考虑一种通用的方法，将部分通道维度重新整形为批次维度，避免通过通用卷积进行某种形式降维
除了在每个并行子网络中建立局部跨通道交互而不进行通道降维之外，还通过跨空间学习方法融合两个并行子网络的输出特征图
对比其他模型，EMA不止获得了更好的结果，并在所需参数上更高效

预先准备

输入： $\in \mathbb{R}^{C \times H \times W}$
输出: $\in \mathbb{R}^{C \times H \times W}$

方法部分

动机

提出EMA，其中并行子网络模块能够帮助有效捕获跨维度交互并建立维度间的依赖关系

方法

并行子结构帮助网络避免过多的序列处理和大的深度
![[Pasted image 20251014213405.png]]

EMA模块如图所示，将讨论EMA如何学习通道表述，并在无需卷积运算的情况下进行通道降维，并为高级特征图产生更好的像素级注意力
对给定输入特征X在通道维度上氛围G组
EMA利用三条并行路线提取注意力权重描述符，两条并行路线在 $1×11\times 1$ 分支采用两个一维全局平均池化来编码沿着两个空间方向的通道，第三条路线在 $\times 3$ 分支仅堆叠单个核来捕获多尺度特征
将他们在空间维度拼接起来，的到 $Xavgxy∈RC/G×1×(W+H)X_{avg}^{xy} \in \mathbb{R}^{C/G \times 1\times (W+H)}$ ,通过 $\times 1$ 卷积将输出分解为两个向量，并用Sigmoid函数得到权重表示 $W_x=sigmoid(F_x)、W_y=sigmoid(F_y)$
最后通过权重矩阵对x进行调整
$Xc=X⊙Wx⊙WyX_c=X \odot W_x \odot W_y$

跨空间学习

这里依然是两个分支，设 $\times 3$ 分支输出的 $Xs∈RC/G×H×W)X_s \in \mathbb{R}^{C/G \times H \times W)}$

对于 $\times 1$ 分支：
将 $X_c$ 通过分组归一化后利用2D平均池化对全局空间信息进行编码
$X1∈RC/G×1×1=AvgPool(GroupNorm(Xc))X_1 \in \mathbb{R}^{C/G \times 1 \times1}=AvgPool(GroupNorm(X_c))$
将 $X_1$ 通过Softmax后得到的归一化通道描述符与 $X_s$ 相乘，得到 $\times 1$ 尺度下全局空间注意力表示 $Y1∈R1×H×WY_1 \in \mathbb{R}^{1 \times H \times W}$
同样操作利用2D平均池化层对 $\times 3$ 分支的输出 $X_s$ 相乘后，通过softmax+reshape操作得到归一化通道描述符与 $\times 1$ 分支的输出相乘，以获得 $\times 3$ 尺度下的全局空间注意力表示
$Y2∈R1×H×WY_2 \in \mathbb{R}^{1 \times H \times W}$
将两个描述符相加并应用sigmoid门控函数得到权重表示
$W=sigmoid(Y_1+Y_2)$
$outi=W⊙Yout_i=W \odot Y$
当前输出的是一个分组内的结果，将G组结果concat后得到最后输出

$\in \mathbb{R}^{C \times H \times W}=concat(out_1,out)2,\cdots,out_g)$

实验

数据集

在CIFAR-100和ImageNet-1k上进行图像分类，对MS COCO和visDrone2019数据集进行目标检测
EMA模块中的组G的数量被设置为32。所有实验都在配备有两个RTX 2080Ti GPUs and on Intel® Xeon Silver 4112 CPU@2.60Ghz.上运行。

图像分类

![[Pasted image 20251014215643.png]]

在CIFAR数据集上与ResNet50相比，EMA在Top-1准确度方面实现了3.43%的增益，比Top-5准确度提高了1.96%。在几乎相同的计算复杂度下
此外，使用ResNet 101作为骨干模型，我们将EMA与CA进行了比较。显然，我们的EMA在参数较少的情况下大幅优于CA（42.96M vs.46.22M）和更低的计算成本。

在ImageNet-1k上选择MobileNet作为基线模型，EMA模型达到了最新水平实验结果表明，CA模型的参数为3.95M，而本文提出的EMA模型的参数仅为3.55M，比CA模型的参数要小。
![[Pasted image 20251014215831.png]]

目标检测

![[Pasted image 20251014215959.png]]

在COCO数据集上，是用Yolov5s作为主干网络，EMA和CA收益，EMA在mAP方面的表现略好于CA（0.5）.另外，可以看出EMA的模型大小为7.24M，仅比YOLOv5s、ECA和SA模型的基线略大0.01M虽然EMA的FLOP为16.53M，仅比YOLOv5s的基线大0.03M，但EMA达到了mAP（0.5）57.8%和mAP（0.5：0.95）的38.4%，这是显着高于其他注意力策略。一般来说，该模型尺寸适合部署在移动的终端上，具有实际应用意义。

在VisDrone数据集上，在原有YOLOv 5x的基础上增加了一个微小目标检测头（v6.0并将EMA集成到预测分支中，以达到利用自注意机制挖掘预测潜力的目的。EMA比基线方法多增加了0.22 M的参数，在mAP（0.5）和mAP（0.5：0.95）上分别比YOLOv 5x提高了0.31%和0.4%，这些结果表明EMA是一个有效的目标检测模块，进一步证明了本文EMA方法的有效性。

消融实验

![[Pasted image 20251014220204.png]]

使用ResNet50作为基线模型来验证EMA的有效性，EMA_no是不使用EMA，EMA_16是分组大小为16，EMA_32是分组大小为32，与32相比，16会导致较高的FLOP和网络参数，这是由于将通道维度变为批次维度，从而降低了模型参数，EMA能调用模型分布在多个通道上更多的批次维度进行处理，对比EMA_no，EMA_32在相似的参数和FLOP下达到了Top-1 80.69%和Top-5 95.59%

结论

方法

本文系统性的研究了注意力机制的属性，这导致了把它们整合进CNN的原则性问题
提出了新的见解关于CNN如何通过通用的方法避免通过通用的卷积进行某种方式的降维，同时拥有良好的泛化和计算能力
基于灵活和轻量级的特点提出了EMA

效果

EMA能更适用于语义分割等广泛的应用中，并可堆叠到其他深度的CNN结构，以显著增强特征表示能力

tips:对于消融实验中的通道维度重塑为批次维度能减少模型参数的意思：
将通道维度reshape为批次维度
假设输入特征为 (batch_size=16, channel=256, height=32, width=32)，若要将通道分为 G=32 组（每组含 256/32=8 个通道），可通过重塑变为：
(batch_size×G=16×32=512, channel_per_group=8, height=32, width=32)。
这种操作只是改变张量的 “组织形式”（把 “16 个样本，每个样本 256 个通道” 变成 “512 个样本（子特征），每个子特征 8 个通道”），没有新增任何 “权重” 或 “偏置”，因此不会产生额外参数。
而EMA_32的参数和EMA_no相同的原因
是因为通道重塑到批次维度会减少卷积部分的参数

若不分组，直接用 1×1 卷积处理 256 个通道，卷积核参数为 1×1×256×256 = 65536。
若分组后（每组 8 个通道），用 1×1 卷积处理每组的 8 个通道，卷积核参数为 1×1×8×8 = 64。若有 32 组，总参数为 32×64 = 2048，远小于不分组的 65536。
从而大幅减少整体参数量

查看全文

http://www.dtcms.com/a/483927.html