当前位置：首页 > news >正文

5月9日复盘-混合注意力机制

news 2025/11/1 16:42:28

5月9日复盘

四、混合注意力

混合注意力机制（Hybrid Attention Mechanism）是一种结合空间和通道注意力的策略，旨在提高神经网络的特征提取能力。

1. CBAM

Convolution Block Attention Module ，卷积块注意力模块

论文地址：https://arxiv.org/pdf/1807.06521

1.0 基本认知

CBAM是一种轻量级的注意力模块，它通过增加空间和通道两个维度的注意力，来提高模型的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一维的通道注意力图： $\mathcal{M}_{\mathbf{c}}\in\mathbb{R}^{C\times1\times1}$

二维的空间注意力图： $\mathbf{M_s}\in\mathbb{R}^{1\times H\times W}$

整个注意力过程可以概括为：
$\begin{aligned}\mathbf{F^{\prime}}&=\mathbf{M_{c}}(\mathbf{F})\otimes\mathbf{F},\\\mathbf{F^{\prime\prime}}&=\mathbf{M_{s}}(\mathbf{F^{\prime}})\otimes\mathbf{F^{\prime}}\end{aligned}$

1.1 通道注意力模块

通道注意力模块的目的是为每个通道生成一个注意力权重，整体流程如下图：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通道注意力模块机制公式如下：
$\begin{gathered} \mathrm{M_{c}(F)} =\sigma(MLP(AvgPool(\mathbf{F}))+MLP(MaxPool(\mathbf{F}))) \\ =\sigma(\mathbf{W_1}(\mathbf{W_0}(\mathbf{F_{avg}^c}))+\mathbf{W_1}(\mathbf{W_0}(\mathbf{F_{max}^c}))), \end{gathered}$
其中： $r$ 是缩放因子，用以减少参数量
$\mathrm{W}_0\in\mathbb{R}^{C/r\times C} \\ \mathrm{W}_1\in\mathbb{R}^{C\times C/r}$
通道注意力模块机制详情如下：

输入特征：输入特征图 $F$ 的尺寸为 $H \times W \times C$ 。
全局池化：
- 首先对 $F$ 进行全局的MaxPool和AvgPool，得到两个特征图，尺寸为 $1 \times 1 \times C$ 。
- MaxPool提取了局部强响应特征，AvgPool提取了全局视角。
共享多层感知器（MLP）：
- 池化后的2个特征向量分别送入一个共享MLP，它包含两个全连接层，用来处理和生成通道注意力。
- MLP的共享权重减少了参数量，同时确保两个特征向量的变换方式是一致的。
- MLP首先会降维为 $C / r$ ，然后升维为 $C$ 。
加法与激活：

MLP输出的两个特征向量逐元素相加后经Sigmoid后，生成维度为 $1 \times 1 \times C$ 的通道注意力图 $M_c$ ，表示每个通道的重要性。
输出：

通道注意力图 $M_c$ 与输入特征图 $F$ 逐通道相乘，生成经过通道注意力增强的特征图，维度不变的。

1.2 空间注意力模块

空间注意力模块通过卷积操作为特征图的每个空间位置生成权重，聚焦在图像中的关键区域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

空间注意力模块机制公式如下：
$\begin{aligned} \mathbf{M_s}(\mathbf{F})& \begin{aligned}&=\sigma(f^{7\times7}([AvgPool(\mathbf{F});MaxPool(\mathbf{F})]))\end{aligned} \\ &=\sigma(f^{7\times7}([\mathbf{F_{avg}^s};\mathbf{F_{max}^s}])), \end{aligned}$
其中：
$\mathbf{F_{avg}^s}\in\mathbb{R}^{1\times H\times W} \\ \mathbf{F_{max}^s}\in\mathbb{R}^{1\times H\times W}$

空间注意力模块机制详情如下：

输入特征：通道注意力模块的输出 $F^{'}$ 就是空间注意力模块的输入。
池化操作：
- 首先在 $F^{'}$ 的通道维度上进行全局的MaxPool和AvgPool，生成2个二维特征图，维度为 $H \times W \times 1$ 。
- 这样可以分别提取空间上最重要的局部和全局信息。
卷积层：

将池化得到的两个特征图按通道维度进行连接，形成一个 $H \times W \times 2$ 的特征图，并通过大小为 $7 \times 7$ 的卷积层处理。
激活与输出：
- 卷积层的输出经Sigmoid激活后，生成单通道的空间注意力图 $M_S$ ，维度为 $\times W \times 1$ 。
- 空间注意力图与经过通道注意力增强后的特征图 $F^{'}$ 逐元素相乘，输出最终的增强特征图。

1.3 不同策略效果对比

1.3.1 通道注意力

加入通道注意力：可以看的出来都比不用(baseline)效果要好

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.3.2 叠加空间注意力

在通道注意力的基础之上加入空间注意力，就是混合注意力：效果最好的就是CBAM，并且池化不需要参数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.3.3 叠加顺序

空间注意力和通道注意力位置调整效果对比：还是CBAM的效果好

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.3.4 不同模型

不同模型对比：主打一个CBAM就是好

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.3.5 轻量级模型

在一些轻量级模型上的效果还是很明显的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.3.6 注意力可视化

可视化的方式对比：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里插入图片描述

2. BAM

Bottleneck Attention Module，瓶颈注意力模块。

论文地址：https://arxiv.org/pdf/1807.06514

2.0 基本认知

BAM是通过在空间和通道两个维度上分别构建注意力模块，它们是并行处理的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中：形状不同的张量会自动进行广播机制
$\mathbf{M(F)=\sigma(M_c(F)+M_s(F)),} \\ \mathbf{F^{\prime}=F+F\otimes M(F),}$

2.1 通道注意力模块

通道注意力公式表达如下：
$\begin{aligned} \mathbf{M_c(F)}& =BN(MLP(A\nu gPool(\mathbf{F}))) \\ &=BN(\mathbf{W_1}(\mathbf{W_0}A\nu gPool(\mathbf{F})+\mathbf{b_0})+\mathbf{b_1}), \\ \text{其中：} \mathbf{W_0}\in\mathbb{R}^{C/r\times C},\mathbf{b_0}\in\mathbb{R}^{C}& ^{C/r},\mathbf{W_1}\in\mathbb{R}^{C\times C/r},\mathbf{b_1}\in\mathbb{R}^C. \end{aligned}$

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通道注意力流程如下：

全局平均池化：对输入特征 $F$ 进行GlobalAvgPooling，保留通道的重要全局信息。
全连接层：池化后的特征通过两个FC，第一个FC降维，第二个FC则恢复到原通道数 $C$ 。这一过程可以学习通道间的依赖关系。
通道注意力：通过激活函数 $S i g m o i d$ 生成通道注意力图 $M_c(F)$ ，用于对原始通道进行加权，强调重要通道，抑制不重要通道。

2.2 空间注意力模块

空间注意力公式表达如下：
$\mathbf{M_s}(\mathbf{F})=BN(f_3^{1\times1}(f_2^{3\times3}(f_1^{3\times3}(f_0^{1\times1}(\mathbf{F})))))$
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

空间注意力流程如下：

1×1卷积：对输入特征 $F$ 进行一次卷积操作，用于压缩通道维度并保持原始的空间信息，压缩因子是 $r = 16$ 。
膨胀卷积：使用两层膨胀卷积（Dilated Convolution），膨胀率为 $d = 4$ 。这样既扩大了感受野，又不增加参数量，帮助模型在空间维度上捕捉更广的上下文信息。
空间注意力生成：卷积操作生成一个空间注意力图 $M_s(F)$ ，用于标识出空间维度上哪些位置更重要。