当前位置：首页 > news >正文

[skip]CBAM

news 2025/9/23 15:47:11

论文题目：CBAM: Convolutional Block Attention Module

中文题目：CBAM: 注意力卷积模块

0摘要

我们提出了卷积块注意力模块（CBAM），一个简单而有效的前馈卷积神经网络注意力模块。给定一个中间特征图，我们的模块沿着两个独立的维度（通道和空间）顺序推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征细化。由于CBAM是一个轻量级和通用的模块，它可以无缝集成到任何CNN架构中，开销可以忽略不计，并且可以与基础CNN一起进行端到端的沿着训练。我们通过在ImageNet-1 K，MS COCO检测和VOC 2007检测数据集上进行广泛的实验来验证我们的CBAM。我们的实验表明，在分类和检测性能与各种模型的一致改善，证明CBAM的广泛适用性。代码和模型将公开。

关键词：物体识别，注意机制，门控卷积

1引言

卷积神经网络（CNN）基于其丰富的表示能力，显着推动了视觉任务的性能[1-3]。为了提高CNN的性能，最近的研究主要研究了网络的三个重要因素：深度，宽度和基数。

从 LeNet 架构[4]到残差式网络[5-8]，到目前为止，网络已变得更深，以获得更丰富的表征。VGGNet [9] 表明，将形状相同的图块堆叠在一起可以获得公平的结果。遵循相同的原则，ResNet [5]将剩余块的相同拓扑沿着与跳跃连接堆叠，以构建一个非常深的架构。GoogLeNet [10]表明宽度是提高模型性能的另一个重要因素。Zagoruyko和Komodakis [6]建议增加基于ResNet架构的网络的宽度。他们的研究表明，在 CIFAR 基准测试中，增加了宽度的 28 层 ResNet 可以超越 1001 层的极深 ResNet。Xception [11] 和 ResNeXt [7] 提出了增加网络基数的方法。他们的研究表明，基数（cardinality) 不仅能节省参数总数，还能带来比深度和宽度这两个因素更强的表示能力。

除了这些因素之外，我们还研究了网络架构计的另一个方面，注意力。注意力的重要性在以前的文献中已经被广泛研究[12-17]。注意力不仅能告诉你该把注意力集中在哪里，还能提高利益的代表性。我们的目标是通过使用注意力机制来提高表现力：聚焦重要特征，抑制不必要的特征。本文提出了一种新的网络模块，称为“卷积块注意模块”。由于卷积运算通过将交叉通道和空间信息混合在一起来提取信息丰富的特征，我们采用我们的模块来强调沿着这两个主要维度的有意义的特征：通道和空间轴。为了实现这一点，我们依次应用通道和空间注意模块（如图1所示），使得每个分支可以学习分别在通道和空间轴中参加“什么”和“哪里”。我们的模块通过学习强调或抑制哪些信息来有效地帮助信息在网络内流动。

在ImageNet-1 K数据集中，通过插入我们的微型模块，我们从各种基线网络中获得了精度提高，揭示了CBAM的有效性。我们使用grad-CAM [18]可视化训练的模型，并观察到CBAM增强的网络比其基线网络更正确地关注目标对象。考虑到这一点，我们推测性能提升来自于对不相关杂波的准确关注和降噪。最后，我们验证了MS COCO和VOC 2007数据集上对象检测的性能改进，由于我们精心设计了我们的模块是轻量级的，在大多数情况下，参数和计算的开销可以忽略不计。

贡献。我们的主要贡献有三个方面。

1.提出了一种简单有效的注意模块（CBAM），可广泛应用于提高神经网络的表示能力。

2.我们通过广泛的消融研究来验证我们的注意力模块的有效性。

3.通过插入我们的轻量级模块，我们验证了在多个基准测试（ImageNet-1 K、MS COCO和VOC 2007）中，各种网络的性能都有了很大提高。

2相关工作

网络架构。“网络架构”一直是最重要的视觉研究之一，因为精心设计的网络确保在各种应用中显着的性能改进。自从大规模CNN成功实现以来，已经提出了广泛的架构[19]。一种直观而简单的扩展方法是增加神经网络的深度[9]。Szegedy等人[10]介绍了一种使用多分支架构的深度Inception网络，其中每个分支都是精心设计的。由于梯度传播的困难，单纯增加深度会达到饱和。ResNet [5] 则提出了一种简单的身份跳跃连接，以缓解深度网络的优化问题。基于ResNet架构，已经开发了各种模型，如WideResNet [6]，Inception-ResNet [8]和ResNeXt [7]。WideResNet [6]提出了一种具有大量卷积滤波器和深度降低的残差网络。PyramidNet [20]是WideResNet的严格推广，其中网络的宽度逐渐增加。ResNeXt [7]建议使用分组卷积，并表明增加基数会达到更好的分类准确性。最近，Huang等人[21]提出了一种新的架构DenseNet。它迭代地将输入特征与输出特征连接起来，使每个卷积块能够接收来自所有先前块的原始信息。而最近的大多数网络架构方法主要针对三个因素深度[19，9，10，5]，宽度[10，22，6，8]和基数[7，10，11]。11]，我们专注于另一方面，“注意力”，它是人类视觉系统的一个奇特方面。

注意力机制。众所周知，注意力在人类感知中起着重要作用[23-25]。人类视觉系统的一个重要特性是，人们不会试图一次处理整个场景。相反，人类利用一系列局部瞥见并选择性地关注显著部分，以便更好地捕捉视觉结构[26]。

最近，已经有几种尝试[27，28]来结合注意力处理，以提高大规模分类任务中的CNNs的性能。Wang等人 [27]提出了使用编码器解码器风格的注意力模块的残差注意力网络。通过细化特征图，网络不仅表现良好，而且对噪声输入具有鲁棒性。我们不是直接计算3D注意力图，而是分解分别学习通道注意力和空间注意力的过程。用于3D特征图的单独注意力生成过程具有少得多的计算和参数，因此可以用作预先存在的基础CNN架构的即插即用模块。

与我们的工作更接近，Hu等人[28]引入了一个紧凑的模块来利用通道间的关系。在他们的挤压和激励模块中，他们使用全局平均池化特征来计算通道方向的注意力。然而，我们表明，为了推断精细的通道注意力，这些是次优特征，我们建议使用最大池化特征。它们也错过了空间注意力，这在决定关注“哪里”方面起着重要作用，如[29]所示。在我们的CBAM中，我们基于有效的架构利用空间和通道方面的注意力，并根据经验验证利用两

查看全文

http://www.dtcms.com/a/102577.html