当前位置：首页 > news >正文

Coordinate Attention for Efficient Mobile Network Design 学习笔记

news 2025/10/8 6:19:45

摘要

背景：在移动网络的研究证明了通道注意力有助于提升模型性能
挑战：但他们忽略了位置信息，而位置信息对于生成空间选择注意力图很重要
方法：本文提出一种新的注意力制止用于移动网络，通过嵌入位置信息到通道注意力中，称之为“协调注意力”，在这种方式下，长距离依赖关系能被一个空间方向捕捉，同时准确的位置信息能被另一个空间方向保留。然后生成的特征图被编码成一对方向感知和位置敏感的注意力图，这些注意力图能互补地应用于输入特征图，以增强感兴趣的对象表示。
贡献：协调注意力简单且能灵活插入经典的移动网络，几乎没有计算开销，实验证明不仅有利于ImageNet分类，切在下游任务如对象检测和语义分割中也表现的很好

引言

背景：
通道注意力告诉模型“什么”和“在哪里“，被广泛研究
挑战：
然后在移动网络中的应用明显落后于大型网络，这是因为大多数注意力机制带来的计算开销对移动网络来说是负担不起的。
研究现状：
移动网络最流行的还是Squeeze-and-Excitation 注意力，他通过2D全局池化来计算通道注意力，以相当低的计算成本提供了显著的性能提升，但SE注意力只考虑编码通道内的信息但忽略了位置信息，这对于视觉任务中捕捉目标结构是关键的，后续的BAM和CBAM尝试探索位置信息通过减少输入张量的通道维度，然后通过卷积计算空间注意力来利用位置信息，但卷积只能捕获局部信息，对于视觉任务至关重要的远程依赖无法建模
提出新方法：
本文提出了一种新颖高效的注意力机制，通过将位置信息嵌入通道注意力，使得移动网络能在大区域内进行关注。为了减少由于2D全局池化层导致的位置信息损失，将通道注意力分解为两个平行的一维特征编码过程，将空间坐标有效集中到生成的注意力地图中，具体说，该方法通过两个一维全局池化层将垂直方向和水平方向的输入特征聚合到两个独立的方向感知特征图。然后这两个特定方向的特征图被分别编码到两个注意力图中，每个注意力图会沿着一个空间方向捕捉输入特征图的远程依赖关系。位置信息会保存在生存的注意力图上，然后通过乘法将两个注意力图应用于输入特征图，以强调注意力表示。
优势如下：
不仅可以捕获跨通道信息，还能捕获方向感知和位置敏感信息，有助于模型更准确的定位和识别感兴趣的物体
其次方法灵活轻量级，容易插入移动网络的经典构建块
第三作为一个预训练模型，协调注意力可以为移动网络下游任务显著提升。
贡献：
在ImageNet分类和下游任务上实现了性能提升，并有显著改进

预先准备

输入 $X=[x1,x2,…,xC]∈RC×H×WX=[x_1,x_2,\dots,x_C] \in \mathbb{R}^{C \times H \times W}$
输入为相同大小的 $Y=[y1,y2,…,yC]∈RC×H×WY=[y_1,y_2,\dots,y_C] \in \mathbb{R}^{C \times H \times W}$
![[Pasted image 20251007212609.png]]

先沿着空间上的水平方向和垂直方向进行平均池化，分别得到
$X_{avg}^x=AvgPool_x(X)$
$X_{avg}^y=AvgPool_y(X)$
然后将它们在空间维度上凭借拼接起来，得到 $Xavgxy∈RC×1×(W+H)X_{avg}^{xy} \in \mathbb{R}^{C \times 1 \times (W+H)}$
然后通过1x1卷积层的到中间映射 $\in \mathbb{R}^{C/r \times 1 \times (W+H)}$
沿着空间方向将F分割为两个向量表示
$Fx∈RC/r×1×HF_x \in \mathbb{R}^{C/r \times 1 \times H}$
$Fy∈RC/r×1×WF_y \in \mathbb{R}^{C/r \times 1 \times W}$
分别对他们再做卷积变换和Sigmoid门控机制的到权重表示
$F_x,F_y=Split(F)$
$W_x=sigmoid(Conv(F_x))$
$W_y=sigmoid(Conv(F_y))$
将空间方向的两个权重作用于输入，得
$\odot W_x \odot W_y$