当前位置: 首页 > news >正文

Efficient Multi-Scale Attention Module with Cross-Spatial Learning 学习笔记

摘要

背景

在CV任务中说明了产生更加可辨别的特征表示的通道或空间注意力机制的显著有效性

挑战

然而,建模跨通道关系使用通道维度压缩可能会导致提取深度视觉表示的副作用

方法

提出了EMA模块,致力于保留每一个通道的信息并减少计算开销,将部分通道重塑为批量维度,并将通道维度分组为多个子特征,使得空间语义特征在每个特征组中均匀分布。
具体说:
除了对全局信息进行编码以重新校准每个并行分支的通道加权外,两个并行分支的输出特征也被进一步聚合通过跨维度的交互以捕获像素级别的成对关系

贡献

进行了丰富的消融实验在图像分类和目标检测任务上来评估价值

引言

背景

跟随CNN的发展,在图像分类和目标检测领域出现了很多值得注意的网络拓扑,当将CNN扩展到多个卷积层时,表现出增强学习特征的显著能力。

挑战

然而,CNN的缺点是堆叠更多深度卷积需要大量内存和计算资源注意力机制由于灵活的结构特点,不仅增强了更具区别性的特征学习的表示,而且也能轻易插入CNN的主干网络。

研究现状

注意力机制主要分为空间注意力,通道注意力和他们二者一起
,作为通道注意力的代表,SE明确建模了跨维度交互以提取通道注意力,CBAM通过特征图中空间和通道维度的语义关系建立了跨通道和跨空间信息
管理模型复杂度最有效的一种方式是对通道维度进行降维,但降维操作可能会在深度提取视觉表征时带来副作用

提出新方法

跨维度相互作用有助于通道或空间注意力的预测。基于分组结果,修改了CA的顺序处理方法,提出了新的有效的多尺度注意力EMA,无需降维,用两个卷积核放置在并行子网络中,一个是1×11 \times 11×1卷积核,一个是3×33 \times 33×3卷积核

贡献

提出了一种新的跨空间学习方法并设计了多尺度并行子网络以建立短距和长距的依赖
考虑一种通用的方法,将部分通道维度重新整形为批次维度,避免通过通用卷积进行某种形式降维
除了在每个并行子网络中建立局部跨通道交互而不进行通道降维之外,还通过跨空间学习方法融合两个并行子网络的输出特征图
对比其他模型,EMA不止获得了更好的结果,并在所需参数上更高效

预先准备

输入:X∈RC×H×WX \in \mathbb{R}^{C \times H \times W}XRC×H×W
输出:output∈RC×H×Woutput \in \mathbb{R}^{C \times H \times W}outputRC×H×W

方法部分

动机

提出EMA,其中并行子网络模块能够帮助有效捕获跨维度交互并建立维度间的依赖关系

方法

并行子结构帮助网络避免过多的序列处理和大的深度
![[Pasted image 20251014213405.png]]

EMA模块如图所示,将讨论EMA如何学习通道表述,并在无需卷积运算的情况下进行通道降维,并为高级特征图产生更好的像素级注意力
对给定输入特征X在通道维度上氛围G组
EMA利用三条并行路线提取注意力权重描述符,两条并行路线在1×11\times 11×1分支采用两个一维全局平均池化来编码沿着两个空间方向的通道,第三条路线在3×33 \times 33×3分支仅堆叠单个核来捕获多尺度特征
将他们在空间维度拼接起来,的到Xavgxy∈RC/G×1×(W+H)X_{avg}^{xy} \in \mathbb{R}^{C/G \times 1\times (W+H)}XavgxyRC/G×1×(W+H),通过1×11 \times 11×1卷积将输出分解为两个向量,并用Sigmoid函数得到权重表示Wx=sigmoid(Fx)、Wy=sigmoid(Fy)W_x=sigmoid(F_x)、W_y=sigmoid(F_y)Wx=sigmoid(Fx)Wy=sigmoid(Fy)
最后通过权重矩阵对x进行调整
Xc=X⊙Wx⊙WyX_c=X \odot W_x \odot W_yXc=XWxWy

跨空间学习

这里依然是两个分支,设3×33 \times 33×3分支输出的Xs∈RC/G×H×W)X_s \in \mathbb{R}^{C/G \times H \times W)}XsRC/G×H×W)

对于1×11 \times 11×1分支:
XcX_cXc通过分组归一化后利用2D平均池化对全局空间信息进行编码
X1∈RC/G×1×1=AvgPool(GroupNorm(Xc))X_1 \in \mathbb{R}^{C/G \times 1 \times1}=AvgPool(GroupNorm(X_c))X1RC/G×1×1=AvgPool(GroupNorm(Xc))
X1X_1X1通过Softmax后得到的归一化通道描述符与XsX_sXs相乘,得到1×11 \times 11×1尺度下全局空间注意力表示Y1∈R1×H×WY_1 \in \mathbb{R}^{1 \times H \times W}Y1R1×H×W
同样操作利用2D平均池化层对3×33 \times 33×3分支的输出XsX_sXs相乘后,通过softmax+reshape操作得到归一化通道描述符与1×11 \times 11×1分支的输出相乘,以获得3×33 \times 33×3尺度下的全局空间注意力表示
Y2∈R1×H×WY_2 \in \mathbb{R}^{1 \times H \times W}Y2R1×H×W
将两个描述符相加并应用sigmoid门控函数得到权重表示
W=sigmoid(Y1+Y2)W=sigmoid(Y_1+Y_2)W=sigmoid(Y1+Y2)
outi=W⊙Yout_i=W \odot Youti=WY
当前输出的是一个分组内的结果,将G组结果concat后得到最后输出

output∈RC×H×W=concat(out1,out)2,⋯,outg)output \in \mathbb{R}^{C \times H \times W}=concat(out_1,out)2,\cdots,out_g)outputRC×H×W=concat(out1,out)2,,outg)

实验

数据集

在CIFAR-100和ImageNet-1k上进行图像分类,对MS COCO和visDrone2019数据集进行目标检测
EMA模块中的组G的数量被设置为32。所有实验都在配备有两个RTX 2080Ti GPUs and on Intel® Xeon Silver 4112 CPU@2.60Ghz.上运行。

图像分类

![[Pasted image 20251014215643.png]]

在CIFAR数据集上与ResNet50相比,EMA在Top-1准确度方面实现了3.43%的增益,比Top-5准确度提高了1.96%。在几乎相同的计算复杂度下
此外,使用ResNet 101作为骨干模型,我们将EMA与CA进行了比较。显然,我们的EMA在参数较少的情况下大幅优于CA(42.96M vs.46.22M)和更低的计算成本。

在ImageNet-1k上选择MobileNet作为基线模型,EMA模型达到了最新水平实验结果表明,CA模型的参数为3.95M,而本文提出的EMA模型的参数仅为3.55M,比CA模型的参数要小。
![[Pasted image 20251014215831.png]]

目标检测

![[Pasted image 20251014215959.png]]

在COCO数据集上,是用Yolov5s作为主干网络,EMA和CA收益,EMA在mAP方面的表现略好于CA(0.5).另外,可以看出EMA的模型大小为7.24M,仅比YOLOv5s、ECA和SA模型的基线略大0.01M虽然EMA的FLOP为16.53M,仅比YOLOv5s的基线大0.03M,但EMA达到了mAP(0.5)57.8%和mAP(0.5:0.95)的38.4%,这是显着高于其他注意力策略。一般来说,该模型尺寸适合部署在移动的终端上,具有实际应用意义。

在VisDrone数据集上,在原有YOLOv 5x的基础上增加了一个微小目标检测头(v6.0并将EMA集成到预测分支中,以达到利用自注意机制挖掘预测潜力的目的。EMA比基线方法多增加了0.22 M的参数,在mAP(0.5)和mAP(0.5:0.95)上分别比YOLOv 5x提高了0.31%和0.4%,这些结果表明EMA是一个有效的目标检测模块,进一步证明了本文EMA方法的有效性。

消融实验

![[Pasted image 20251014220204.png]]

使用ResNet50作为基线模型来验证EMA的有效性,EMA_no是不使用EMA,EMA_16是分组大小为16,EMA_32是分组大小为32,与32相比,16会导致较高的FLOP和网络参数,这是由于将通道维度变为批次维度,从而降低了模型参数,EMA能调用模型分布在多个通道上更多的批次维度进行处理,对比EMA_no,EMA_32在相似的参数和FLOP下达到了Top-1 80.69%和Top-5 95.59%

结论

方法

本文系统性的研究了注意力机制的属性,这导致了把它们整合进CNN的原则性问题
提出了新的见解关于CNN如何通过通用的方法避免通过通用的卷积进行某种方式的降维,同时拥有良好的泛化和计算能力
基于灵活和轻量级的特点提出了EMA

效果

EMA能更适用于语义分割等广泛的应用中,并可堆叠到其他深度的CNN结构,以显著增强特征表示能力

tips:对于消融实验中的通道维度重塑为批次维度能减少模型参数的意思:
将通道维度reshape为批次维度
假设输入特征为 (batch_size=16, channel=256, height=32, width=32),若要将通道分为 G=32 组(每组含 256/32=8 个通道),可通过重塑变为:
(batch_size×G=16×32=512, channel_per_group=8, height=32, width=32)
这种操作只是改变张量的 “组织形式”(把 “16 个样本,每个样本 256 个通道” 变成 “512 个样本(子特征),每个子特征 8 个通道”),没有新增任何 “权重” 或 “偏置”,因此不会产生额外参数
而EMA_32的参数和EMA_no相同的原因
是因为通道重塑到批次维度会减少卷积部分的参数

  • 若不分组,直接用 1×1 卷积处理 256 个通道,卷积核参数为 1×1×256×256 = 65536
  • 若分组后(每组 8 个通道),用 1×1 卷积处理每组的 8 个通道,卷积核参数为 1×1×8×8 = 64。若有 32 组,总参数为 32×64 = 2048,远小于不分组的 65536。
    从而大幅减少整体参数量
http://www.dtcms.com/a/483927.html

相关文章:

  • 国内专门做情侣的网站商城广州市建设工程信息管理平台
  • 游仙移动网站建设有意义网站
  • 小红书MCP AI自动工作流
  • QPSK信号载波同步技术---四相Costas 环法
  • android开发和网站开发wordpress对比phpcms
  • [嵌入式系统-111]:瑞芯微RK3588芯片
  • 广东顺德网站建设在线买房网站建设 方案
  • 深入剖析 std::map 的红黑树实现机制
  • 网站建设工作室怎么接单做网站推广挣多少钱
  • 免登录!免安装ClI,Claude Code官方插件接入API使用教程
  • 网站制作有哪些种类网站设计包括
  • 英文外贸网站建设网站设计方案网上开店网站
  • 为了庆祝2025英雄联盟全球总决赛开启,我用HTML+CSS+JS制作了LOL官方网站
  • Server 14 ,Windows 11 下 Nginx 安装与自启动配置攻略( Windows 与 Nginx )
  • 哪些网站是用php做的北京网站开发工程师
  • Godot Engine 跨平台构建完全指南
  • 怎么做自己网站的API成都展示型网页开发公司
  • Docker 监控体系总结
  • 公司网站标题优化网站建设运营规划
  • 台州cms建站系统网站建设要注意哪些问题
  • 杭州网站推广方式建设官网站
  • 地形匹配导航技术
  • 网站的图书资源建设wordpress 5.0.2 中文
  • 二分查找模板全集
  • FPGA基础 -- cocotb仿真之任务调度cocotb.start_soon与asyncio的使用注意事项
  • 图片生成网站建站之星多语言
  • 镇江牛吧企业网站建设与推广公司谷歌推广新手教程
  • 免费扑克网站域名查询官网入口
  • Grafana图表与电话交换机的结合
  • 【vue】NoticeBar:滚动通知栏组件手动实现(内容、速度、循环间隔可配置)