UNet改进(34):ACmix-UNet混合架构的PyTorch
1. 背景介绍
1.1 UNet的局限性
UNet通过编码器-解码器结构和跳跃连接(Skip Connections)在医学图像分割、卫星图像分析等领域表现出色。然而,其核心仍依赖于卷积神经网络(CNN),卷积操作本质上是局部操作,难以捕捉图像中的全局上下文信息。
1.2 自注意力的优势
自注意力机制能够捕捉图像中任意两个位置之间的关系,适用于建模长距离依赖。ViT(Vision Transformer)的成功也证明了自注意力在视觉任务中的潜力。
1.3 为什么选择ACmix?
ACmix不是简单地将卷积和自注意力并联或串联,而是通过共享特征降维、分支处理、动态融合的方式,使得两个模块能够互补优势,在减少计算量的同时提升特征表达能力。
2. ACmix模块详解
2.1 结构概述
ACmix模块包含以下几个核心部分:
-
降维层:使用1x1卷积减少输入通道数,降低计算复杂度。
-
卷积分支:标准的3x3卷积,提取局部特征。
-
自注意力分支:通过Query、Key、Value卷积计算注意力权重,生成全局特征。