当前位置：首页 > news >正文

增强自注意力机制CeAtt，增强局部细节！

news 2025/9/18 23:46:26

1. 研究背景:

研究问题：在恶劣天气条件下捕捉高质量图像是一个具有挑战性的任务，因为复杂的降质现象如颜色失真、模糊、噪声和低对比度会直接影响视觉质量，并对下游计算机视觉任务（如目标识别和场景理解）造成困难。
研究难点：传统方法依赖手工制作的先验知识，但这些方法在处理复杂天气条件时效果有限。近年来，基于卷积神经网络（CNN）的方法被提出，但它们通常针对单一特定任务设计，可能无法很好地处理多天气恢复问题。
相关工作：（1）恶劣天气下的图像恢复: 包括去雨、去雾、去雪和多天气恢复。传统模型方法关注探索适当的天气相关先验知识，而数据驱动方法则利用深度学习技术来解决这些问题。（2）图像恢复中的视觉Transformer: 近年来，视觉Transformer在低级图像恢复中取得了巨大成功。例如，IPT、SwinIR和Uformer等方法展示了Transformer在图像恢复中的潜力。

2. 本文贡献:

提出了统一框架GridFormer：本文提出了一种新颖且统一的框架——GridFormer，专门用于在恶劣天气条件下进行图像恢复。GridFormer通过将残差密集变压器块（RDTBs）嵌入到网格结构中，从而能够高效捕捉分层的图像特征。网格结构有助于整合不同空间尺度的上下文信息，增强网络有效恢复图像的能力。
残差密集变压器块（RDTB）：GridFormer的关键单元是残差密集变压器块（RDTB），其中包含具有密集连接的紧凑增强型变压器层以及局部跳过连接的局部特征融合。紧凑增强型变压器层采用采样器和紧凑自注意力机制提高效率，并通过局部增强阶段加强局部细节。

三、创新方法

一、GridFormer整体框架：

图2 GridFormer架构。该架构由网格头部、网格融合模块和网格尾部组成。金字塔降质图像X0、X1、X2首先输入网格头部以提取层级初始特征F0、F1、F2。这些初始特征通过网格融合模块进一步精炼，生成特征Fˆ0、Fˆ1、Fˆ2。最后，网格尾部重建出清晰图像Xˆ0、Xˆ1、Xˆ2。

图2所示，GridFormer包含三条从天气退化图像到复原图像的路径，每条路径在不同图像分辨率下执行复原任务。在GridFormer中，高分辨率路径持续与网络中的低分辨率路径进行动态交互以精准消除天气退化效应，而低分辨率路径凭借更大的感受野提供有价值的全局信息。每条路径由七个GridFormer层构成，不同路径之间通过下采样层、上采样层和加权注意力融合单元相互连接，共同构成GridFormer的列结构。得益于三行七列的网格结构，不同分辨率的信息得以高效共享。具体而言，GridFormer由三个核心组件构成：网格头部（GH）、网格融合模块（GFM）和网格尾部（GT）。

二、Compact-enhanced Attention（紧凑增强自注意力机制）：

图5：提出的紧凑增强型Transformer层示意图，由紧凑增强注意力层和前馈网络（FFN）组成。左图：紧凑增强注意力层包含三个步骤——特征采样、紧凑自注意力和局部增强。H、W和C分别表示特征图的高度、宽度和通道数。r为特征采样率。©和⊕符号分别表示拼接操作和逐元素求和操作。

Compact-enhanced Attention（紧凑增强自注意力机制）实现了高效的通道间建模，同时减少了计算复杂度并增强了局部细节的表达能力。

1. 输入特征图的分割：通过沿通道维度分割实现拆分操作，生成z1 ∈ R^{H/r × W/r × C/2}和z2 ∈ R^{H/r × W/r × C/2}。

2. 投影与多头自注意力：对z1和z2应用带有重塑操作的卷积层，将其分别映射为查询向量（q1, q2 ∈ R^{C/2 × HW/r^2}）、键向量（k1, k2 ∈ R^{C/2 × HW/r^2}）和值向量（v1, v2 ∈ R^{C/2 × HW/r^2}）。这些投影操作将特征映射到适合多头自注意力计算的空间。为了增强特征交互，采用了“值交换”的策略，即 z_1 和 z_2 之间的值（v_1 和 v_2）进行交换，从而促进不同特征之间的信息融合。相比于传统的查询交换方法，这种值交换策略在实验中被证明对恢复性能更有益。

3. 多头自注意力结果融合：通过拼接两个多头自注意力模块的输出并调整其维度，得到最终结果Zˆ。所提出的紧凑型自注意力机制可表述为：