(论文速读)关注特征细化的图像恢复自适应稀疏变换
论文信息
论文题目:Adapt or Perish: Adaptive Sparse Transformer with Attentive Feature Refinement for Image Restoration(适应或消亡:具有关注特征细化的图像恢复自适应稀疏变换)
会议:CVPR2024
摘要:基于转换器的方法在图像恢复任务中取得了很好的性能,因为它们能够对远程依赖关系进行建模,这对于恢复清晰的图像至关重要。虽然各种有效的注意机制设计已经解决了与使用变压器相关的密集计算,但它们通常涉及冗余信息和来自不相关区域的噪声交互。在这项工作中,我们提出了一种自适应稀疏变压器(AST)来减轻不相关区域的噪声相互作用,并消除空间和信道域的特征冗余。AST包括两个核心设计,即自适应稀疏自关注(ASSA)块和特征细化前馈网络(FRFN)。具体来说,ASSA是使用两分支范式自适应计算的,其中引入了稀疏分支来过滤低查询键匹配分数对聚合特征的负面影响,而密集分支确保了足够的信息流通过网络来学习判别表示。同时,FRFN采用增强简化方案消除通道中的特征冗余,增强了对清晰潜图像的恢复。在常用基准上的实验结果表明,我们的方法在去除条纹、去除真实雾霾和去除雨滴等任务中具有通用性和竞争力。代码和预训练模型可在https://github.com/joshyZhou/AST上获得。
源码链接:https://github.com/joshyZhou/AST
引言
在计算机视觉领域,图像恢复一直是一个具有挑战性的任务。无论是去除雨纹、雾霾还是雨滴,传统方法往往在处理复杂降质时力不从心。最近,来自南开大学和南京理工大学的研究团队提出了一种创新的解决方案——自适应稀疏Transformer (AST),在多个图像恢复任务上取得了显著突破。
问题的核心挑战
传统Transformer的困境
现有的Transformer方法在图像恢复中面临两个主要问题:
- 噪声交互问题:标准自注意力机制会考虑所有token之间的关系,不可避免地引入无关区域的噪声交互
- 特征冗余问题:密集聚合的特征图包含大量冗余信息,阻碍模型关注真正重要的特征
AST的创新解决方案

1. 双分支自适应注意力机制 (ASSA)
AST的核心创新在于设计了一个双分支自注意力架构:
稀疏分支 (SSA)
- 使用ReLU²激活函数替代传统softmax
- 自动过滤掉负相关性,只保留有价值的特征交互
- 公式:
SSA = ReLU²(QK^T/√d + B)
密集分支 (DSA)
- 保持传统softmax机制
- 确保足够的信息流通过网络
- 公式:
DSA = Softmax(QK^T/√d + B)
自适应融合
两个分支通过可学习的权重进行动态融合:
A = (w₁ * SSA + w₂ * DSA)V
这种设计巧妙地平衡了稀疏性和信息完整性之间的矛盾。
2. 特征精炼前馈网络 (FRFN)
FRFN采用"增强-缓解"策略:
- 增强阶段:使用PConv操作强化有用特征
- 缓解阶段:通过门控机制减少冗余信息
- 通道优化:在通道维度上与ASSA的空间优化形成完美互补
技术实现细节
网络架构
- 编码器-解码器设计:4阶段对称结构
- 瓶颈层:增强长距离依赖建模
- 渐进式学习:提高训练效率
训练策略
- 损失函数:Charbonnier损失
- 优化器:AdamW with cosine decay
- 数据增强:随机旋转和翻转
实验验证与性能表现


雨纹去除任务
在SPAD数据集上,AST-B达到了49.51dB PSNR,比之前最佳的CNN方法提升了4.48dB,比最佳Transformer方法提升了0.98dB。
雨滴去除任务
在AGAN-Data数据集上取得32.32dB PSNR,超越了包括扩散模型在内的所有现有方法。
真实雾霾去除
在Dense-Haze数据集上实现17.12dB PSNR,在这个具有挑战性的真实场景数据集上取得了最佳性能。
核心优势分析
1. 智能稀疏性
- 不是简单的Top-K选择,而是基于相关性的智能过滤
- 避免了参数敏感性问题
2. 自适应平衡
- 动态调节稀疏性和密集性的权重
- 根据任务特点自动优化
3. 高效性能比
- 相比密集注意力,计算复杂度基本相当
- 显著的性能提升,极小的额外开销
消融研究洞察
研究团队进行了详尽的消融实验:
- 注意力熵分析:证明AST在过度稀疏和过度密集之间找到了最佳平衡点
- 组件有效性:ASSA和FRFN都对最终性能有显著贡献
- 架构选择:双分支设计明显优于单一分支方案
局限性与未来展望
当前局限
- 在重度降质场景下仍有改进空间
- 针对特定任务的模型,通用性有待提升
发展方向
- 统一多降质类型的处理框架
- 结合领域先验知识(如暗通道先验)
- 扩展到视频恢复任务
总结
AST代表了图像恢复领域的一个重要进展。通过巧妙的双分支设计和特征精炼机制,它成功解决了Transformer在图像恢复中的核心挑战。在多个基准数据集上的出色表现证明了这种方法的有效性和实用性。对于从事计算机视觉和图像处理的研究者来说,AST提供了一个值得深入研究和借鉴的新思路。

