ECCV 即插即用 | 频域全局视野 + 先验局部细节 = SOTA级图像修复!FADformer架构全解析
1. 基本信息

-
标题: Efficient Frequency-Domain Image Deraining with Contrastive Regularization (基于对比正则化的高效频域图像去雨)
-
论文来源:https://github.com/deng-ai-lab/FADformer
2. 核心创新点
-
提出FADformer架构:设计了一种高效的频率感知Transformer架构,通过融合频域卷积混合器(FFCM)和先验门控前馈网络(PGFN),在保持高效率的同时,兼顾了全局和局部特征建模能力。
-
引入频域对比正则化(FCR): 提出一种新颖的、即插即用的频域对比正则化损失项,它利用负样本(带雨图像)在频域中的显著特征,有效提升了模型的去雨性能。
-
实现更优的性能与效率权衡:在多个合成及真实世界数据集上,该方法不仅取得了超越现有SOTA模型的去雨效果,同时模型的参数量和计算复杂度(FLOPs)显著低于当前最优方法。
➔➔➔➔点击查看原文,获取本文及其他精选即插即用模块集合
https://mp.weixin.qq.com/s/Y7foMzNWqOyn1FChYACyxw
3. 方法详解
整体结构概述
FADformer是一个分层的编码器-解码器网络。首先,它从输入的有雨图像 I 中提取浅层特征 X_f 和一个基于残差通道先验(RCP)的结构先验图 X_RCP。随后,特征图经过一个包含三个阶段的编码器-解码器结构进行深层特征提取,每个阶段由多个FADBlock堆叠而成。在编码器和解码器之间,通过跳跃连接融合相同阶段的特征。最终,网络输出残差图像 R,通过与原始输入图像相加 Y = I + R 得到最终的去雨结果。整个训练过程由像素损失和新颖的频域对比正则化(FCR)共同监督。

展示FADformer的整体框架、FFCM、PGFN和FCR的详细图示
步骤分解
-
频率感知去雨模块 (FADBlock) FADBlock是网络的核心构建单元,遵循Transformer Block的设计范式,由一个Token Mixer和一个前馈网络(FFN)组成。其创新之处在于:
-
Token Mixer: 使用融合傅里叶卷积混合器(FFCM)替代传统的自注意力机制,用于高效地进行全局特征建模。
-
FFN: 使用先验门控前馈网络(PGFN)替代标准FFN,利用去雨任务的先验知识来增强局部细节和结构信息的恢复。 给定第
t-1个块的输入特征X_{t-1}^f,其处理流程如下:
-
-
融合傅里叶卷积混合器 (Fused Fourier Convolution Mixer, FFCM) FFCM旨在通过频域操作高效地捕获全局信息。它利用离散傅里叶变换(DFT)能够将雨丝等退化模式与图像内容分离,并且具有天然全局感受野的特性。
-
空间域处理: 输入特征首先通过逐点卷积(Point-wise Conv)提升维度,然后分裂成两组,分别经过不同核尺度的深度卷积(
3x3和5x5)来提取多尺度局部特征,得到X_spatial。 -
频域处理: 将
X_spatial通过DFT转换到频域,得到实部和虚部。将两者拼接后,通过一个1x1卷积进行特征学习,然后再分离。最后,通过逆离散傅里叶变换(IDFT)将特征转换回空间域,得到X_frequency。 -
特征融合: 将空间域特征
X_spatial和处理后的频域特征X_frequency进行残差连接,最后通过逐点卷积压缩通道,完成全局与局部特征的融合。
-
-
先验门控前馈网络 (Prior-Gated Feed-forward Network, PGFN) PGFN将去雨任务的先验知识以门控的方式集成到FFN中,以增强图像结构的恢复能力。
-
残差通道先验 (RCP): 该网络使用RCP作为先验知识。RCP通过计算图像各通道颜色值的最大和最小值之差得到,能有效保留未受雨丝干扰的清晰结构。
-
门控机制: PGFN包含一个主分支和一个先验分支。主分支采用深度卷积(
DConv)进行局部细节提炼。先验分支则处理RCP特征,生成一个门控权重图,通过哈达玛积(逐元素相乘⊙)作用于主分支的特征图,从而引导网络更好地恢复背景结构。 -
先验分支: 为了将浅层的RCP先验有效传递到深层网络,先验分支采用迭代编码的方式,逐步将门控图的通道维度降低,并传递给下一个PGFN模块使用。
-
-
频域对比正则化 (Frequency Contrastive Regularization, FCR) FCR是一种新颖的损失函数正则项,旨在更好地利用负样本信息。它将去雨网络的输出作为锚点(anchor),将真实清晰图像(ground truth)作为正样本,将原始带雨图像作为负样本。
-
对比空间: FCR利用DFT将图像编码到频域,以此作为对比学习的空间。因为雨丝模式在频域中具有区别于清晰图像的显著特征。
-
损失计算: 通过计算锚点与正/负样本在频域中的L1距离,并构建其比率来形成损失。该损失函数的目标是拉近输出与清晰图像在频域的距离,同时推远其与各种带雨图像的距离。
-
总损失: 最终的总损失由像素级损失(如L1 Loss)和FCR损失加权构成。
-
4. 即插即用模块作用
本报告聚焦于论文提出的 频域对比正则化 (Frequency Contrastive Regularization, FCR) 模块。
适用场景
FCR作为一个模型无关的正则化项,具有广泛的适用性:
-
核心任务: 单图像去雨(SID)。
- 扩展任务:
-
图像去雪、图像去雾等其他图像恢复任务。
-
任何以学习从退化输入到清晰输出为目标的监督式图像到图像翻译任务。
-
-
适用模型: 可应用于各类主流的图像恢复网络,如RCDNet、MPRNet、FFA-Net等,作为现有损失函数的补充。**(请在此处标记,提示需要配表:表8,展示FCR在不同数据集、不同方法和不同任务上的通用性验证结果)**
主要作用
FCR为图像恢复任务带来了以下具体收益:
-
增强对退化模式的辨识能力: 通过在频域中对比正负样本,迫使模型学习区分清晰图像与带雨(或其他退化)图像的本质特征,而不仅仅是像素级的匹配。
-
充分利用负样本信息: 传统损失函数仅关注与正样本的距离,FCR将负样本作为学习的下界,提供了更丰富的监督信号,使模型知道“不应该生成什么样”的图像。
-
显著提升性能: 实验证明(见表7和表8),在现有损失函数基础上增加FCR,能够为不同模型和任务带来普遍且显著的性能提升(如在Rain200H上提升0.48 dB PSNR),且几乎不增加训练开销。
-
实现方式简单高效: FCR仅依赖快速傅里叶变换(FFT)进行编码,计算成本极低,易于集成到现有训练流程中。


总结
频域对比正则化(FCR)是一个轻量、高效且通用的“性能增强器”,它通过在频域中引入负样本对比,教会模型从根本上辨别并移除图像退化模式,从而显著提升恢复质量。
➔➔➔➔点击查看原文,获取本文及其他精选即插即用模块集合
https://mp.weixin.qq.com/s/Y7foMzNWqOyn1FChYACyxw
