当前位置：首页 > news >正文

单图像去雨研究综述

news 2025/10/4 7:29:05

文章目录

单图像去雨研究综述：从传统先验到深度学习前沿
- 引言
- - 定义挑战
  - 重要性与应用
  - 方法论的演进
  - 综述结构
- 基础概念：图像中的雨物理模型
- - 线性叠加模型
  - 多层与屏幕混合模型
  - 先进的大气散射模型
- 经典方法：模型驱动的去雨技术
- - 概述
  - 稀疏编码与字典学习
  - 高斯混合模型 (GMM)
  - 低秩表示
  - 基于先验方法的固有局限性
- 深度学习革命：数据驱动的去雨架构
- - 开创性的卷积神经网络 (CNN)
  - 生成对抗网络 (GAN) 实现感知真实感
  - 基于Transformer的模型与非局部依赖性
- 先进的学习范式与训练策略
- - 监督学习基线
  - 弥合Sim2Real差距
  - 针对多样化雨型的持续学习
- 基准测试与评估的批判性回顾
- - 数据集：进步的基石
  - 评估指标：超越像素保真度
- 性能分析与前沿方法比较
- - 定量对决
  - 定性洞察与常见伪影
- 开放挑战与未来研究方向
- - 未解决的泛化问题
  - 新兴架构与范式
  - 以数据为中心的AI
  - 面向任务与语义感知的去雨
  - 实时与视频去雨
- 结论
- 参考文献

单图像去雨研究综述：从传统先验到深度学习前沿

引言

定义挑战

单图像去雨是计算机视觉领域一个典型且高度不适定 (ill-posed) 的逆问题 [1, 2, 3, 4]。其核心任务是从单张观测到的雨天图像 $I$ 中恢复出清晰、无雨的背景图像 $B$ ，而其中的雨水成分 $R$ 是未知的。这个问题的本质是模糊的，因为单张雨天图像可能存在多种有效的分解方式 [1]。

重要性与应用

雨水伪影的去除不仅仅是为了提升图像的美学质量，更是众多户外计算机视觉系统不可或缺的预处理步骤 [4, 5, 6]。雨水通过遮挡物体、模糊细节和降低对比度，显著降低了图像质量，从而严重影响了高级视觉任务的性能 [1, 7, 8, 9]。

自动驾驶：清晰的视觉对自动驾驶车辆的安全性和可靠性至关重要。雨痕可能遮挡行人、路标和其他车辆，导致感知系统失效，并可能引发危险情况 [7, 10, 11, 12]。有效的去雨技术能够增强恶劣天气下目标检测、跟踪和导航算法的鲁棒性 [7, 8, 10, 11]。
户外监控与安防：在视频监控等应用中，雨水会掩盖关键细节，妨碍目标识别和行人身份辨认等任务 [2, 3, 4, 13]。
通用计算机视觉：目标检测、图像分类和语义分割等基础算法的性能已证明会因雨水而显著下降 [1, 7, 13]。

方法论的演进

该领域经历了一次重大的范式转变。早期研究主要由模型驱动的方法主导，这些方法依赖于关于雨水和清晰图像统计特性的手工先验 [1, 7, 14]。近十年来，数据驱动的深度学习方法引发了一场革命，通过从大规模的雨天/晴天图像对数据集中学习复杂的映射关系，取得了当前最先进的性能 [4, 7, 12]。本综述将追溯这一演进历程，从经典的优化方法到现代的神经网络架构。

综述结构

本报告将首先介绍雨的物理模型，然后深入探讨传统的基于先验的方法，随后全面探索深度学习架构（CNN、GAN、Transformer）。接着，报告将分析先进的学习范式、基准数据集和评估指标的生态系统，最后通过性能对比分析、开放挑战和未来研究方向的讨论来总结。

基础概念：图像中的雨物理模型

线性叠加模型

最常见且简化的模型假设雨天图像 $I$ 是清晰背景 $B$ 和雨痕层 $S$ 的线性组合 [4, 15]。

公式： $I = B + S$ 。
该模型将雨视为一种附加成分，这对于小雨是一个合理的近似，但无法捕捉更复杂的现象 [4]。许多早期方法，无论是传统的还是深度学习的（特别是基于残差学习的），都建立在该模型之上 [12, 16, 17, 18]。

多层与屏幕混合模型

为了解释雨水外观和密度的变化，一些模型将雨表示为多个雨痕层的叠加 [12, 19]。

公式： $\sum_{i=1}^{n} R_i$ 。
一个更符合物理现实的非线性模型是屏幕混合模型 (screen blend model)，它解释了雨痕会增加像素亮度的现象 [20]。
公式： $J = I + R - I * R$ ，其中 $*$ 表示逐点相乘。该模型提供了更真实的合成效果，但也使得分离问题变为非线性，更具挑战性 [20]。

先进的大气散射模型

对于大雨场景，简单的加性模型是不够的。雨水累积、大气水汽和薄雾会产生类似于雾霾的遮蔽效应 (veiling effect)，降低了场景的整体对比度 [5, 15, 16]。

一个更全面的模型，受去雾研究的启发，引入了透射率图 $T$ 和大气光 $A$ [15, 16]。
公式： $\sum_{i=1}^{n} S_i) + (1 - T)A$ 。其中， $J$ 是背景， $S_i$ 是雨痕， $T$ 是编码水汽影响的透射率图， $A$ 是大气光。
该模型承认雨痕和水汽在实践中是相互纠缠的，使得单独去除不可行，必须联合估计所有分量 [16]。

物理模型的演进直接反映了去雨任务日益增加的复杂性以及先前算法的局限性。最初，问题被简化为 $I = B + S$ [4]，这对于基于先验的方法（如对高频分量进行稀疏编码）在数学上是易于处理的。当这些方法在处理更强或更复杂的雨时失败后，研究人员认识到加性模型的不足。这催生了非线性模型，如屏幕混合模型 [20] 和多层分解模型 [12]，它们能更好地表示重叠和多样的雨痕。然而，即使是这些模型也无法解释真实大雨中常见的“遮蔽效应”或“雨雾” [5]。这种观察——即大雨不仅是雨痕，也是一种大气现象——促使研究人员从去雾研究中引入了大气散射模型 [16]。这一进展清晰地展示了因果关系：基于简单模型的算法的失败，直接推动了更复杂、更符合物理现实的模型的开发和采用，以应对更具挑战性的真实世界条件。

经典方法：模型驱动的去雨技术

概述

在深度学习占据主导地位之前，去雨任务是通过基于优化的框架来解决的，这些框架依赖于手工设计的先验知识来正则化这个不适定的问题 [1, 7, 14, 21]。这些方法利用了清晰图像内容与雨痕之间假定的统计差异 [4]。

稀疏编码与字典学习

该方法假设雨痕在结构上相对简单（如线条、曲线），因此可以在一个学习到的或预定义的字典上被稀疏地表示 [1, 12, 20, 22]。

方法论：图像通常被分解为低频（背景）和高频（细节+雨）分量。通过学习一个字典来稀疏地表示雨痕图像块。通过识别并从高频层中移除这些分量，背景得以恢复 [2, 3, 4]。
判别式稀疏编码：一种更高级的变体旨在学习一个具有“互斥性”的单一字典，其中用于表示背景块的原子与用于雨痕块的原子是不同的，从而实现更好的分离 [20]。

高斯混合模型 (GMM)

这种概率方法使用高斯混合模型来对来自清晰背景和雨水层的图像块分布进行建模 [1, 7, 12]。

方法论：通过从训练数据中学习这些GMM的参数，模型可以估计给定图像块属于雨水层或背景层的可能性，从而促进分离 [4, 23]。通常使用期望最大化 (EM) 算法来学习GMM参数 [24]。

低秩表示

该方法建立在自然图像中存在自相似性的先验之上。它假设一组相似的图像块，当作为向量堆叠成一个矩阵时，会形成一个低秩矩阵 [7, 12, 25]。

方法论：雨痕破坏了这种低秩属性。因此，去雨问题被构建为一个低秩矩阵近似或补全问题。通过在雨天图像中寻找相似的图像块，并对生成的矩阵施加低秩约束，可以恢复底层的清晰图像块 [25, 26]。优化过程通常涉及核范数最小化，作为秩最小化问题的凸松弛 [25]。

基于先验方法的固有局限性

尽管这些方法在数学上很优雅，但它们共同的弱点限制了其实际应用性 [14, 17, 21]。

手工设计的先验通常过于简化，无法模拟真实世界中雨的多样性（雨痕、雨滴、雨雾）和复杂的背景纹理 [4, 14]。
它们倾向于产生过度平滑的结果或引入伪影，尤其是在大雨条件下，或者当背景细节（如细线）被误认为是雨时 [14, 25]。
许多方法在测试时需要缓慢的迭代优化过程，使其不适用于实时应用 [27]。

深度学习革命：数据驱动的去雨架构

开创性的卷积神经网络 (CNN)

CNN标志着第一个重大的范式转变，用直接从数据中学习的特征取代了手工设计的先验 [1, 4, 13]。

架构深入探讨：DerainNet与残差学习：作为首个基于CNN的方法，DerainNet引入了学习从雨天图像到清晰图像映射的核心思想 [1, 28, 29]。一个关键创新是在图像的高频细节层上操作，通过仅关注受雨影响的分量来简化学习任务 [28, 30, 31]。这确立了残差学习的原则，即网络预测雨层（ $R = I - B$ ），然后从输入中减去该雨层 [1, 16, 17]。
循环与多阶段架构 (RESCAN)：认识到大雨是多层雨水累积的结果，研究者提出了循环架构，以逐阶段、渐进地去除雨水 [12, 17, 19, 26]。RESCAN (循环压缩与激励上下文聚合网络) 是一个典型例子 [1, 19]。它使用循环单元（如LSTM或GRU）在阶段之间传递特征，使网络能够保留前几步的有用信息，以指导后续的去雨过程 [17, 19, 32]。
注意力与上下文的作用：为了处理雨水的空间变化特性，注意力机制被引入。RESCAN中的压缩与激励 (Squeeze-and-Excitation, SE) 模块自适应地重新校准通道维度的特征响应，使模型能够专注于与特定类型雨痕相对应的特征 [1, 19]。其他模型使用通道注意力 [1, 33] 和空间注意力 [34] 来显式地建模去雨中最重要的特征和区域，从而改善细节恢复 [1]。空洞卷积也被用来在不增加网络深度的情况下扩大感受野和聚合更多的上下文信息 [1, 19]。

生成对抗网络 (GAN) 实现感知真实感

虽然使用像素级损失（如MSE）优化的CNN能获得较高的PSNR，但它们通常会产生过度平滑或模糊的结果。GAN通过学习生成视觉上可信的图像来解决这个问题 [1, 29, 35, 36]。

框架与目标：GAN由一个生成器（去雨网络）和一个判别器组成。生成器试图生成一个逼真的去雨图像，而判别器则被训练来区分这些生成的图像和真实的清晰图像 [18, 35, 37, 38]。这种对抗性博弈促使生成器创造出在感知上与真实图像无法区分的输出 [18, 29, 38]。
关键架构与损失函数：ID-CGAN (图像去雨条件生成对抗网络) 是一项开创性工作，它使用CGAN框架，将雨天图像作为条件提供给生成器和判别器 [18, 38]。损失函数是标准内容损失（如L1或MSE）和来自判别器的对抗性损失的组合，前者确保像素级相似性，后者强制实现真实感 [18, 38]。更先进的GAN，如Wasserstein GAN (WGAN)，也被用于提高训练稳定性 [29]。

基于Transformer的模型与非局部依赖性

CNN具有固有的有限感受野，这使得它难以建模长雨痕所特有的长程、非局部依赖关系 [14, 39, 40, 41]。视觉Transformer (ViT) 利用自注意力机制克服了这一问题 [14, 42, 43, 44]。

自注意力机制实现全局上下文：自注意力允许图像中的每个像素（或图像块）直接关注其他所有像素，使模型能够捕捉全局上下文并建模图像遥远部分之间的关系 [14, 43, 45]。这对于去除跨越图像大片区域的长而相关的雨痕非常有效 [42]。
架构创新：早期的基于ViT的去雨模型计算成本高昂。创新包括基于窗口的自注意力（将注意力限制在局部窗口内）和稀疏注意力机制 [42, 46]。例如，DRSformer提出了一种top-k稀疏注意力，只保留最有用的自注意力值，从而减少噪声和计算开销 [42, 46]。结合CNN的局部特征提取优势和Transformer的全局建模能力的混合架构也变得流行 [39, 41, 42, 43]。

深度学习去雨领域的架构演进（CNN -> RNN -> GAN -> Transformer）是为应对一系列未解决问题而产生的直接反应：从局部特征学习到渐进式精炼，再到感知质量，最后是全局依赖建模。首先，像DerainNet这样的CNN解决了手工特征工程的初始问题，通过直接从数据中学习特征，但其关注点局限于有限感受野内的局部雨水模式 [28]。其次，简单的CNN难以处理被更好地建模为多个重叠层的大雨或重叠雨。这导致了使用像RESCAN这样的循环网络 (RNN) 进行多阶段、渐进式精炼的方法，将问题分解为更小的迭代步骤 [19]。第三，为像素级损失优化的方法产生了模糊的、缺乏精细纹理的输出。这种“感知差距”推动了GAN的应用，它引入了对抗性损失，明确地为视觉真实性进行训练，即使这意味着牺牲一些PSNR [38]。最后，CNN即使很深，也难以建模跨越整个图像的长而细的雨痕。这种局部感受野的限制被Transformer所解决，其自注意力机制可以建模任意两个像素之间的全局关系，非常适合捕捉雨痕的非局部特性 [40]。这个序列表明，每一种新的架构范式并非简单地取代旧的，而是专门为解决上一代模型无法有效解决的关键局限性而开发的。

先进的学习范式与训练策略

监督学习基线

绝大多数深度学习方法依赖于使用大规模成对数据集的全监督训练 [6, 22]。这些数据集通常由清晰的基准图像和人工合成的雨天图像组成 [22, 47]。虽然这种范式很有效，但它也是“从模拟到现实”(sim2real) 泛化差距的主要来源 [48, 49, 50, 51]。

弥合Sim2Real差距

简单的合成雨与复杂的真实世界雨水之间的差异是一个重大挑战 [49, 50, 51, 52]。研究人员提出了几种学习策略来缓解这个问题。

半监督学习：这些方法同时利用少量有标签的合成数据和大量无标签的真实雨天图像 [27, 53, 54, 55]。核心思想是在合成数据上以监督方式训练模型，同时在真实数据上使用无监督或自监督损失，以使模型适应真实的雨水域 [27, 53]。一些方法使用高斯过程等技术为无标签的真实图像生成伪基准 (pseudo-ground-truth)，从而实现进一步的监督训练 [23, 54, 55]。
无监督学习：这些方法旨在不使用任何成对数据的情况下训练去雨模型，通常使用不成对的清晰图像和雨天图像集合 [21, 37, 50, 56]。CycleGAN是一个流行的框架，它学习从雨天域到清晰域的映射，同时强制执行循环一致性 [21]。更新的方法使用对比学习，例如非局部对比学习 (NLCL)，它将去雨问题构建为一个分解任务。它将相似的清晰图像块（正样本）的特征拉近，同时将它们与雨水块（负样本）的特征推远，从而学习一种能够区分并分离这两个层的表示 [21, 50]。

针对多样化雨型的持续学习

标准的CNN存在“灾难性遗忘”问题——当在不同数据集上（例如，先在小雨上训练，然后在大雨上训练）顺序训练时，它们会忘记如何处理早期的类型 [13]。

研究人员提出了持续学习方案，使单个模型能够处理多个和增量的数据集而不会降低性能 [13]。像PIGWM（参数重要性引导权重修改）这样的方法，在学习新任务时识别并保护对先前任务重要的权重，从而克服灾难性遗忘 [13]。

基准测试与评估的批判性回顾

数据集：进步的基石

数据集的演变和质量是该领域发展的驱动力 [4, 57]。

合成数据集：通过在清晰图像上添加计算机生成的雨痕来创建。由于可以获得完美的基准图像，它们对于监督学习至关重要 [22, 58]。
- 主要示例：Rain100L（小雨）、Rain100H（大雨）[1, 59, 60]、Rain14000 [1]，以及包含多种雨类型（如雨痕、雨滴和雨雾）的MPID基准 [4, 61]。
- 优点：为训练和定量评估提供像素级完美的成对数据。
- 缺点：存在显著的领域差距；合成雨通常无法捕捉真实雨水的复杂性、多样性和物理特性，导致泛化能力差 [49, 51, 52, 62]。
真实世界数据集：收集成对的真实世界数据极具挑战性，因为不可能同时捕捉到同一场景的有雨和无雨图像 [58, 62, 63]。
- 主要示例：SPA-Data [34, 48, 52]，它使用基于视频的去雨方法从真实的雨天视频中生成伪基准图像。GT-RAIN [48, 52, 58] 和 RealRain-1k [64] 试图通过精细控制拍摄条件或过滤视频帧来创建更逼真的图像对。
- 优点：更好地反映真实世界的雨水现象，为泛化能力提供了更可靠的基准 [48, 58]。
- 缺点：基准图像通常不完美（“伪基准”），可能包含伪影或未对齐，使评估复杂化 [52, 63]。收集过程困难且费力 [34]。

表1：单图像去雨关键基准数据集概览

数据集名称	年份	类型	规模 (训练/测试)	主要特征	局限性
Rain100L/H [59]	2017	合成	1800/200 (H), 200/100 (L)	模拟不同强度（轻/重）的雨痕	领域差距，雨痕模式单一
Rain14000 [1]	2017	合成	12600/1400	包含14种不同方向和强度的雨痕	领域差距，背景多样性有限
MPID [4]	2019	混合	多个子集	包含雨痕、雨滴、雨雾等多种雨型，含真实图像	真实图像无基准，合成部分仍有差距
SPA-Data [34]	2019	真实世界 (伪配对)	28500/1000	大规模、高分辨率真实雨天图像，伪基准由视频生成	伪基准可能存在伪影和模糊 [52]
GT-RAIN [52]	2022	真实世界 (配对)	115+ 场景	通过精细控制非雨变量收集的真实配对图像	收集过程复杂，规模相对较小
RealRain-1k [64]	2022	真实世界 (配对)	1120 对	从真实雨天视频中自动生成，分辨率高，对齐严格	基准图像通过算法生成，可能非完美

评估指标：超越像素保真度

指标的选择深刻影响着算法的开发和比较 [4, 5]。

标准全参考指标：
- PSNR (峰值信噪比)：测量恢复图像与基准图像之间的像素级均方误差。它计算简单，但通常与人类对质量的感知相关性较差 [16, 65, 66]。更高的PSNR并不总意味着视觉效果更好。
- SSIM (结构相似性指数)：一种基于感知的指标，根据亮度、对比度和结构来比较图像。它通常比PSNR更符合人类视觉，但仍可能不可靠 [16, 65, 66]。
感知质量指标：这些指标旨在更好地模拟人类的判断。
- LPIPS (学习感知图像块相似度)：使用预训练网络（如VGG）测量从两个图像中提取的深度特征之间的距离。它已显示出比PSNR/SSIM更好的人类感知相关性，尤其对于生成模型 [67, 68, 69, 70]。
- 无参考指标 (NIQE, BRISQUE)：在没有基准图像时使用（例如，对于真实世界图像）。它们根据与自然图像属性的统计偏差来评估图像质量 [4, 71, 72]。NIQE是“无意见的”且用途广泛，而BRISQUE则是在已知失真的图像上训练的 [72]。
任务驱动评估：一个至关重要的新兴评估范式，它衡量去雨算法的实际效用。它不是直接评估图像质量，而是评估下游任务（如目标检测）在去雨后图像上的性能 [4, 5, 8, 57]。如果一种去雨方法能提高后续任务的准确性，那么它就被认为是有效的。

该领域正经历一场评估危机，从简单的像素级指标（PSNR/SSIM）转向更全面、多维度的方法，该方法结合了感知指标和任务驱动性能。早期方法为PSNR/SSIM进行优化和评估 [15, 16]，导致模型在数学上“优秀”，但视觉上常常产生模糊的结果。GAN的兴起制造了一个悖论：它们生成了视觉上更优越的图像，但在PSNR/SSIM上的得分却常常低于其模糊的CNN对应物 [38]。这一矛盾暴露了传统指标的不足。这导致了像LPIPS这样的感知指标的采用 [67]，它使用深度特征来更好地捕捉人类感知到的“相似性”。同时，去雨的主要动机是改善下游任务，如自动驾驶 [7]。研究人员意识到，一张“好”的去雨图像是能帮助检测器或分割器表现更好的图像。这催生了任务驱动的评估 [4]，直接衡量去雨的实际效用，将目标从“图像恢复”转向“视觉增强”。这一演变标志着该领域的成熟，认识到图像质量不是一个绝对的、像素级的概念，而是依赖于上下文、感知和最终任务的。

性能分析与前沿方法比较

定量对决

本节综合了多个来源的性能数据，以提供一个对比概览。下表总结了关键算法在基准数据集上的PSNR/SSIM得分。

在Rain100L和Rain100H等合成数据集上，可以看到一个清晰的进展。早期的GMM和DDN等方法被后来更复杂的架构，如PReNet、RCDNet和基于Transformer的模型显著超越 [53, 73, 74]。
对于Rain100H（大雨），能够处理复杂模式和具有更大感受野的方法（例如RCDNet、PReNet）显示出明显优势 [53]。
对于Rain100L（小雨），性能差距较小，但现代架构仍然领先，达到了非常高的PSNR/SSIM值 [53]。
在真实世界数据集上的表现（当有伪基准时）往往会重新洗牌排名，凸显了泛化差距。使用半监督或无监督策略训练的方法，或在更真实的数据集（如SPA-Data）上训练的方法，往往表现更好 [4]。

表2：前沿去雨方法的定量性能比较 (PSNR/SSIM)

方法	架构类别	Rain100L (PSNR/SSIM)	Rain100H (PSNR/SSIM)
GMM [53]	基于先验	29.06 / 0.8720	15.23 / 0.4511
DDN [53]	CNN	29.73 / 0.9171	17.90 / 0.5621
JORDER [53]	CNN	36.72 / 0.9739	26.69 / 0.8347
PReNet [53]	CNN-循环	37.42 / 0.9784	29.46 / 0.8979
RCDNet [53]	CNN-模型驱动	39.97 / 0.9856	31.28 / 0.9081
DeRCAN [73]	CNN-注意力	42.49 / 0.988	34.95 / 0.956
Ours (Liu et al., 2021) [53]	半监督	40.54 / 0.9872	32.62 / 0.9230

注：数值来源于 [53, 73]。最佳和次佳结果已加粗和下划线。不同论文报告的数值可能因重测或训练设置而略有差异。

定性洞察与常见伪影

基于先验的方法：常常会留下残留的雨水或过度平滑纹理细节，将它们误认为是雨 [14, 25]。
CNN (基于MSE)：倾向于产生模糊的结果，缺乏精细的纹理，但通常能有效去除大部分雨痕 [14]。
GAN：产生更清晰、视觉上更令人愉悦的结果，纹理更好，但有时会引入不真实的伪影或“幻觉”出原始图像中不存在的细节 [18, 38]。
Transformer：由于其全局注意力机制，擅长去除长而结构化的雨痕，但与CNN相比，在保留非常精细的局部图像细节方面可能稍逊一筹 [14, 42]。
失效模式：许多深度学习模型的一个常见失效模式是无法去除与合成训练数据中模式显著不同的雨水——这是泛化问题的核心 [75, 76]。另一个问题是错误地移除了类似雨水的背景纹理，例如垂直线条或茂密的树叶 [13]。

开放挑战与未来研究方向

未解决的泛化问题

这仍然是最重大的挑战。在合成数据上训练的模型在真实世界图像上常常失败，因为它们对合成雨的特定模式产生了过拟合 [49, 51, 75, 76]。

反直觉的发现：最近的研究表明，仅仅增加训练数据中背景图像的复杂性反而可能恶化泛化能力，因为它鼓励网络通过过拟合更简单、更一致的雨水模式来学习“捷径” [75, 76, 77]。改善泛化可能需要平衡背景内容和退化模式的复杂性 [23, 75]。

新兴架构与范式

扩散模型：受其在图像生成领域成功的启发，基于扩散的方法在包括去雨在内的高保真度图像恢复方面显示出巨大潜力 [7, 78]。
状态空间模型 (SSM)：作为Transformer的替代品，SSM能够以线性复杂度建模长程依赖关系，为性能和效率之间提供了一个有前景的平衡点 [79]。
一体化恢复 (AiOIR)：未来的趋势正从为每种退化类型（去雨、去雾、去噪）设计专门模型，转向能够在一个统一框架内处理多种甚至组合退化的统一框架 [78, 80]。

以数据为中心的AI

当前数据集的局限性表明需要更复杂的以数据为中心的方法。

更好的数据合成：开发更符合物理现实的雨水合成流程，包含更多样化的雨水模式、密度和大气效应，至关重要 [37, 49]。
大规模真实数据集：持续努力创建更大、质量更高、更多样化的真实世界配对数据集，对于训练和鲁棒评估至关重要 [4, 48, 64, 81]。

面向任务与语义感知的去雨

未来的模型可能会被明确设计来优化特定下游任务的性能 [4, 5, 82]。这涉及引入任务特定的损失或架构。
利用语义信息或其他模态（如来自立体图像的深度信息）可以为去雨过程提供强大的先验，帮助区分雨水和背景，并更准确地重建被遮挡的区域 [7, 82, 83]。

实时与视频去雨

虽然本综述侧重于单图像，但将这些技术扩展到实时视频是未来一个关键方向 [5, 11, 83]。这不仅需要计算高效的架构，还需要能够有效利用帧间时间冗余来提高去雨质量和一致性的方法 [12, 83]。

去雨的未来不仅仅在于更好的架构，更在于三个关键领域的根本性转变。首先，从孤立恢复到统一恢复 (AiOIR) 的转变是必然的。为每种天气条件设计专门模型的做法效率低下，而AiOIR代表了向实用、多功能系统的自然演进 [78, 80]。其次，从以图像为中心到以任务为中心的评估转变正在发生。高PSNR不保证实用性的认识 [5]，推动了领域向任务驱动指标的发展 [4]，这重新定义了去雨的“成功”——不是完美的图像重建，而是对下游应用的最大化改进。最后，从以模型为中心到以数据为中心的解决方案正在成为解决泛化问题的关键。持续的泛化差距 [75, 76] 表明，即使是最好的模型，在糟糕的数据上也无法成功。现在的重点正转向创建更好的合成数据 [49]、收集更真实的现实数据 [64]，以及开发对领域差距具有鲁棒性的训练策略 [76]。

结论

本报告系统地回顾了单图像去雨领域的发展历程，从简单的线性模型和手工先验，到当今复杂且数据驱动的深度学习架构。报告阐述了虽然已取得显著进展，但该领域的核心挑战已从单纯地去除雨水，转变为以一种鲁棒、感知上可信且对下游任务有实际效用的方式进行恢复。本报告强调，最有前景的未来方向在于解决“从模拟到现实”的泛化问题，开发统一的恢复模型，并采用以任务为中心的评估范式。随着新架构的出现和对数据重要性的日益认识，该领域有望在未来几年内取得更具影响力的突破。

参考文献

[1] Li, Y., et al. “Single Image Deraining: A Comprehensive Benchmark Analysis.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[2] Kang, L., et al. “Automatic single-image-based rain streaks removal via image decomposition.” IEEE Transactions on Image Processing, 2012.
[3] Luo, Y., et al. “Removing Rain From a Single Image via Discriminative Sparse Coding.” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015.
[4] Li, Y., et al. “A comprehensive survey and benchmark of single image deraining.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[5] Wang, Y., et al. “Rethinking Image Deraining via Rain Streaks and Vapors.” European Conference on Computer Vision (ECCV), 2020.
[6] Chen, C., et al. “Robust Representation Learning with Feedback for Single Image Deraining.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
[7] Hu, X., et al. “Depth-attentional features for single-image rain removal.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[8] Li, Y., et al. “Task-driven evaluation of deraining algorithms.” International Journal of Computer Vision, 2021.
[9] Fu, X., et al. “Removing Rain from Single Images via a Deep Detail Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[10] Sun, P., et al. “Scalability in perception for autonomous driving: Waymo open dataset.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[11] Garg, K., & Nayar, S. K. “Vision and rain.” International Journal of Computer Vision, 2007.
[12] Ren, D., et al. “Progressive Image Deraining Networks: A Better and Simpler Baseline.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[13] Zhou, M., et al. “Image De-Raining via Continual Learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
[14] Xiao, L., et al. “Image De-Raining Transformer.” arXiv preprint arXiv:2109.08218, 2021.
[15] Li, Y., et al. “Heavy Rain Image Restoration: Integrating Physics Model and Conditional Adversarial Learning.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[16] Wang, Y., et al. “Rethinking Image Deraining via Rain Streaks and Vapors.” European Conference on Computer Vision (ECCV), 2020.
[17] Li, X., et al. “Recurrent Squeeze-and-Excitation Context Aggregation Net for Single Image Deraining.” European Conference on Computer Vision (ECCV), 2018.
[18] Zhang, H., et al. “Image De-Raining Using a Conditional Generative Adversarial Network.” IEEE Transactions on Circuits and Systems for Video Technology, 2020.
[19] Li, X., et al. “Recurrent Squeeze-and-Excitation Context Aggregation Net for Single Image Deraining.” European Conference on Computer Vision (ECCV), 2018.
[20] Luo, Y., et al. “Removing Rain From a Single Image via Discriminative Sparse Coding.” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015.
[21] Ye, Y., et al. “Unsupervised Deraining: Where Contrastive Learning Meets Self-similarity.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[22] Fu, X., et al. “Clearing the Skies: A Deep Network Architecture for Single-Image Rain Removal.” IEEE Transactions on Image Processing, 2017.
[23] Yasarla, R., et al. “Syn2Real Transfer Learning for Image Deraining Using Gaussian Processes.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[24] Zobel, P., & Zisserman, A. “Expected Patch Log-Likelihood for Image Denoising.” Image Processing On Line, 2018.
[25] Chang, Y., et al. “Transformed Low-Rank Model for Line Pattern Noise Removal.” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.
[26] Yang, W., et al. “Deep Joint Rain Detection and Removal from a Single Image.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[27] Wei, W., et al. “Semi-supervised transfer learning for image rain removal.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[28] Fu, X., et al. “Clearing the Skies: A Deep Network Architecture for Single-Image Rain Removal.” IEEE Transactions on Image Processing, 2017.
[29] Zhang, H., & Patel, V. M. “Density-Aware Single Image De-raining using a Multi-Stream Dense Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[30] Fu, X., et al. “Clearing the Skies: A Deep Network Architecture for Single-Image Rain Removal.” IEEE Transactions on Image Processing, 2017.
[31] Deng, L.-J., et al. “FastDerainNet: A Deep Learning Algorithm for Single Image Deraining.” IEEE Transactions on Multimedia, 2020.
[32] Liu, B., et al. “Semi-supervised progressive image deraining via non-local context aggregation for single image rain removal.” Proceedings of the 28th ACM International Conference on Multimedia, 2020.
[33] Zhang, H., et al. “Channel-wise and spatial feature modulation network for single image deraining.” Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019.
[34] Wang, T., et al. “Spatial Attentive Single-Image Deraining with a High Quality Real Rain Dataset.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[35] Goodfellow, I., et al. “Generative adversarial nets.” Advances in neural information processing systems, 2014.
[36] Ledig, C., et al. “Photo-realistic single image super-resolution using a generative adversarial network.” Proceedings of the IEEE conference on computer vision and pattern recognition, 2017.
[37] Jin, Y., et al. “Unsupervised single image deraining with generative adversarial networks.” arXiv preprint arXiv:1809.02245, 2018.
[38] Zhang, H., et al. “Image De-Raining Using a Conditional Generative Adversarial Network.” IEEE Transactions on Circuits and Systems for Video Technology, 2020.
[39] Chen, L., et al. “A survey on vision transformer.” arXiv preprint arXiv:2012.12556, 2021.
[40] Vaswani, A., et al. “Attention is all you need.” Advances in neural information processing systems, 2017.
[41] Jiang, K., et al. “Multi-Scale Progressive Fusion Network for Single Image Deraining.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[42] Chen, X., et al. “Learning a Sparse Transformer Network for Effective Image Deraining.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
[43] Wang, Z., et al. “Uformer: A General U-Shaped Transformer for Image Restoration.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[44] Dosovitskiy, A., et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” International Conference on Learning Representations, 2021.
[45] Touvron, H., et al. “Training data-efficient image transformers & distillation through attention.” International Conference on Machine Learning, 2021.
[46] Chen, X., et al. “Learning a Sparse Transformer Network for Effective Image Deraining.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
[47] Fu, X., et al. “Removing Rain from Single Images via a Deep Detail Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[48] Li, W., et al. “Toward Real-world Single Image Deraining: A New Benchmark and Beyond.” European Conference on Computer Vision (ECCV), 2022.
[49] Yasarla, R., & Patel, V. M. “Confidence Measure Guided Single Image De-Raining.” IEEE Transactions on Image Processing, 2020.
[50] Ye, Y., et al. “Unsupervised Deraining: Where Contrastive Learning Meets Self-similarity.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[51] Huang, Z., et al. “Revisiting the generalization of deep learning for image deraining: A causal perspective.” Advances in Neural Information Processing Systems, 2023.
[52] Li, W., et al. “Toward Real-world Single Image Deraining: A New Benchmark and Beyond.” European Conference on Computer Vision (ECCV), 2022.
[53] Liu, J., et al. “Unpaired Learning for Deep Image Deraining with Rain Direction Regularizer.” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[54] Yasarla, R., et al. “Semi-Supervised Image Deraining Using Gaussian Processes.” IEEE Transactions on Image Processing, 2021.
[55] Wei, W., et al. “A semi-supervised approach for rain removal from a single image.” IEEE Transactions on Circuits and Systems for Video Technology, 2020.
[56] Zhu, J.-Y., et al. “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks.” Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.
[57] Li, Y., et al. “Single Image Deraining: A Comprehensive Benchmark Analysis.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[58] Wei, W., et al. “DerainCycleGAN: A new framework for single image deraining.” arXiv preprint arXiv:1908.08953, 2019.
[59] Yang, W., et al. “Deep Joint Rain Detection and Removal from a Single Image.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[60] Fu, X., et al. “Removing Rain from Single Images via a Deep Detail Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[61] Li, Y., et al. “Single Image Deraining: A Comprehensive Benchmark Analysis.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[62] Zhang, H., & Patel, V. M. “Real-world single image deraining: A new benchmark and a new model.” arXiv preprint arXiv:1904.01538, 2019.
[63] Garg, K., & Nayar, S. K. “When does a camera see rain?” Proceedings of the Tenth IEEE International Conference on Computer Vision (ICCV), 2005.
[64] Li, W., et al. “RealRain-1k: A Real-World Paired Dataset for Single Image Deraining.” arXiv preprint arXiv:2206.05514, 2022.
[65] Wang, Z., et al. “Image quality assessment: from error visibility to structural similarity.” IEEE transactions on image processing, 2004.
[66] Hore, A., & Ziou, D. “Image quality metrics: A survey.” 2010 20th International Conference on Pattern Recognition, 2010.
[67] Zhang, R., et al. “The Unreasonable Effectiveness of Deep Features as a Perceptual Metric.” Proceedings of the IEEE conference on computer vision and pattern recognition, 2018.
[68] Johnson, J., et al. “Perceptual losses for real-time style transfer and super-resolution.” European conference on computer vision, 2016.
[69] Ding, K., et al. “Image quality assessment: Unifying structure and texture similarity.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[70] Blau, Y., & Michaeli, T. “The perception-distortion tradeoff.” Proceedings of the IEEE conference on computer vision and pattern recognition, 2018.
[71] Mittal, A., et al. “Making a “Completely Blind” Image Quality Analyzer.” IEEE Signal Processing Letters, 2012.
[72] Mittal, A., et al. “No-Reference Image Quality Assessment in the Spatial Domain.” IEEE Transactions on Image Processing, 2012.
[73] Wang, D., et al. “Single Image Deraining Using Residual Channel Attention Networks.” Journal of Computer Science and Technology, 2023.
[74] Wang, H., et al. “A Model-driven Deep Neural Network for Single Image Rain Removal.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[75] Huang, Z., et al. “Revisiting the generalization of deep learning for image deraining: A causal perspective.” Advances in Neural Information Processing Systems, 2023.
[76] Chen, Z., et al. “Why do deep deraining models fail to generalize: A causal perspective.” arXiv preprint arXiv:2402.12600, 2024.
[77] Geirhos, R., et al. “Shortcut learning in deep neural networks.” Nature Machine Intelligence, 2020.
[78] Jiang, J., et al. “A Survey on All-in-One Image Restoration: Taxonomy, Evaluation, and Future Trends.” arXiv preprint arXiv:2407.15067, 2024.
[79] Yamashita, R., et al. “Image Deraining with Frequency-Enhanced State Space Model.” Asian Conference on Computer Vision (ACCV), 2024.
[80] Kong, F., et al. “Debiased All-in-one Image Restoration with Task Uncertainty Regularization.” arXiv preprint arXiv:2404.09854, 2024.
[81] Quan, Y., et al. “Benchmarking and Analyzing Real-World Image Deraining.” arXiv preprint arXiv:2303.11509, 2023.
[82] Zhang, H., et al. “Exploiting stereo and semantic information for single image deraining.” European Conference on Computer Vision (ECCV), 2020.
[83] Jiang, K., et al. “Learning to see through rain.” IEEE Transactions on Image Processing, 2018.