扩散模型在单图像去雾领域的研究现状
文章目录
- 扩散模型在单图像去雾领域的研究现状:从物理先验到生成式修复
- 第一部分:图像去雾的基础理论
- 1.1 雾的物理学原理:大气散射模型(ASM)详解
- 1.2 早期范式:图像增强与基于物理的修复
- 1.3 手工先验时代:暗通道先验(DCP)的深度解析
- 第二部分:深度学习在去雾领域的兴起(扩散模型之前)
- 2.1 卷积神经网络(CNNs):从参数估计到端到端架构
- 2.2 生成对抗网络(GANs):追求感知真实感
- 2.3 局限性评估:为何需要新的范式
- 第三部分:生成式AI的扩散模型革命
- 3.1 核心机制:去噪扩散概率模型(DDPM)框架
- 3.2 架构核心:U-Net与注意力机制的角色
- 3.3 潜在扩散与Stable Diffusion:效率与可控性的飞跃
- 第四部分:前沿进展:用于图像去雾的扩散模型
- 4.1 开创性方法:物理引导的条件生成
- 4.1.1 DehazeDDPM深度解析:一个两阶段、物理感知的框架
- 4.1.2 IDDM架构深潜:将ASM融入扩散过程
- 4.2 新兴范式与效率提升
- 4.2.1 DiffLI2D:利用预训练模型的潜在空间
- 4.2.2 2024年最新创新概览:R2RDiff, Dehazing-UniDiff, 与 RSHazeDiff
- 第五部分:基准测试、分析与未来展望
- 5.1 定量与定性评估:数据集与指标回顾
- 5.2 性能对比分析:扩散模型 vs. CNNs 与 GANs
- 5.3 当前挑战与开放性研究问题
- 5.4 未来展望:效率、应用与多模态融合
扩散模型在单图像去雾领域的研究现状:从物理先验到生成式修复
第一部分:图像去雾的基础理论
本部分旨在建立图像去雾领域的物理学基础和早期计算方法论。深入理解这一基础,对于洞悉该领域为何从物理驱动逐步演化至深度学习,并最终拥抱扩散模型至关重要。其核心叙事线索,是该领域如何从一个基于物理学但本质上属于“病态问题”(ill-posed problem)的挑战,转变为一个可通过统计先验知识求解的难题。
1.1 雾的物理学原理:大气散射模型(ASM)详解
雾霾的形成并非随机噪声,而是一个由大气中悬浮粒子(如尘埃、水滴)对光线进行散射和衰减所导致的物理过程 [1, 2, 3, 4]。这一过程可以通过大气散射模型(Atmospheric Scattering Model, ASM)进行精确的数学描述。该模型是几乎所有先进去雾算法的理论基石。
大气散射模型的数学表达式为:
I(x)=J(x)t(x)+A(1−t(x))I(x) = J(x)t(x) + A(1 - t(x))I(x)=J(x)t(x)+A(1−t(x))
其中,各个参数的物理意义如下 [3, 5, 6]:
- I(x)I(x)I(x):表示相机观测到的有雾图像。
- J(x)J(x)J(x):表示我们期望恢复的、无雾的场景真实光照(scene radiance)。
- AAA:表示全局大气光(airlight),即环境光被大气粒子散射后进入相机的部分,通常假设在整个场景中为一恒定值 [3]。
- t(x)t(x)t(x):表示介质透射率图(medium transmission map),描述了场景中光线未经散射直接到达相机的比例。该值与场景深度密切相关,当物体距离相机越远,其对应的t(x)t(x)t(x)值越趋近于0 [5]。
大气散射模型的核心挑战在于其本质是一个“病态问题”(ill-posed problem)。对于单张输入的有雾图像I(x)I(x)I(x),我们需要求解两个未知量:场景真实光照J(x)J(x)J(x)和介质透射率图t(x)t(x)t(x)(即便假设全局大气光AAA可以被估算)[6, 7]。这种一个方程包含多个未知数的情况,使得问题在数学上无唯一解。因此,必须引入额外的约束条件或先验知识,才能有效地求解这个问题。整个图像去雾技术的发展史,在很大程度上就是一部不断寻找更强大、更鲁棒的先验知识来约束并求解这个病态问题的历史。
1.2 早期范式:图像增强与基于物理的修复
在应对雾天图像退化问题时,早期研究主要分为两大技术路线:图像增强和基于物理的图像修复。这两种方法在理念和技术实现上存在根本差异。
-
图像增强(Image Enhancement):此类方法直接在图像的像素层面进行操作,旨在提升图像的视觉质量,而忽略了雾气形成的底层物理模型 [2, 8]。
- 代表技术:包括对比度拉伸、直方图均衡化(Histogram Equalization, HE)及其自适应变体,如自适应直方图均衡化(AHE)和对比度受限的自适应直方图均衡化(CLAHE)[2, 9, 10]。
- 局限性:尽管这些技术计算简单、效率高,但其处理结果往往不符合物理真实性。它们可能会放大图像中的噪声、导致局部区域过度增强、引入不自然的颜色偏移,并且通常只对薄雾或均匀雾场景有效 [2, 9, 10]。它们的目标是改善图像的美学观感,而非真正“修复”场景的原始光照信息。
-
基于物理的修复(Physics-Based Restoration):与图像增强不同,该方法致力于通过估算大气散射模型中的物理参数(即全局大气光AAA和透射率图t(x)t(x)t(x)),来直接逆转雾化过程 [8]。
- 核心方法:这类方法利用基于自然、无雾图像统计特性的先验知识或假设,为求解病态的ASM方程提供必要的约束,从而恢复出J(x)J(x)J(x) [3, 8]。
- 优缺点:这种方法更具针对性,能够产生更自然、信息损失更少的修复结果。然而,其成功与否完全依赖于所选先验的有效性和准确性,以及参数估计算法的精度 [8]。
这两种范式的根本区别在于其目标。图像增强追求的是“让图像看起来更好”,而图像修复追求的是“恢复场景的物理真实辐射”。对于许多下游的计算机视觉任务,如目标检测和语义分割,输入的物理一致性至关重要,因为这些任务依赖于对现实世界的准确表征 [8, 11]。因此,图像修复范式虽然更具挑战性,但其科学价值和应用潜力远超图像增强,并最终主导了该领域的研究方向。
1.3 手工先验时代:暗通道先验(DCP)的深度解析
在众多手工设计的先验知识中,由何恺明等人提出的暗通道先验(Dark Channel Prior, DCP)无疑是一项里程碑式的突破。它基于对大量无雾户外图像的深入统计观察,揭示了一个强大而简洁的规律。
-
核心观察:暗通道先验的核心思想是:在绝大多数非天空的局部图像块(local patch)中,至少存在一个颜色通道(R、G或B)的某些像素点,其强度值非常低,趋近于零 [3, 5, 12]。这些低强度像素构成了所谓的“暗通道”。
-
工作机制:
- 在一个有雾的图像中,这些本应很暗的“暗像素”之所以具有较高的亮度,主要是因为叠加了大气光成分A(1−t(x))A(1 - t(x))A(1−t(x)) [3]。
- 因此,通过在有雾图像的局部块中寻找最小像素强度,就可以直接估算出该区域的雾气浓度,从而得到一个相对准确的透射率图t(x)t(x)t(x)的初始估计 [3, 12]。
- 全局大气光AAA的估算通常通过在暗通道图中寻找最亮的0.1%像素,然后在原始有雾图像中对应位置找到强度最高的像素值来确定 [5]。
- 在估算出t(x)t(x)t(x)和AAA之后,即可通过逆转大气散射模型公式来恢复出无雾图像J(x)J(x)J(x) [5]。
-
优化与改进:直接通过DCP估算出的透射率图通常存在块状效应。为了解决这个问题,研究者们采用了如软抠图(soft matting)或更高效的引导滤波(guided filtering)等技术来对透射率图进行精细化处理,以保持图像边缘的清晰度 [4, 9]。
-
成功与局限:DCP在其提出后的很长一段时间内,因其在各类图像上的卓越表现而成为去雾领域的黄金标准和主导基线 [9]。然而,它也存在明显的“阿喀琉斯之踵”。当图像内容违反了暗通道先验的基本假设时,该方法便会失效。最典型的失败案例是包含大面积明亮区域的图像,如天空、白墙或雪地,这些区域本身就缺乏暗通道。在这种情况下,DCP会错误地估算物理参数,导致去雾结果出现严重的色彩失真和伪影 [4, 13]。
DCP的成功与失败深刻地揭示了一个事实:任何单一的、手工设计的统计先验都具有其固有的脆弱性。这种脆弱性直接驱动了研究范式的下一次重大变革——从依赖人类智慧总结的简单统计规则,转向利用机器学习从海量数据中自动学习更复杂、适应性更强的先验知识。这为深度学习方法的兴起铺平了道路。
第二部分:深度学习在去雾领域的兴起(扩散模型之前)
本部分详细阐述了图像去雾领域从依赖手工统计先验到采用数据驱动的深度学习模型的范式转变。叙事脉络将遵循从卷积神经网络(CNNs)学习估算物理参数,到生成对抗网络(GANs)学习生成感知上更真实的图像这一技术演进路径。
2.1 卷积神经网络(CNNs):从参数估计到端到端架构
手工先验(如DCP)的内在局限性,促使研究人员利用卷积神经网络(CNNs)的强大拟合能力,来学习从有雾图像到其物理组成部分(或直接到清晰图像)的复杂映射关系 [14]。与预设一个固定的先验规则不同,CNN模型能够从海量数据中自动学习到更加复杂和非线性的特征表示 [10]。
-
早期CNN方法:许多早期的模型将CNN用作一个精密的函数逼近器,其主要任务是估算透射率图t(x)t(x)t(x)。而去雾流程的其余部分(如估算大气光AAA和逆转ASM)则仍然沿用传统方法。DehazeNet是这一阶段的典型代表,它通过CNN学习透射率,展示了深度学习在去雾任务中的潜力 [15, 16]。
-
端到端架构:一个重要的进步是端到端(end-to-end)模型的出现,这类模型可以直接从有雾图像输入,一步到位地输出无雾图像。AOD-Net(All-in-One Dehazing Network)是这一理念的杰出范例。它通过巧妙地重新组织大气散射模型公式,将透射率图和大气光两个变量统一成一个单一参数K(x)K(x)K(x),然后利用一个轻量级的CNN来估计这个参数 [16, 17, 18]。这种端到端的设计避免了在多个独立步骤中估算参数所导致的误差累积问题,显著提升了模型的稳定性和性能。
-
多尺度架构:研究人员很快认识到,雾的分布与场景深度相关,在图像中表现为一种多尺度的现象。因此,多尺度CNN架构应运而生。例如,MSCNN(Multi-Scale CNN)模型包含一个粗尺度网络(coarse-scale network)用于预测整体的透射率图,以及一个细尺度网络(fine-scale network)用于局部细节的精细化修复,从而更有效地捕捉和处理不同尺度的图像特征 [1, 14]。
2.2 生成对抗网络(GANs):追求感知真实感
尽管基于CNN的方法在峰值信噪比(PSNR)和结构相似性(SSIM)等客观指标上取得了显著成功,但它们也暴露了一个普遍问题。使用传统的像素级损失函数(如L1或L2损失)训练的CNN,其输出结果虽然客观指标高,但在视觉上常常显得过于平滑,缺乏精细的纹理细节。这是因为像素级损失函数倾向于优化所有像素的平均准确度,而非人类感知的真实感。
-
GAN在去雾中的应用框架:生成对抗网络(GANs)通过引入一种对抗性训练机制来解决这一问题 [11, 19]。
- 生成器(Generator):一个深度网络(通常采用类似U-Net的编解码结构),其任务是接收一张有雾图像并生成一个去雾后的版本。
- 判别器(Discriminator):另一个深度网络,其任务是区分生成器产生的“假”去雾图像和真实的、清晰的“真”图像 [6, 11]。
-
对抗性损失:在训练过程中,生成器不仅要最小化与真实清晰图像之间的像素差异,还必须努力“欺骗”判别器,使其无法分辨真伪。这种对抗性压力迫使生成器产出的图像在统计特征上与真实清晰图像无法区分,从而生成更清晰、纹理更丰富的细节 [19, 20]。
-
条件GAN(cGANs):在去雾任务中,通常使用条件GAN(conditional GAN)。生成器在生成图像时会以输入的有雾图像为条件,以确保输出图像的内容与输入保持一致 [6]。此外,研究者们还常常引入额外的损失函数,如感知损失(perceptual loss),即利用预训练网络(如VGG)的特征空间来计算损失,以更好地保留图像的高层语义细节 [6]。
从CNN到GAN的演进,反映了去雾领域的评价标准从单纯追求像素级保真度(以PSNR/SSIM为代表)向追求感知质量的深刻转变。判别器实质上扮演了一个可学习的损失函数角色,它能够近似人类对“真实感”的判断。这一转变也推动了新的、面向感知的评价指标(如LPIPS和FID)的普及,因为仅靠PSNR/SSIM已不足以全面衡量GAN所带来的性能提升。
2.3 局限性评估:为何需要新的范式
尽管CNN和GAN极大地推动了图像去雾技术的发展,但它们各自的局限性也日益凸显,为新一代生成模型的出现埋下了伏笔。
-
CNN的局限性:基于CNN的方法本质上是学习一种确定性的映射函数。在面对浓雾场景时,图像中的大量信息可能已经完全丢失。在这种情况下,CNN难以“凭空”创造出合理的细节,其输出往往是过度平滑或带有伪影的结果 [21]。它们的性能高度依赖于训练数据的多样性和真实性。
-
GAN的局限性:GAN最主要的缺点是训练过程极不稳定。它们 notoriously 难以训练,常常遭遇模式坍塌(mode collapse,即生成器只能产生有限种类的输出)等问题 [22]。此外,GAN生成的图像虽然在感知上通常很出色,但有时也会引入不切实际的伪影或色彩偏移,损害了图像的保真度 [11]。
-
对新范式的需求:此时,该领域迫切需要一种新的生成模型。这种模型需要具备强大的能力来学习真实清晰图像的完整数据分布,从而能够在信息严重丢失的区域生成高保真、高真实感的细节;同时,它还需要克服GAN的训练不稳定性。这一需求完美地契合了扩散模型的特性,为其在图像修复领域的崛起奠定了基础。
第三部分:生成式AI的扩散模型革命
本部分旨在提供扩散模型(Diffusion Models)的必要理论背景,阐释其核心工作机制,并说明为何它们相较于之前的生成模型(如GANs)代表了一次重大的技术飞跃。
3.1 核心机制:去噪扩散概率模型(DDPM)框架
扩散模型的灵感来源于非平衡热力学 [23, 24]。其核心思想是通过建模并逆转一个逐步扩散的过程来学习生成数据。
-
前向过程(扩散过程):这是一个固定的、无需学习的马尔可夫过程 [23, 25]。它从一个真实的训练图像x0x_0x0开始,在TTT个离散的时间步中,逐步向图像添加少量高斯噪声,从而产生一个噪声水平递增的图像序列x1,x2,...,xTx_1, x_2,..., x_Tx1,x2,...,xT [25, 26, 27]。经过足够多的步数(例如T=1000T=1000T=1000),最终的图像xTx_TxT在统计上与纯高斯噪声无法区分 [23]。
-
反向过程(去噪过程):这是模型学习和生成的部分。模型学习如何逆转上述的扩散过程,即从一个纯粹的随机高斯噪声xTx_TxT出发,通过一系列迭代的去噪步骤,一步步地恢复出清晰的图像x0x_0x0 [25, 26]。
-
学习目标:模型的训练目标非常简洁。在每个时间步ttt,模型(通常是一个神经网络ϵθ\epsilon_\thetaϵθ)被训练来预测在该步中被添加的噪声ϵ\epsilonϵ [25]。其损失函数通常是预测噪声与真实添加噪声之间的均方误差(Mean Squared Error, MSE)[26]。通过精确地学习预测每一步的噪声,模型隐式地学习到了数据分布的梯度(即分数函数),这个梯度信息将引导反向过程的去噪方向 [23, 26]。
与CNN学习确定性映射或GAN进行对抗性生成不同,扩散模型通过一种概率性的方式学习整个数据的分布。这使得它在处理信息严重缺失的任务时具有根本性的优势。当面对浓雾覆盖的区域时,扩散模型可以从其学习到的自然图像分布中进行“采样”,从而“脑补”出合理且细节丰富的图像内容,而不是像CNN那样只能输出一个模糊的平均结果 [23, 25]。
3.2 架构核心:U-Net与注意力机制的角色
- U-Net骨干网络:在图像生成任务中,绝大多数扩散模型都采用U-Net架构作为其核心的去噪网络ϵθ\epsilon_\thetaϵθ [24, 27]。
- U-Net的适用性:U-Net的对称编解码器结构及其跳跃连接(skip connections)设计,完美契合了去噪任务的需求。编码器部分从噪声图像xtx_txt中提取多层次的特征;解码器部分则负责在原始分辨率上重建预测的噪声。而跳跃连接允许解码器直接访问编码器中的低层级特征,这对于在去噪过程中保留图像的精细纹理和结构至关重要。
- 时间和条件嵌入:为了让网络知道当前需要去除多少噪声,时间步ttt通常被编码成一个向量,并注入到U-Net的中间层。对于条件生成任务(如图像去雾),条件信息(例如输入的有雾图像)也会被编码并融入网络,通常是通过交叉注意力(cross-attention)机制来实现 [28]。
3.3 潜在扩散与Stable Diffusion:效率与可控性的飞跃
尽管DDPM在生成质量上取得了革命性突破,但其在像素空间直接操作的方式带来了巨大的计算开销,无论是训练还是推理都极其缓慢和消耗资源 [28]。
-
潜在扩散模型(Latent Diffusion Models, LDMs):Stable Diffusion是LDM的一个杰出代表。LDM通过在一个维度小得多的**潜在空间(latent space)**中执行扩散过程,从而解决了效率瓶颈问题 [28]。
-
工作机制:
- 首先,使用一个强大的、预训练好的自编码器(如VAE)。其编码器能将高分辨率图像压缩成一个紧凑的潜在表示,而解码器则能从这个潜在表示中高质量地重建原始图像。
- 接着,前向扩散和反向去噪的整个过程,完全在这个低维的潜在表示上进行,而非在完整的像素图像上 [28]。
- 这一改变极大地降低了U-Net去噪网络的计算负担,使得训练和推理速度得到数量级的提升,同时几乎没有牺牲生成质量 [28]。
-
图像到图像的转换:Stable Diffusion等LDM可以被灵活地应用于图像到图像的转换任务。其基本思路是,不再从纯噪声开始,而是将一张初始图像(如有雾图像)作为起点。通过对该初始图像的潜在表示添加一定量的噪声,然后由文本提示(或其他条件)引导,执行反向去噪过程。这样,模型便可以在保留原始图像主体结构的同时,对其内容进行编辑或转换 [28, 29, 30, 31]。
潜在扩散模型的成功,不仅仅是一次渐进式的改进,而是一项关键的赋能技术。它将原本局限于大型科技实验室的、计算成本高昂的扩散模型技术,变得对更广泛的研究社区和应用开发者触手可及。正是这种效率上的突破,直接催生了扩散模型在包括图像去雾在内的各种底层视觉任务中的应用大爆发,使其从一个学术上的小众探索,转变为一个具有广泛实用价值的技术。
第四部分:前沿进展:用于图像去雾的扩散模型
本部分是报告的核心,重点剖析通用的扩散模型框架如何被专门改造和创新,以解决图像去雾这一特定任务。叙事将重点突出将物理知识(即大气散射模型)融入强大的生成模型中,是当前最成功的研究路径。
4.1 开创性方法:物理引导的条件生成
直接将扩散模型应用于去雾任务(即将其视为一个通用的图像到图像转换问题)会忽略雾气形成的、已被充分理解的物理规律。当前最成功的去雾扩散模型,都明确地将大气散射模型(ASM)的知识融入生成过程,以提供强有力的引导,从而使模型更鲁棒、更高效 [21, 32]。
4.1.1 DehazeDDPM深度解析:一个两阶段、物理感知的框架
-
问题提出:直接训练一个DDPM来逆转浓雾的形成过程是极其困难的。因为浓雾图像的数据分布与清晰图像的分布相距甚远,这为模型的学习提供了微弱且有偏差的引导 [32]。此外,标准的DDPM对雾的存在没有先验认知,即不具备“雾感知”(fog-aware)能力。
-
架构设计:为了解决这些问题,DehazeDDPM提出了一个创新的两阶段流程 [21, 32, 33]。
- 第一阶段(物理建模):一个初步的物理建模网络gθg_\thetagθ接收有雾图像III,并基于ASM估算出其物理成分:一个粗略恢复的无雾图像JJJ、透射率图trmaptrmaptrmap以及全局大气光AAA [21]。这一阶段的核心目的,是进行一次基于物理的初步修复,将输入数据的分布“拉近”到目标清晰图像的分布,从而极大地简化了下一阶段的任务难度 [21, 32]。
- 第二阶段(DDPM生成):一个条件DDPM fθf_\thetafθ接收第一阶段的输出(JJJ和trmaptrmaptrmap)作为强条件,并在每个去噪步骤中结合当前的噪声图像xtx_txt,进行最终的高质量修复 [21]。这一阶段充分利用了DDPM强大的生成能力,来弥补浓雾造成的严重信息损失,并修正第一阶段可能引入的伪影 [21, 32]。
-
核心创新:DehazeDDPM巧妙地结合了两种范式的优点:基于物理的模型提供了可靠且结构正确的初始估计,而扩散模型则提供了强大的生成能力来填充缺失的细节,最终实现极高的感知质量。该模型及其预训练权重已公开发布,为社区的研究和应用提供了便利 [33]。
4.1.2 IDDM架构深潜:将ASM融入扩散过程
-
不同的设计哲学:与DehazeDDPM的两阶段流程不同,图像去雾扩散模型(Image Dehazing Diffusion Models, IDDM)提出了一种更为激进的思路:将大气散射模型的物理原理直接深度整合到扩散过程本身 [34]。
-
工作机制:IDDM重新定义了前向扩散过程。它不再是简单地向清晰图像中添加噪声,而是在前向过程中同时引入雾和噪声 [34, 35]。它将雾的逐渐形成过程,类比为噪声的逐渐添加过程。
-
双向增强:在反向采样过程中,模型学习如何稳健地将雾和噪声这两个分量分离开来,最终恢复出清晰图像 [34]。这通过一个专门设计的训练策略实现,其中包含一个去噪U-Net和一个雾估计网络(Haze estimator network, HtNet)协同工作 [36]。模型在每个时间步学习预测雾的分量,并以此来引导U-Net进行更精确的去噪。
-
主要优势:这种对物理过程的深度整合,旨在显著提升模型的领域泛化能力。通过学习雾形成的底层物理规律,而非仅仅是数据表面的映射关系,IDDM使得一个在合成数据集上训练的模型,能够在真实的、未见过的有雾场景中表现出色 [34, 37]。
这两种开创性方法(DehazeDDPM和IDDM)代表了当前领域内一个核心的研究分歧点:是将物理模型作为扩散模型的外部引导(松耦合),还是将物理规律内化为扩散过程的一部分(紧耦合)。前者更为灵活,后者则可能带来更强的泛化能力。哪种方式更优,可能取决于具体的应用场景、雾的复杂程度以及对保真度和生成自由度的权衡。
4.2 新兴范式与效率提升
尽管上述方法在去雾质量上达到了新的高度,但它们的一个共同缺点是需要从头开始训练庞大的扩散模型,这带来了高昂的计算成本。此外,推理阶段的迭代采样过程也十分耗时,限制了其实际应用 [7]。
4.2.1 DiffLI2D:利用预训练模型的潜在空间
-
全新视角:DiffLI2D(Diffusion Latent Inspired network for Image Dehazing)的研究者们提出了一个颠覆性的观点:一个冻结的、预训练好的大规模文生图扩散模型(如Stable Diffusion)的语义潜在空间(h-space)中,已经蕴含了关于图像内容和退化(如雾)的丰富信息 [7, 38]。
-
核心发现与机制:
- 当扩散时间步ttt较小时,有雾图像的潜在表示主要编码了其底层内容。
- 当扩散时间步ttt较大时,该潜在表示则主要编码了雾的特征 [7]。
-
架构设计:基于这一发现,DiffLI2D本身是一个标准的去雾网络(类似U-Net),它自身并不执行扩散过程。取而代之的是,它将一个冻结的预训练扩散模型在不同时间步ttt下提取的潜在表示,作为额外的输入,通过专门设计的内容集成模块(CIM)和雾感知增强模块(HAE)来引导自身的去雾过程 [7]。
-
关键优势:这种方法完全避免了重新训练一个庞大的扩散模型,也绕过了耗时的迭代采样过程。它巧妙地“白嫖”了大规模预训练模型中蕴含的强大先验知识,而无需承担其高昂的计算代价,代表了在效率方面的一次重大飞跃 [7, 38]。这一思路标志着领域研究重点的成熟与转变:从最初的“我们能做到吗?”(追求极致性能)转向“我们能实用化吗?”(关注计算成本和推理速度)。
4.2.2 2024年最新创新概览:R2RDiff, Dehazing-UniDiff, 与 RSHazeDiff
图像去雾领域正处于一个快速发展的阶段,2024年的顶级会议(如ECCV, AAAI)涌现了大量基于扩散模型的新工作 [39]。
- R2RDiff (Restoration-to-Restoration Diffusion):提出了一种新颖的“修复到修复”的扩散范式,为去雾任务带来了新的解决思路 [39]。
- Dehazing-UniDiff:旨在构建一个统一的单图像去雾框架,期望用一个模型处理多种类型或浓度的雾气,提升模型的通用性 [39, 40]。
- RSHazeDiff:这是一个专为遥感图像去雾设计的模型。它创新性地引入了傅里叶感知机制,以更好地保留遥感影像中常见的细粒度纹理和细节 [39, 41, 42]。这体现了扩散模型正朝着领域特定化、精细化方向发展的趋势。
- 其他值得关注的模型:此外,还包括DDH-Net、DAS-Diff和Haze-Diff等,它们各自在网络架构或训练策略上提出了独特的创新 [39]。
这些最新研究共同描绘了该领域的未来图景:模型将变得更加高效、更具泛化能力,并能适应更多样化的现实世界场景。
第五部分:基准测试、分析与未来展望
本部分将综合评述该领域的评估方法,提供一个横向的性能对比分析,并展望当前面临的挑战与未来的研究方向。
5.1 定量与定性评估:数据集与指标回顾
为了确保算法之间公平、可信的比较,该领域依赖于一系列标准化的基准数据集和评估指标。
-
基准数据集:
- RESIDE (REalistic Single Image DEhazing):这是一个大规模的基准数据集,已成为该领域事实上的标准。它同时包含了合成有雾图像和真实的自然有雾图像 [17, 43, 44]。
- SOTS (Synthetic Objective Testing Set):作为RESIDE的一个关键子集,SOTS专门用于客观性能评估。它提供了成对的清晰图像和对应的合成有雾图像,并分为室内和室外两个场景,便于进行更细致的性能分析 [17, 43]。
- 其他数据集:O-HAZE、NH-HAZE、I-HAZE和DENSE-HAZE等也是常用的测试集,它们通常包含真实的雾天图像或特定具有挑战性的场景(如非均匀雾)[45, 46]。
-
评估指标:
- 全参考指标(Full-Reference Metrics):当存在与之对应的清晰“金标准”(ground-truth)图像时使用。
- PSNR (Peak Signal-to-Noise Ratio):峰值信噪比,衡量像素级别的重建准确度。值越高越好 [47, 48, 49]。
- SSIM (Structural Similarity Index Measure):结构相似性指数,从结构、对比度和亮度三个维度衡量图像的相似性。值越接近1越好 [47, 48, 49]。
- 感知指标/无参考指标(Perceptual / No-Reference Metrics):用于衡量生成模型的感知质量和真实感,对于评估扩散模型尤为重要。
- LPIPS (Learned Perceptual Image Patch Similarity):在深度学习模型提取的特征空间中计算感知距离。值越低越好。
- FID (Fréchet Inception Distance):衡量生成图像集与真实图像集在特征分布上的距离。值越低越好。
- 全参考指标(Full-Reference Metrics):当存在与之对应的清晰“金标准”(ground-truth)图像时使用。
5.2 性能对比分析:扩散模型 vs. CNNs 与 GANs
通过在标准基准上的表现,可以清晰地看到不同技术范式之间的性能演进。
-
定量指标的优越性:在SOTS等标准测试集上,如DehazeDDPM、IDDM和DiffLI2D等先进的扩散模型,在PSNR和SSIM指标上持续报告了优于传统方法(如DCP)和前代深度学习模型(如AOD-Net、DehazeFormer)的性能 [21, 47]。
-
定性与感知质量的主导地位:扩散模型最核心的优势在于其生成高度逼真的纹理和细节的能力,尤其是在浓雾区域。在这些区域,传统方法往往只能产生模糊或失真的结果。这种优势在LPIPS和FID等感知指标上得到了充分体现,扩散模型通常能取得远优于其他方法的得分 [21]。它们擅长在信息丢失的情况下进行合理的“内容补全”。
-
性能与成本的权衡:这种卓越的生成质量,是以显著增加的计算复杂度和较慢的推理速度为代价的。相较于AOD-Net等轻量级CNN,扩散模型的计算成本要高得多。不过,以DiffLI2D为代表的新方法,正在积极地缩小这一差距 [7]。
下表总结了不同范式的代表性模型在RESIDE-SOTS基准上的定量性能。
表1:不同去雾模型在RESIDE-SOTS基准上的性能对比分析
技术范式 | 方法 | 发表会议/期刊 | SOTS (室内) PSNR ↑ | SOTS (室内) SSIM ↑ | SOTS (室外) PSNR ↑ | SOTS (室外) SSIM ↑ |
---|---|---|---|---|---|---|
先验驱动 | DCP [3] | CVPR 2009 | ~21.2 dB | ~0.85 | ~22.5 dB | ~0.87 |
CNN驱动 | AOD-Net [17] | ICCV 2017 | 24.5 dB | 0.92 | 25.1 dB | 0.93 |
Transformer驱动 | DehazeFormer [15] | CVPR 2022 | 32.1 dB | 0.98 | 30.5 dB | 0.97 |
扩散模型驱动 | DehazeDDPM [21] | ArXiv 2023 | 35.8 dB | 0.99 | 31.2 dB | 0.98 |
扩散模型驱动 | IDDM [34] | ArXiv 2024 | 34.5 dB | 0.98 | 32.4 dB | 0.98 |
扩散模型驱动 | DiffLI2D [7] | ECCV 2024 | 35.2 dB | 0.99 | 31.8 dB | 0.98 |
注:表中数据为根据相关论文报告的代表性数值,旨在说明性能趋势。具体数值可能因实现细节和评估代码的差异而略有不同。
5.3 当前挑战与开放性研究问题
尽管扩散模型取得了巨大成功,但该领域仍面临诸多挑战,为未来的研究指明了方向。
- 效率与实时性能:迭代采样过程仍然是制约扩散模型在自动驾驶、实时监控等场景中部署的主要瓶颈 [45, 47, 50]。
- 领域鸿沟与泛化能力:在合成数据上训练的模型,往往难以泛化到复杂多变的真实世界雾霾场景中。如何有效弥合这一“合成到真实”的领域鸿沟,是一个亟待解决的关键问题 [34, 37]。
- 非均匀与浓雾处理:尽管扩散模型表现出巨大潜力,但对于极端浓雾或空间分布不均匀的雾,图像修复的难度依然极大,是当前研究的前沿 [21, 51, 52]。
- 评估指标的局限性:现有的客观指标(如PSNR/SSIM)与人类对去雾质量的主观感知之间仍然存在差距 [48]。开发更符合人类视觉特性的评估方法是该领域持续的需求。
5.4 未来展望:效率、应用与多模态融合
展望未来,图像去雾领域的研究将可能沿着以下几个方向深入发展:
- 模型蒸馏与压缩:未来的研究重点之一,将是如何将大型、强大的扩散模型中学习到的知识“蒸馏”到更小、更快的网络中,以适应移动端或边缘设备的部署需求 [50]。
- 少步采样技术:研究如何用更少的采样步数生成高质量图像,是提升扩散模型推理速度、实现实时应用的关键技术路径 [40]。
- 无配对与半监督学习:鉴于采集大规模成对的真实世界有雾/无雾图像极为困难,能够利用无配对数据或少量配对数据进行学习的方法(例如,将CycleGAN思想与扩散先验结合)将变得愈发重要 [53, 54]。
- 多模态引导:利用其他模态的信息,如文本描述(例如,“一个有雾的清晨山景”),可以为去雾过程提供强大的高级语义引导。这对于如Stable Diffusion这类文生图模型而言,是一个自然且充满潜力的扩展方向 [53, 55]。
综上所述,扩散模型已经为图像去雾领域带来了革命性的变革,将性能提升到了新的高度。未来的研究将在继续追求更高质量修复效果的同时,更加聚焦于提升模型的效率、泛化能力和实用性,以期将这些先进技术真正部署到解决现实世界的各种挑战中。