IDF: Iterative Dynamic Filtering Networks for Generalizable Image Denoising
IDF:迭代动态滤波网络用于广义图像去噪
论文链接:https://arxiv.org/abs/2508.19649
项目链接:https://dongjinkim9.github.io/projects/idf/
Abstract
图像去噪是计算机视觉中的一个基本挑战,在摄影和医学成像中有应用。虽然基于深度学习的方法已经取得了显著的成功,但它们对特定噪声分布的依赖限制了对不可见噪声类型和水平的推广。现有方法试图通过大量训练数据和高计算资源来解决这个问题,但它们仍然存在过拟合问题。为了解决这些问题,我们通过高效的操作利用动态生成的核来进行图像去噪。这种方法有助于防止过拟合并提高对不可见噪声的恢复能力。具体来说,我们的方法利用了一个用于鲁棒噪声不变特征的特征提取模块,全局统计和局部相关模块来捕获全面的噪声特征和结构相关性。然后,核预测模块使用这些线索来产生适应局部结构的逐像素变化核,然后迭代地应用于去噪。这确保了效率和上级恢复质量。尽管是在单级高斯噪声上训练的,我们的紧凑型模型(0.04 M)在不同的噪声类型和级别上表现出色,证明了迭代动态滤波在实际图像去噪中的前景。
1. Introduction
图像去噪仍然是计算机视觉中的一个基本但具有挑战性的问题,其应用范围涵盖摄影和医学成像。最近,基于深度学习的方法[9,10,44,68,78,79,82-85,88]通过学习从噪声输入到干净输出的端到端映射,表现出卓越的性能。然而,这些方法中的许多方法专门针对其训练数据集中存在的噪声分布,当面对不可见的噪声类型或水平时,限制了其泛化能力[8,11,52,82,85]。
为了应对这些挑战,已经提出了几种策略来提高对分布外(OOD)噪声的鲁棒性。例如,自监督去噪网络[5,26,37,39,41,42,56,69,81]使神经网络适应未知的噪声分布,而无需访问干净的图像。然而,这些方法容易受到训练数据中不包括的噪声类型的影响,并且通常需要耗时的测试时间适应[30,45,53]。相反,各种方法[2,27,31,33,35,75,77]试图通过噪声建模技术创建合成训练数据集来减轻过拟合问题。然而,对OOD噪声的弹性仍然有限,因为噪声模型被限制在训练分布中。而基于先验的方法[11,13,40,46]利用来自在大型训练数据集上训练的预训练模型的先验来提取用于鲁棒去噪的失真不变特征。尽管如此,这些方法也局限于广泛的预训练不可行的情况。最近,基于掩蔽训练策略,MaskedDenoising [8]被提出来正则化网络以学习内在图像结构,而不是过拟合特定的噪声模式。然而,由于掩码训练严重依赖于随机掩码,因此它在具有细粒度纹理的区域中表现不佳。
为了克服这些限制,我们探索了一种轻量级的动态核预测方法,它提供了一种使滤波操作适应局部图像上下文的方法。与静态卷积滤波器不同,动态核是在每个像素的基础上生成的,使网络能够更好地捕捉空间变化的结构和噪声模式。此外,我们研究了迭代细化策略,这已经证明了在保持计算效率的同时逐步增强预测的有效性,并且已经成功地用于各种低级视觉任务[65,87]。
受这些方法的启发,我们提出了一种新的迭代动态过滤网络(IDF),它集成了动态内核预测与自适应迭代方案。我们的方法建立在几个关键组件上。首先,核预测模块(KPM)生成逐像素变化的去噪核,并通过强制其元素总和为1来正则化它们。这种总和为1的约束确保每个核函数作为加权平均算子,引导模型进行内容自适应平均,而不是记忆特定的噪声模式。此外,特征提取模块(FEM)应用样本归一化,使特征统计数据稳定,免受不可见的噪声水平的影响。此外,全局统计模块(GSM)和局部相关模块(LCM)添加了互补的全局和局部线索 (global and local cues),以提高内核预测。总的来说,这些策略防止了训练噪声的记忆并鼓励噪声不变表示的学习。最后,采用自适应迭代去噪策略,其中迭代次数基于从预测核导出的置信度来动态调整,从而确保效率和高质量的去噪。
如图1所示,尽管仅在单一水平的高斯噪声上进行训练,(例如,σ = 15),我们的方法优于传统的去噪方法,同时保持紧凑的模型大小具体地,IDF展示了跨各种合成噪声类型的有效泛化,包括高斯、泊松、斑点、椒盐、空间相关高斯、和蒙特卡洛渲染的图像噪声,以及各种传感器(如智能手机和数码单反相机)捕获的真实世界噪声。
2. Related Works
2.1. 图像去噪
图像去噪是图像处理中的一个长期存在的问题。传统的去噪方法通常依赖于小滤波器或手工制作的先验[6,14,57,62,65]。例如,非局部均值[6]利用自相似性并将每个像素值替换为图像中相似块的加权平均值。同样,BM3D [14]将相似的patch聚类到3D数组中,并在变换域中应用协同滤波,从而利用非局部冗余和稀疏性。然而,这些基于先验的方法具有固有的局限性:他们的模型是手工设计的,只依赖于给定的噪声图像,而不是从大规模的外部数据中受益。
相比之下,现代方法采用了数据驱动的深度学习方法[9,10,44,68,78,79,82-85,88],其中在噪声-干净图像对的广泛数据集上训练的卷积神经网络(CNN)在噪声去除方面取得了有竞争力的结果。最近,在去噪任务中引入了Transformer和状态空间模型[18,19,1例如,SwinIR [44]和Restormer [79]等方法采用自注意机制来捕获长距离依赖关系,从而提高了基准数据集的性能。此外,MambaIR [18]和MambaIRv2 [19]采用选择性结构化状态空间模型来捕获具有线性复杂度的长距离依赖关系。
2.2. OOD泛化
最近的研究已经探索了可推广的图像去噪方法,这些方法对不可见的噪声表现出增强的鲁棒性[8,11,43,52,73,74,82,85]。其中一种方法涉及训练能够处理一系列噪声水平或类型的噪声盲模型。例如,DnCNN [82]可以在混合噪声水平上以噪声盲的方式进行训练,以处理未知噪声。另一个有前途的方向是掩蔽去噪方案[8],其中随机输入patch在训练期间被屏蔽。这迫使网络从其周围环境中重建丢失的内容,鼓励学习内在图像结构,而不是过度拟合特定的噪声模式。最近,CLIPDenoising [11]利用视觉语言模型的特征来增强鲁棒性。通过将CLIP图像编码器[59]中的密集特征纳入去噪网络,这种方法提供了失真不变和内容感知的指导,使模型能够超越训练期间观察到的噪声特征。
2.3. 动态核预测
动态滤波器网络代表一类方法,其中滤波器权重根据输入自适应地生成,而不是在训练后固定。与在所有空间位置均匀应用相同学习内核的传统CNN不同,动态滤波器网络产生内容相关内核,支持特定于位置和特定于输入的操作。这种适应性允许网络根据局部模式定制其处理,具有空间变化特性的视觉任务的高度期望的属性[4,24,51,55,64,65]。
例如,在蒙特卡洛渲染图像去噪的背景下,Kernel-Predicting CNN [4]引入了一种新方法,该方法预测空间变化的卷积核,而不是直接输出去噪像素值。这种方法利用了额外的场景信息,如深度,法线和法线,以增强去噪性能。类似地,对于连拍摄影去噪,核预测网络[51]为每个像素生成三维去噪核,有效地合并来自多个噪声图像的信息。在sRGB图像去噪中,ADFNet [64]采用空间增强的核生成器,在预测每个滤波器时捕获更大的上下文,从而解决早期动态滤波器方法的有限空间感知问题。
2.4. 迭代细化
迭代细化是一种从粗到精的校正策略,广泛用于许多任务[20-23,60,63,65,71,76,87]。模型从初始估计开始,测量残差,应用学习更新,并重复此循环,直到收敛。DBPN [21]引入了迭代上下采样模块,用于超采样,分辨率。反向投影层生成的残差在早期阶段捕获全局结构,而后期迭代则专注于高频细节。ResShift [76]采用扩散驱动的超分辨率范例。它形成了一个马尔可夫链,通过逐步移动残差在高分辨率和低分辨率图像之间传输,这提高了转换效率,并平衡了感知质量与重建保真度。IDR [87]通过重复去除噪声同时在中间步骤添加高斯扰动来解决无监督图像去噪。该过程增强了对真实世界噪声基准的鲁棒性。利用这些好处,我们的工作将迭代细化带入去噪域,提出了一个有效和鲁棒的框架,逐步消除噪音。
3. Proposed Method
3.1. 整体流程
在图2中,我们展示了IDF的整体流程。在训练和推理阶段,我们都采用了迭代去噪方案。输入噪声图像INoisy\textbf{I}_\text{Noisy}INoisy使用T个动态图像去噪(DID)块进行渐进去噪,以估计干净图像I^Clean(T){\hat{\textbf{I}}}_\text{Clean}^{(T)}I^Clean(T),其中这些DID块的权重在所有迭代中共享,以减少可训练参数的数量并避免过拟合。在推理过程中,IDF提供了两种去噪策略:固定迭代和自适应迭代。在固定迭代策略中,噪声图像被降噪预定的迭代次数(固定T),而自适应迭代策略动态地确定迭代次数。如图2(b)所示,平均核(置信度图)从预测的核导出的映射用于基于输入噪声和图像内容的复杂度来动态地调整迭代的次数。迭代去噪过程的收敛信息。这种自适应方法可以通过在达到足够的去噪后提前终止迭代过程来加快推理速度,从而有效地减少计算开销,同时保持相当的去噪性能。
3.2. 动态图像去噪 (DID)
如图3所示,DID块估计逐像素变化的核,这些核自适应地聚合全局和局部信息以执行去噪。该过程重复T次迭代。具体地,在第t次迭代(其中1 ≤ t ≤ T),通过用大小为K×KK × KK×K的核展开来对来自DID块的先前去噪的图像I^Clean(t−1){\hat{\textbf{I}}}_\text{Clean}^{(t-1)}I^Clean(t−1)进行patch化以生成重叠patch,y(t)∈RC×K2×(H⋅W)y^{(t)} \in \mathbb{R}^{C×K^2×(H·W)}y(t)∈RC×K2×(H⋅W),其中C、H和W分别表示输入图像的通道数、高度和宽度。这些块被用作DID块的输入。值得注意的是,输入噪声图像最初被用作I^Clean(0)=INoisy{\hat{\textbf{I}}}_\text{Clean}^{(0)}=\textbf{I}_\text{Noisy}I^Clean(0)=INoisy。此外,在每次迭代的块提取期间,我们调整膨胀率,其控制邻域内的元素的步幅(例如,在2和1的膨胀率之间交替)以鼓励学习不同的特征。
然后,使用输入patch y(t)y^{(t)}y(t),DID块预测去噪核w(t)∈RC×K2×(H⋅W)w^{(t)} \in \mathbb{R}^{C×K^2×(H·W)}w(t)∈RC×K2×(H⋅W),将其应用于输入patch并获得去噪输出x(t)x^{(t)}x(t)。遵循[4,51]中的方法,在每个RGB通道上均匀地应用相同的权重。对于像素位置i处的patch,使用卷积运算执行去噪,如下所示:
xi(t)=wi(t)⊛yi(t),(1)\mathbf{x}_i^{(t)}=\mathbf{w}_i^{(t)}\circledast\mathbf{y}_i^{(t)},\tag{1} xi(t)=wi(t)⊛yi(t),(1)
其中,⊛\circledast⊛表示2-D卷积运算。最后,通过如下重新整形重叠的块I^Clean(t)\mathbf{\hat{I}}_{\mathrm{Clean}}^{(t)}I^Clean(t)来获得去噪图像:
I^Clean(t)=Reshape(x(t)),(2)\mathbf{\hat{I}}_{\mathrm{Clean}}^{(t)}=\mathrm{Reshape}(\mathbf{x}^{(t)}),\tag{2} I^Clean(t)=Reshape(x(t)),(2)
其中Reshape表示整形操作。
具体而言,为了动态地生成逐像素变化的核,我们的DID块由四个主要组件组成:特征提取模块(FEM)、局部相关模块(LCM)、全局统计模块(GSM)和内核预测模块(KPM),如图3(b)所示。我们在下面提供对每个模块的详细解释。
特征提取模块(FEM)。为了预测DID中的逐像素变化的核,我们首先通过FEM提取特征。众所周知,提高去噪网络的泛化性能依赖于提取对不可见噪声不变的鲁棒特征[8,11],这些特征提取器需要大量数据来训练,并且如果在有限的噪声分布上训练,则可能遭受过拟合(例如,具有σ = 15的高斯噪声)。为了解决由在有限的噪声分布上训练引起的这些问题并设计鲁棒的特征提取器,我们将FEM设计为浅的,但对总体噪声水平不变,从而确保跨不同的真实世界噪声条件的一致特征范围。受以前工作的启发[28,29,36,80],,我们首先采用一种简单而有效的归一化技术:均方根(RMS)归一化,它对FEM的输入幅度进行归一化。具体来说,我们通过RMS在其通道和空间维度上对输入进行归一化,如下所示:
Norm(a)=a1N∑i=1N(ai)2+ϵ,(3)\mathrm{Norm}(\mathbf{a})=\frac{\mathbf{a}}{\sqrt{\frac{1}{N}\sum_{i=1}^{N}\left(\mathbf{a}_{i}\right)^{2}}+\epsilon},\tag{3} Norm(a)=N1∑i=1N(ai)2+ϵa,(3)
其中a表示归一化的输入,N表示输入元素的总数(例如CHW),并且为了数值稳定性,将小常数设置为10−4。通过这种逐样本归一化方法,FEM对全局噪声水平变化具有鲁棒性。
在这个归一化步骤之后,浅层特征提取器(FE)提取特征。FE由两个顺序的3 × 3卷积层组成,每个卷积层后面都有一个ReLU激活函数,确保简单性和效率,公式如下:
FFE(t)=FE(Norm(I^Clean(t−1))),(4)\mathbf{F}_{\mathrm{FE}}^{(t)}=\mathrm{FE}\left(\mathrm{Norm}\left(\mathbf{\hat{I}}_{\mathrm{Clean}}^{(t-1)}\right)\right),\tag{4} FFE(t)=FE(Norm(I^Clean(t−1))),(4)
其中FFE(t)F^{(t)}_{FE}FFE(t)表示迭代ttt时的FEM特征。
全局统计模块(GSM)。在去噪中,众所周知,全局信息(如ISO)可以显著帮助提高性能[32,70,84]。因此,在我们的GSM中,我们的目标是估计此类噪声水平信息。估计输入噪声图像的准确噪声水平是一个具有挑战性的问题。然而,我们的框架采用迭代方法,逐渐去除噪声,我们可以通过比较输入和输出图像之间的差异来估计在前一个迭代步骤中去除的噪声量。在GSM中,我们使用此信息来提高后续迭代中的核预测精度。
具体来说,为了估计在前一步中去除的噪声量,我们首先计算残差噪声IRes(t)I^{(t)}_\text{Res}IRes(t),如下所示:
IRes(t)=I^Clean(t−1)−I^Clean(t−2).(5)\mathbf{I}_\mathrm{Res}^{(t)}=\mathbf{\hat{I}}_\mathrm{Clean}^{(t-1)}-\mathbf{\hat{I}}_\mathrm{Clean}^{(t-2)}.\tag{5} IRes(t)=I^Clean(t−1)−I^Clean(t−2).(5)
注意,对于第一次迭代(t = 1),GSM不适用,因为没有可用的残差。
随后,我们计算每个通道的IRes(t)I^{(t)}_\text{Res}IRes(t)的平均值μ和标准差σ,它们用作噪声统计的全局度量。特别是,这些统计特征由GS模块进一步处理,包括几个1 × 1卷积和归一化,如图3(b)所示,并产生GSM特征FGS(t)F^{(t)}_\text{GS}FGS(t)如下:
FGS(t)=GS([μ(IRes(t)),σ(IRes(t))]]).(6)\left.\mathbf{F}_{\mathrm{GS}}^{(t)}=\mathrm{GS}\left(\left[\mu(\mathbf{I}_{\mathrm{Res}}^{(t)}),\sigma(\mathbf{I}_{\mathrm{Res}}^{(t)})\right]\right]\right).\tag{6} FGS(t)=GS([μ(IRes(t)),σ(IRes(t))]]).(6)
局部相关模块(LCM)。由于自适应核受输入图像的局部结构的影响,因此必须引导内核预测器集中于patch内存在的结构。为此,我们提出了LCM,其中通过评估输入图像的patch内像素之间的相似性来计算局部相关图。具体地说,遵循先前工作[41,69]中的方法,我们通过计算迭代t时每个片y(t)y^{(t)}y(t)内的相邻像素和中心像素之间的皮尔逊相关系数来定义LCM特征FLC(t)F^{(t)}_\text{LC}FLC(t)。通过合并局部相关信息,以下核预测模块可以更有效地区分高自相似性区域(例如,均匀区域)和结构化区域(例如边缘)。在均匀区域中,高相关性值表明近似均匀的核适合于平均噪声。相反,在低相关性区域中,网络学习为核分配更具选择性的权重,从而保留重要的细节。
核预测模块(KPM)。基于FEM、GSM和LCM提取的特征,我们的KPM输出逐像素变化的去噪核,以利用每个patch内的相邻信息。在KPM中,我们首先通过将FGS(t)F_{\mathrm{GS}}^{(t)}FGS(t) 乘以 FFE(t)\mathbf{F}_{\mathrm{FE}}^{(t)}FFE(t)来将类似通道注意力的机制[66]应用于输入特征FFE(t)F_\mathrm{FE}^{(t)}FFE(t)。随后,将得到的特征图与LCM特征FLC(t)F_\mathrm{LC}^{(t)}FLC(t)连接,然后将连接的特征归一化以考虑输入源之间的幅度差,然后应用3×3卷积来生成核权重w(t)\mathbf{w}^{(t)}w(t)。迭代t时的该过程表示如下:
w(t)=Conv3×3(Norm([FFE(t)⊙FGS(t),FLC(t)])),(7)\mathbf{w}^{(t)}=\mathrm{Conv}_{3\times3}\left(\mathrm{Norm}\left([\mathbf{F}_{\mathrm{FE}}^{(t)}\odot\mathbf{F}_{\mathrm{GS}}^{(t)},\mathbf{F}_{\mathrm{LC}}^{(t)}]\right)\right), \tag{7} w(t)=Conv3×3(Norm([FFE(t)⊙FGS(t),FLC(t)])),(7)
其中,⊙\odot⊙表示逐元素乘法。
此外,为了正则化核表示,我们对去噪核施加了额外的约束。根据以前的工作[4,51],我们通过强制其元素总和为1来正则化核。这个总和为1的约束使每个核成为加权平均算子;它保留了平均信号强度,因此避免了当网络遇到噪声统计时的亮度或颜色偏移。该约束还降低了预测空间中的自由度,阻止网络记住训练噪声模式。
与[4,51]中使用的指数归一化方法不同,我们采用幂归一化[34,48,49,58],因为与基于指数的函数(如softmax)相比,它对离群值的敏感性较低,而且计算简单。给定输入核w(t)∈R1×K2×(H⋅W)w^{(t)}\in \mathbb{R}^{1\times K^{2}\times(H\cdot W)}w(t)∈R1×K2×(H⋅W),我们在每个空间索引j∈{1,…,H⋅W}j\in\{1,\ldots,H\cdot W\}j∈{1,…,H⋅W}处独立地对每个K2K^2K2核映射应用功率归一化:
PowerNorm(w(t))i,j=∣wi,j(t)∣p∑k=1K2∣wk,j(t)∣p+η,(8)\mathrm{PowerNorm}\left(\mathbf{w}^{(t)}\right)_{i,j}=\frac{|\mathbf{w}_{i,j}^{(t)}|^{p}}{\sum_{k=1}^{K^{2}}|\mathbf{w}_{k,j}^{(t)}|^{p}+\eta}, \tag{8} PowerNorm(w(t))i,j=∑k=1K2∣wk,j(t)∣p+η∣wi,j(t)∣p,(8)
其中i∈{1,.,K2}i ∈ \{1,.,K^2\}i∈{1,.,K2}是核映射的索引,ppp控制核的锐度,ηηη设置为10−4,以确保数值稳定性。
特别是,较大的p值会产生类似脉冲的核,并防止过度平滑;在我们的实验中,我们使用p = 3。使用功率归一化,输出核w(t)w^{(t)}w(t)被归一化,我们的内核函数作为加权平均运算。
最后,归一化去噪核w(t)w^{(t)}w(t)与像素的每个位置处的噪声输入块y(t)y^{(t)}y(t)卷积,并且去噪块被进一步处理以分别通过等式1和等式2生成I^Clean(t)\mathbf{\hat{I}}_{\mathrm{Clean}}^{(t)}I^Clean(t)。
3.3. 动态迭代控制 (DIC)
基于置信度的自适应去噪。如图2所示,IDF可以通过经验确定的步长T迭代地去除噪声。然而,对于具有低噪声的输入图像,过多的迭代可能是低效的,并且可能导致过度平滑的输出。因此,我们提出了一种称为动态迭代控制(DIC)的自适应迭代去噪策略,它在推理阶段基于图像内容和噪声特性动态地确定迭代次数T。具体地说,我们将预测的内核用于DIC方法。我们观察到,在去噪的早期阶段,当噪声水平很高时,核值在核内广泛分散。然而,随着去噪的完成,核值随着每次迭代的变化较小,去噪核的中心逐渐收敛到1。根据这一观察,我们定义了置信图和提前终止的标准:
C(t)=w(t)(cx,cy)−w(t−1)(cx,cy),T←t,if1H⋅W∣∑i=1MCi(t)∣<κ,(9)\mathbf{C}^{(t)}=\mathbf{w}^{(t)}(c_{x},c_{y})-\mathbf{w}^{(t-1)}(c_{x},c_{y}),\\ T\leftarrow t,\quad\mathrm{if}\frac{1}{H\cdot W}\left|\sum_{i=1}^{M}\mathbf{C}_{i}^{(t)}\right|<\kappa, \tag{9} C(t)=w(t)(cx,cy)−w(t−1)(cx,cy),T←t,ifH⋅W1i=1∑MCi(t)<κ,(9)
其中(cx,cy)(c_x,c_y)(cx,cy)表示预测核中心像素位置,C(t)\mathbf{C}^{(t)}C(t)表示置信度图,该置信度图测量连续迭代中核中心之间的差异。MMM表示空间位置的总数。该标准使用空间平均置信度图确定,阈值κ\kappaκ用作停止条件。当满足该标准时,终止去噪。
在我们的实验中,测量迭代t中输入y(t)y^{(t)}y(t)和输出x(t)\mathbf{x}^{(t)}x(t)之间的距离的标准,例如平均绝对误差,即使在去噪的后期阶段也对图像内容保持敏感。相比之下,基于去噪核信息的标准表现出更好的有效性,鲁棒性和易于确定性。
补充材料算法A1中提供了IDF的总体推理算法。
4. Experiments
4.1. 实验装置
实现细节。我们的模型使用AdamW [47]进行了优化,最小化最终估计值I^Clean(T)\hat{\mathbf{I}}_{\mathrm{Clean}}^{(T)}I^Clean(T)和ground-truth图像IClean\mathbf{I}_{\mathrm{Clean}}IClean之间的L1\mathcal{L}_1L1 距离。训练以1 × 10−4的固定学习率进行50k次迭代。我们随机采样128 × 128块,应用水平和垂直翻转进行数据增强,最大迭代次数设置为T = 10,公式9中用于自适应控制(DIC)的阈值固定为κ=0.015\kappa=0.015κ=0.015。
数据集。在[11]之后,我们使用CBSD 432 [61]数据集来训练IDF,通过添加i.i.d.随机高斯噪声(σ = 15)来合成噪声图像。然后我们评估三种噪声类别的去噪质量:合成噪声、真实世界传感器噪声和蒙特卡罗渲染噪声,使用[8,11]中的评估设置。对于合成噪声评估,我们采用四个基准:CBSD 68 [61],McMaster [86],Kodak 24 [16]和Urban100 [25]。每个数据集都被六个噪声模型损坏:高斯,空间相关高斯,泊松,斑点,椒盐和混合噪声。对于真实世界的噪声,我们使用SIDD [1],SIDD+ [3],PolyU [72]和Nam [54],其中包含由一系列智能手机和DSLR传感器捕获的图像。最后,对于蒙特卡罗渲染噪声,我们使用[15]提出的测试数据集。有关噪声类别及其强度级别的更多信息,请参见补充材料第A1.1节。
4.2. 广义去噪性能
比较方法。我们评估了我们的去噪器对DnCNN [82],SwinIR [44],Restormer [79],CODE [88]和MaskedDenoising [8]的泛化能力。为了确保公平的比较,我们使用基线模型的官方预训练权重,这些模型是在i.i.d.高斯噪声上训练的,σ = 15,与我们的训练配置一致。为了评估,使用峰值信噪比(PSNR)和结构相似性指数测量(SSIM)[67]。与[74]一致,我们排除了与当前最先进的(SOTA)CLIPDenoising [11]的直接比较,因为它的CLIP主干是在一个大的-规模数据集,已经包括各种各样的噪声类型。与仅使用固定高斯噪声进行专门训练的模型相比,这会引入潜在的偏差。因此,我们不会直接与CLIPDenoising模型进行比较,而是包含其结果以供参考。
合成噪声的去噪结果。为了评估不可见条件下的泛化性能,我们首先在多个强度级别上评估不同合成噪声类型的IDF。表1报告了我们方法的两种变体:Ours†\mathbf{Ours}^\daggerOurs†,它将所提出的DIC应用于自适应去噪步骤,而Ours\mathbf{Ours}Ours,其以固定迭代(T = 10)执行去噪。结果表明,两种变型在不同的OOD噪声配置上都达到了SOTA性能。
相比之下,像SwinIR和Restormer这样的自注意网络由于其高容量而倾向于过度拟合其训练数据中存在的特定噪声模式,这限制了它们在需要广泛泛化的去噪任务中的有效性。此外,像DnCNN和CODE这样的轻量级或高效网络也表现出较差的泛化性能,这表明简单地减少参数数量或专注于效率并不能充分提高泛化性能。
完整模型(Ours\mathbf{Ours}Ours)在所有设置下都显示出最佳效果,但椒盐噪声去除效果排名第二。我们启用DIC的变体(Ours†\mathbf{Ours}^\daggerOurs†)实现了与完整模型相当的性能,同时将迭代次数减少了约30%。
补充材料中的表A8提供了额外的分布分数和扩展结果。
真实世界sRGB噪声的去噪结果。我们进一步在智能手机和DSLR相机采集的真实世界数据集上测试了IDF。与合成噪声不同,真实世界噪声包含复杂的特征,例如图像信号处理(ISP)中的非线性处理引入的空间相关性,这提供了更具挑战性的OOD去噪基准。
表2总结了我们的框架在四个具有挑战性的真实世界数据集上的性能:SIDD验证集、SIDD+、PolyU和Nam。完整模型(Ours)及其启用DIC的变体(Ours†)在大多数数据集上都具有上级的性能,始终优于其他方法。虽然CODE在PolyU和Nam上的得分略高,但在SIDD和SIDD+上的结果较差,这表明可能过拟合到特定域。
总体而言,我们的实验表明,所提出的去噪框架显着提高了数值和感知质量SOTA方法在现实世界的嘈杂图像。这种强大的性能在不同的数据集突出了我们的方法在现实世界中去噪场景的有效性和泛化能力。
蒙特卡洛渲染噪声的降噪结果。我们进一步评估了蒙特卡洛渲染图像上的方法,其中渲染算法模拟光传输以产生逼真的图像,但由于在近似渲染方程[7,12,38]时采样的固有随机性而引入噪声。特别是,由于渲染过程中每个像素的样本数量有限(spp)而产生噪声,表3总结了两种采样率的定量去噪结果:64和128 spp。
对于使用64 spp渲染的图像,我们的完整模型在PSNR方面优于竞争方法,如CODE,MaskedDenoising,甚至CLIPDenoising,同时实现具有竞争力的SSIM分数。值得注意的是,DIC支持的变体(Ours†)也表现出了强大的性能。在128 spp的更高采样率下,我们的方法进一步提高了图像质量,始终显示出最佳的PSNR和第二高的SSIM。总体而言,研究结果证实,我们的去噪框架有效地去除了Monte Carlo噪声伪影,即使在生成少量spp的渲染时也是如此(即在高噪声条件下)。
4.3. 消融研究
有关其他消融研究,请参见补充材料第A1.2节。
模型大小和推理时间。表4总结了模型大小,推理时间和浮点运算(FLOPs)。值得注意的是,我们的方法只有0.04百万个参数,使其比第二小的模型DnCNN小大约17倍。此外,DIC启用的变体(Ours†)表现出最少的FLOPs,只需要DnCNN的一半左右的计算预算,这突出了其轻量级架构的效率。尽管我们的方法具有最少的参数和FLOP,但由于次优操作,其推理速度比DnCNN慢。具体来说,优化低效的PyTorch展开操作以进行patch提取将显著提高推理速度。总之,IDF显示出鲁棒的OOD噪声去除性能,同时提供显著的效率优势。
全局统计和局部相关性模块。我们通过表5中的消融研究评估GSM和LCM的贡献,其中模型变量被训练以单独研究每个模块的效果。通过相关性映射将局部结构线索与从图像残差中提取的全局统计相结合,显著提高了各种噪声条件下的图像质量。
DID组件的影响。表6总结了对DID块的三个关键组件的消融研究:RMS归一化,unfolding dilation和功率归一化。模型变体在删除每个组件的情况下进行训练。结果表明,每个组件都独立地增强了模型的鲁棒性,一致地提高了对各种OOD噪声类型的性能。
5. Conclusion
在本文中,我们引入了一种新的图像去噪框架IDF,它将动态核预测与自适应迭代细化策略相结合,利用浅层特征提取模块(FEM)提取噪声不变特征,由全局统计模块(GSM)和局部相关模块(LCM)丰富。然后,核预测模块(KPM)生成内容的每像素核-动态迭代控制(DIC)根据核收敛性自适应地调整去噪迭代次数,从而降低计算成本并防止低噪声区域中的过度平滑。虽然IDF仅在一个特定水平的高斯噪声上训练,它在各种噪声类型下表现出强大的性能,并保持了令人印象深刻的小模型尺寸(约0.04M个参数)实验结果表明,使用动态核预测结合迭代求精成功地导致了跨不同的鲁棒泛化域。
A1. Appendix
A1.1. 关于测试噪声的详细信息
A1.2. 其他消融研究
模型容量对泛化的影响。
不同训练噪声条件对泛化的影响。
Kernel Size的影响
功率归一化因子的影响。
DIC阈值的影响。
DID块完全迭代总数的影响。
对推理速度的进一步分析。
A1.3. DIC算法
A1.4. DIC的附加分析
结果与等效平均迭代的比较。
图像和基于核的DIC结果在不同噪声水平下的比较。
A1.5. 预测核的可视化
A1.6. 迭代法的附加分析
迭代细化的可视化。
A1.7. 其他去噪结果
定性比较。我们分别在图A6和图A7中提供了与其他基准模型在合成和真实世界噪声去除方面的额外视觉比较。作为参考,原始干净图像及其相应的感兴趣区域(ROI)在图A8中显示。
定量比较。我们通过将其去噪性能与几个基准模型进行比较来进一步评估我们方法的泛化能力,包括DnCNN [82],SwinIR [44],Restormer [79],CODE [88]和MaskedDenoising [8],在不同的合成噪声类型和水平。CLIPDenoising的结果[11],以供参考。详细的比较载于表A8。