【IQA技术专题】 基于退化图像一致性的保真度IQA:CDI
基于退化图像一致性的保真度IQA:CDI:Blind Image Restoration Fidelity Evaluation based on Consistency with Degraded Image(2025 CVPR)
- 专题介绍
- 一、研究背景
- 二、CDI评估框架设计
- 2.1 参考引导 CDI(RGCDI)
- 2.2 无参考 CDI(RACDI)
- 三、实验
- 四、总结
本文将围绕《CDI:Blind Image Restoration Fidelity Evaluation based on Consistency with Degraded Image》展开完整解析。CDI实现了全参考和无参考的图像质量评价指标,可以有效地对图像的保真度(Fidelity)质量进行评估,CDI聚焦盲图像恢复的保真度评估问题,针对 BIR(Blind Image Restoration) 存在的解的非唯一性和退化不确定性挑战,提出了基于退化图像一致性 的 BIR 专用IQA系统。
该系统包括小波域全参考引导 CDI(Consistency with Degraded Image),名为RGCDI (Reference Guided CDI)和无参考 CDI,名为RACDI(Reference Agnostic CDI) 两类算法,其中 RGCDI 通过小波变换分离退化图像的衰减和噪声并匹配恢复图像的衰减来计算一致性,RACDI 则通过训练小波衰减提取网络(WAENet) 实现无参考评估。为验证方法有效性,作者构建了退化图像切换显示对比数据集(DISDCD),实验表明 RGCDI 和 RACDI 的 2AFC (Two-Alternative Forced Choice)评分显著优于传统全参考 IQA 方法,与主观评价结果高度一致。参考资料如下,该篇论文没有进行代码开源:
[1]. 论文地址
论文整体结构思维导图如下:
专题介绍
图像质量评价(Image Quality Assessment, IQA)是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究,更在影像相关行业内实现了完整的商业化应用,涉及影视、智能手机、专业相机、安防监控、工业质检、医疗影像等。IQA与图像如影随形,其重要程度可见一斑。
但随着算法侧的能力不断突破,AIGC技术发展火热,早期的IQA或已无法准确评估新技术的能力。另一方面,千行百业中各类应用对图像质量的需求也存在差异和变化,旧标准也面临着适应性不足的挑战。
本专题旨在梳理和跟进IQA技术发展内容和趋势,为读者分享有价值、有意思的IQA。希望能够为底层视觉领域内的研究者和从业者提供一些参考和思路。
系列文章如下:
【1】🔥IQA综述
【2】PSNR&SSIM
【3】Q-Insight
【4】VSI
【5】LPIPS
【6】DISTS
【7】Q-align
【8】GMSD
【9】NIQE
【10】MUSIQ
一、研究背景
该方法注意到一个现象,BIR的技术现状转向了基于生成对抗网络(GAN)和扩散模型(DM)的盲图像恢复(BIR)方法,这类方法能够在主观视觉质量上取得显著提升,可生成逼真的细节和纹理,但给传统图像质量评估(IQA)带来挑战,明显的局限性是:传统全参考 IQA等与保真度相关的方法(如 PSNR&SSIM)对高感知质量的 BIR 复原图像评分较低,反而给一些主观感知质量低的模糊图像高分,无法适应 BIR 评估需求;当然如果使用LPIPS或DISTS等与感知质量相关的评估指标会更合理,但没法对保真度进行合理评估。
作者首先针对这个问题进行了分析,造成这个现象的核心问题在于:
- 解的非唯一性:图像退化导致信息丢失,恢复作为逆问题存在无穷多解,同一退化图像可对应多个视觉差异大但退化后一致的恢复结果,如下图所示。
参考图像和多张复原结果图像经过同一个退化之后可以得到几乎相近的退化结果( DEG PSNR>46dB),但退化前它们跟参考图像的PSNR各有高低,这充分说明了复原结果是不唯一的。 - 退化不确定性:无法从退化图像中精确确定退化参数(如高斯模糊核 σ),不同参数恢复图像退化后可与原退化图像高度一致,如下图所示。
可以看到选取不同的退化参数一样可以得到相同的退化结果,这充分说明想要直接从退化图像中估计出退化的参数也是不可能的。
基于以上观察,作者希望提出一个不同于传统 IQA 对比复原图像与参考图像的方法。通过评估复原图像与退化图像的一致性来衡量保真度,从而达到更合理得保真度估计,如下图所示。
(a)图是传统的IQA方法,通常会计算复原后结果与参考图像的FR-IQA来得到保真度,而使用NR-IQA来得到感知质量。(b)图是CDI的思路,通过判断复原图像与退化图像的一致性计算CDI来评估保真度,再通过NR-IQA补充感知的维度从而完善这个IQA体系。
二、CDI评估框架设计
作者针对全参考的情况和无参考的情况分别设计了对应的方法,分为参考引导 CDI(RGCDI) 和无参考 CDI(RACDI),接下来分别进行讲解。
2.1 参考引导 CDI(RGCDI)
作者将退化分解为两部分,分别是高频纹理的损失(high-frequency detail loss)以及噪声的添加( noise addition),用公式描述如下:Iy=Γ(Ix)+InI_y = \Gamma (I_x) + I_n Iy=Γ(Ix)+In其中,IyI_yIy、IxI_xIx、InI_nIn分别是退化图像、高质量图像、噪声,Γ\GammaΓ是数据弱化操作,比如说我们熟悉的模糊,如下图所示。
等价的,在小波域可以建模为:y[i]=μAx[i]+n[i]y[i] = \mu_{A} x[i] + n[i]y[i]=μAx[i]+n[i] 其中yyy和xxx分别是退化图像和高质量图像的小波系数,μA\mu_AμA是衰减系数。高质量图像可以用GSM( Gaussian Scale Mixture)建模,读者可以理解为一种数据建模的方法,相当于用一些分布参数来表示这些小波系数了,公式如下:x[i]=s[i]u[i]x[i] = s[i] u[i]x[i]=s[i]u[i]其中,s[i]s[i]s[i] 是正标量的随机场(RF),u[i]u [i]u[i] 是均值为零、协方差为 CuC_uCu 的高斯向量随机场(RF),随机场在这里指的是在空间上定义的随机变量集合,其核心是描述不同位置上随机变量的联合分布特性,用于捕捉自然图像小波系数在空间上的统计相关性。作者使用小波域来操作的原因是:小波域退化模型能够很好地模拟不同频率高频信号的衰减和噪声,并且在感知干扰方面能够充分捕捉真实世界失真的影响, 这正好跟作者认知的退化过程是很相关的。
作者经过这么多铺垫后,提出了自己的方法流程:
可以看到整个流程需要经过DWT、WNS、WNEA、WAM、IDWT、PSNR等过程。DWT和IDWT分别是小波变换与逆小波变换,将图像变换为小波系数以及将小波系数变换为图像,首先会对参考图像IxI_xIx、退化图像IyI_yIy、复原图像ItI_tIt进行DWT操作,变换为系数xxx、yyy以及ttt。然后会进行WNS(Wavelet Noise Splitting)过程分解噪声,后续进行WNEA(Wavelet Noise Equivalent Attenuation )进行小波噪声衰减,最后进行WAM(Wavelet Attenuation Matching)进行匹配,两幅图像进行IDWT处理后得到RGCDI PSNR系数。
- WNS(Wavelet Noise Splitting):基于小波域的退化公式:y[i]=μAx[i]+n[i]y[i] = \mu_{A} x[i] + n[i]y[i]=μAx[i]+n[i] 然后又因为噪声与干净数据的协方差为0,公式表示为:COV(n[i],x[i])=0COV(n[i],x[i])=0COV(n[i],x[i])=0根据这两个公式可以推导到μA\mu_AμA(推导的过程是将n[i]n[i]n[i]带入协方差为0的式子中展开即得):μA=COV(y,x)/COV(x,x)\mu_A=COV(y,x)/COV(x,x)μA=COV(y,x)/COV(x,x)接着我们还可以得到噪声的方差(这里作者估计噪声为加性高斯白噪声,推导的过程同理,方差是COV(n,n)COV(n,n)COV(n,n),展开其中一个n就可以得到下式):σn2[i]=COV(y[i],y[i])−μACOV(y[i],x[i])\sigma_{n}^{2}[i] = \text{COV}(y[i], y[i]) - \mu_{A} \text{COV}(y[i], x[i])σn2[i]=COV(y[i],y[i])−μACOV(y[i],x[i])
下图是作者利用这个过程分解的两个层:
-
Wavelet Noise Equivalent Attenuation (WNEA):因为μA\mu_AμA衰减会导致高频信号损失,而噪声nnn同样会造成图像信号损失,此步要将噪声影响转化为等效的图像衰减,从而在后续计算中更合理地衡量图像间的一致性。结合以下几个公式:图像小波系数可以建模为x[i]=s[i]u[i]x[i] = s[i] u[i]x[i]=s[i]u[i]噪声和图像的关系又有:y[i]=μAx[i]+n[i]y[i] = \mu_{A} x[i] + n[i]y[i]=μAx[i]+n[i]从贝叶斯角度通过求解最大后验(MAP)得到估计的x^[i]\hat{x}[i]x^[i](这个推导的过程跳过了一些步骤,根据贝叶斯公式和取log,可以得到第一行公式,第二行需要通过高斯分布拆开,第三行则是求导可以得到这个结果):x^[i]=argmaxx[i]log(p(y[i]∣x[i]))+log(p(x[i]))=argminx[i]1σn2∥y[i]−x[i]∥+x[i]TCx−1x[i]=(I+σn2Cx−1)−1y[i]\begin{aligned} \hat{x}[i] &= \arg \max_{x[i]} \log\left(p(y[i] \mid x[i])\right) + \log\left(p(x[i])\right) \\ &= \arg \min_{x[i]} \frac{1}{\sigma_n^2} \| y[i] - x[i] \| + x[i]^T C_x^{-1} x[i] \\ &= \left( I + \sigma_n^2 C_x^{-1} \right)^{-1} y[i] \end{aligned}x^[i]=argx[i]maxlog(p(y[i]∣x[i]))+log(p(x[i]))=argx[i]minσn21∥y[i]−x[i]∥+x[i]TCx−1x[i]=(I+σn2Cx−1)−1y[i] 从这个公式中可以看到,当噪声方差σn2\sigma_{n}^{2}σn2小时,结果只与观测到的信号有关,否则会与噪声更相关。又因为x^[i]\hat{x}[i]x^[i]已被μA\mu_AμA衰减,协方差矩阵CxC_xCx需要乘以μx2\mu_x^2μx2,即Cx=COV(μAx,μAx)=μx2COV(x,x)C_x=COV(\mu_{A}x,\mu_{A}x)=\mu_x^2COV(x,x)Cx=COV(μAx,μAx)=μx2COV(x,x),最终可以得到得到图像信号损失由n[i]n[i]n[i]引起的等效于μN\mu_NμN衰减的公式为(这里就是单纯将上面公式的结果带进来):μN=(I+σn2μA2COV(x,x)−1)−1\mu_{N} = \left( I + \frac{\sigma_{n}^{2}}{\mu_{A}^{2}} \, \text{COV}(x, x)^{-1} \right)^{-1}μN=(I+μA2σn2COV(x,x)−1)−1这个μN\mu_NμN会作用到信号上。
-
Wavelet Attenuation Matching (WAM):将复原图像的小波系数进行自适应衰减,使其与经过噪声等效衰减处理的参考图像小波系数最佳匹配,通过求解以下表达式(这里求解的过程跳过了一些步骤,首先需要对这个公式转换为L2的形式后求导,再利用小波系数中心化的特点转换为协方差的形式):μM=argminμM∥μMt−μNμAx∥=COV(t,μNμAx)COV(t,t)\begin{aligned} \mu_{M} & = \arg \min_{\mu_{M}} \left\| \mu_{M} t - \mu_{N} \mu_{A} x \right\| \\ & = \frac{\text{COV}\left(t, \mu_{N} \mu_{A} x\right)}{\text{COV}(t, t)} \end{aligned}μM=argμMmin∥μMt−μNμAx∥=COV(t,t)COV(t,μNμAx)这个系数可以作用到复原图像上。
-
PSNR计算:后续就经过IDWT将系数转换回来,并计算常规的PSNR即可。
接下来作者分析了RGCDI的一些性质,如幂等性(Idempotency)、WAE 与退化级联的可交换性(WAE and Degradation Cascade Exchangeability)、RGCDI PSNR ≥ PSNR。感兴趣的读者可以阅读原文。
2.2 无参考 CDI(RACDI)
如下图所示。
因为现在缺少参考图像,所以需要估计前面的Iy^I_{\hat{y}}Iy^,作者使用了一个网络WAENet(Wavelet Attenuation Extraction Net),它的训练过程如图(b)所示,即用上面提到的过程生成标签,然后用网络去模拟这个过程。(c)图是整体流程,因为WAENet预测的是最后的图像,那么需要重新进行DWT转换为y^\hat{y}y^,再进行WAM的计算得到另一个对比图像,此为RACDI的流程中跟RGCDI的不同之处。
三、实验
论文为了更好的评估该CDI方法,构建了一个新的数据集 DISDCD(Degraded Images Switch Display Comparison Dataset)。数据集包含 4 类退化类型(下采样 4x、高斯噪声 σ=50、JPEG QF10、组合退化),每类含 100 张来自 DIV2K 的退化图像和 200 张由 11 种 BIR 算法生成的恢复图像。标记时采用:
- 采用二选一强制选择(2AFC),2AFC在本专栏的LPIPS文章中有提到,是一个二选一的方法;
- 采用双刺激连续质量标度(DSCQS)方法,DSCQS是一种通过交替显示基准图像与被测图像、由观察者进行质量评分的标准化主观评估方法。
- 标注界面支持切换对比退化图像IyI_yIy与复原图像退化后结果Iy1I_{y1}Iy1和Iy2I_{y2}Iy2,提升差异判断准确性。
首先是DISDCD上2AFC的实验。
从图中可以得出几个结论,传统FR-IQA的一些方法,无论是PSNR、SSIM、LPIPS、DISTS 评分跟人类打分来比显著较低;DEG_PSNR部分任务表现较好,但高斯噪声任务性能下降;RGCDI是最高评分,部分退化情况下超过人类主观评分;RACDI略低于 RGCDI,与主观评价一致性高。
WAENet Backbone 对比(PSNR):
利用该论文提出的IQA指标对网络进行评估,作者总共在6个任务上和4个模型上进行了评估。
经典SR任务:
经典降噪任务:
运动模糊:
JPEG复原:
盲超分:
BIR任务:
结论:SCUNet 在多数任务中性能最优,Restormer 次之,CGNet 和 NAFNet 表现较差。
RACDI 误差分析(相对 RGCDI 的平均误差):
如下图所示:
可以得出以下结论:真实噪声的误差极小,仅为0.3dB;运动模糊和classSR的误差较小;高斯噪声和BIR任务误差可控为2-3dB,JPEG的估计是6.13,误差最大,需进一步优化。
四、总结
此论文针对 BIR(Blind Image Restoration) 存在的解的非唯一性和退化不确定性挑战,提出了基于退化图像一致性 的 BIR 专用IQA系统。该系统包括小波域全参考引导 CDI(RGCDI)和无参考 CDI(RACDI) 两类算法,其中 RGCDI 通过小波变换分离退化图像的衰减和噪声并匹配恢复图像的衰减来计算一致性,RACDI 则通过训练小波衰减提取网络(WAENet) 实现无参考评估。
为验证方法有效性,作者构建了退化图像切换显示对比数据集(DISDCD),实验表明 RGCDI 和 RACDI 的 2AFC (Two-Alternative Forced Choice)评分显著优于传统全参考 IQA 方法,与主观评价结果高度一致。博主认为其可以很好的应用在算法评估上,减小主观判断图像质量的压力。
感谢阅读,欢迎留言或私信,一起探讨和交流,如果对你有帮助的话,也希望可以给博主点一个关注,谢谢。