InvSR:Arbitrary-steps Image Super-resolution via Diffusion Inversion

论文原文链接
代码地址
这是2025CVPR中关于扩散模型和超分辨率重建相关的论文,下面是我的一个阅读记录。
摘要
这篇论文提出了一种名为 InvSR 的新方法,它巧妙地利用预训练扩散模型的强大生成能力来做图像超分辨率。其核心是通过一个学习到的噪声预测器来“聪明地”启动逆向扩散过程,从而用极少的采样步数(最快一步)就能生成高质量的高分辨率图像,在速度和性能上均取得了突破。
简单来说,可以这样理解它的核心思想:“不是从零开始‘画’一张高清图,而是找到一个合适的‘半成品’草图,然后快速精修完成。” 这个“半成品”就是通过部分噪声预测和深度噪声预测器找到的。
好的,这是对您提供的论文结论部分的关键信息提炼。结论部分通常比摘要更具体地强调研究的价值、优势和创新点。
结论
-  
方法重申与核心组件:
- 论文提出的方法名为 InvSR。
 - 其最核心的创新是一个噪声预测网络,用于估算最优噪声图。
 
 -  
核心机制(如何工作):
- 该噪声预测器的作用是构建一个预训练扩散模型的中间状态,并将其作为逆向采样的起点。
 
 -  
两大核心优势:
- 优势一(性能强): 能够充分挖掘和利用预训练扩散模型中的先验知识,从而有效提升超分辨率性能。
 - 优势二(灵活性高): 
- 通过噪声预测器的时间依赖架构,可以实现灵活的采样策略,可以从不同的中间状态开始。
 - 这允许用户根据图像退化类型或个人需求,自由调整采样步数。
 
 
 -  
关键性能验证(最重要的发现):
- 即使将采样步数减少到仅一步,InvSR 的性能也显著优于近期其他基于扩散模型的一步方法。
 - 这直接证明了该方法同时具备高效性和有效性。
 
 
本研究提出的 InvSR 方法,通过一个创新的噪声预测网络,实现了从扩散模型中间状态开始的灵活高效采样,在保持顶级性能的同时(甚至一步采样就能显著超越现有方法),为用户提供了根据需求定制计算成本的自由度。
引言
整体背景与问题提出
- 图像超分辨率(SR)问题:是计算机视觉基础且具挑战性的问题,旨在从低分辨率(LR)图像恢复高分辨率(HR)图像。其挑战在于真实场景中退化模型的复杂和未知性,使SR成为不适定问题。
 - 现有研究基础:扩散模型,尤其是大规模文本到图像(T2I)模型在生成高质量图像上取得成功,其强大生成能力使其被用作缓解SR不适定性的可靠先验。现有利用扩散先验的SR方法通常通过优化或微调扩散网络中间特征,使其与给定LR观测对齐。
 
现有方法局限与本文创新
- 现有方法局限:将生成对抗网络(GANs) inversion原理扩展到扩散模型用于SR面临挑战,扩散模型多步随机采样过程使inversion不简单,直接优化每步不同噪声图成本高且复杂,迭代推理机制会积累预测误差和随机性,影响保真度,所以现有扩散inversion方法多用于图像编辑等低保真度要求任务。
 - 本文创新:提出基于扩散inversion的新技术,通过寻找最优噪声图作为扩散模型输入,不修改扩散网络本身,最大化利用扩散先验。
 
具体方法介绍
- 噪声预测器:引入名为噪声预测器的深度神经网络,从给定LR图像估计噪声图。
 - 部分噪声预测(PnP)策略: 
- 原理:通过按扩散模型正向过程给LR图像添加噪声,噪声预测器预测添加的噪声而非随机采样,构建扩散模型中间状态作为采样起点。
 - 动机: 
- 合理性:LR和HR图像仅高频细节不同,添加适当噪声后LR图像与HR图像难以区分噪反向扩散推导inversion轨迹的代理。
 - 复杂性:PnP策略限制预测到起始步,简化inversion任务,降低整体复杂度。
 - 灵活性:噪声预测器可训练预测多个预定义起始步的噪声图,推理时可自由选择起始步并使用任意采样算法和步数,灵活控制采样过程。
 - 保真度:训练时精心选择起始步使其有高信噪比(SNR),确保SR保真度,实践中设置SNR阈值大于1.44(对应Stable Diffusion中250时步)。
 - 效率性:采样从SNR大于1.44的步开始,结合现成加速采样算法,有效减少采样步数至少于五步,解决扩散SR方法常见低效问题。
 
 
 
方法优势与贡献
- 优势:与现有固定采样步数的扩散方法不同,灵活采样机制可处理SR中不同类型和强度的退化,用户能根据具体退化条件调整采样。
 - 贡献: 
- 提出基于扩散inversion的SR新方法,通过集成辅助噪声预测器有效利用扩散先验,同时保持扩散主干不变。
 - 引入灵活高效采样机制,采样步数可任意,从一到五,即使步数减至一步,性能也优于或与近期专用一步扩散方法相当 。
 
 
相关工作
基于扩散先验(Diffusion Prior)的图像超分辨率(SR)方法分类及特点
-  
第一类方法:重新优化扩散模型中间结果
- 操作方式:通过预定义或估计的退化模型,重新优化扩散模型的中间结果,保证与给定低分辨率(LR)图像的一致性。
 - 代表工作:DDRM [23]、CCDF [7]、DDNM [55] 等 [6, 8, 11, 37, 46, 62, 66]。
 - 优点:有效。
 - 局限性: 
- 计算复杂度高:每个扩散步都要解决一个优化问题,导致推理速度慢。
 - 依赖手动定义退化模型:无法处理真实场景中的盲超分辨率(Blind SR)问题。
 
 
 -  
第二类方法:直接微调预训练的大型文本到图像(T2I)模型
- 操作方式:直接对预训练的大型T2I模型进行微调,使其适用于SR任务。
 - 代表工作: 
- StableSR [52] 开创此范式,引入空间特征变换层 [53] 引导T2I模型生成高分辨率(HR)输出。
 - 后续工作提出各种微调策略利用扩散先验,如DiffBIR [30]、SeeSR [59]、PASD [63]、S3Diff [70] 等 [27, 39, 48, 58, 60, 65]。
 
 - 优点:取得了令人印象深刻的性能,验证了扩散先验对SR的有效性。
 
 
扩散反演(Diffusion Inversion)相关研究进展及在图像超分辨率(SR)应用上的局限
-  
扩散反演定义
聚焦于确定最优噪声图集合,该集合经扩散模型处理后能重建给定图像。 -  
研究发展历程
- 早期突破:DDIM [45] 首次通过非马尔可夫过程类对扩散模型进行泛化,建立确定性生成过程,解决扩散反演问题。
 - 中间发展:Rinon 等人 [12] 和 Mokady 等人 [36] 提出优化文本嵌入,使其更好地与期望的文本指导对齐。
 - 近期进展:近期研究进一步优化文本和视觉提示 [35, 38] 以及中间噪声图 [13, 19, 20, 33, 50, 71] 的优化策略,显著提升了反演质量。
 
 -  
现存局限
尽管取得上述进展,现有方法主要聚焦于图像编辑领域,无法满足图像超分辨率(SR)任务对高保真度的要求。 
研究目标: 在本研究中,专门针对图像超分辨率(SR)任务定制了扩散反演技术。
 前人研究局限:Chihaoui 等人 [5] 近期探索了用于图像恢复的扩散反演方法,但该方法在每个反演步骤都需解决优化问题,极大限制了推理效率。
 本研究创新点:提出一种噪声预测模块,该模块训练完成后,在推理阶段无需进行迭代优化就能实现高效反演。
 研究效果:显著提升了扩散反演在 SR 任务中的效率与实用性。
方法
为了与扩散模型中使用的符号保持一致,将 LR 图像表示为 y 0 y_0 y0,相应的 HR 图像表示为 x 0 x_0 x0。
动机
1. 扩散模型的起源与发展
- 起源:扩散模型是一种受非平衡热力学启发的概率生成模型。它最初被引入,旨在通过模拟扩散过程来生成数据。
 - 发展:随后,Song 等人在随机微分方程(SDEs)的框架内对其进行了重新表述。本文提出了一种适用于基于概率和基于 SDE 的扩散公式的通用扩散反演技术。为了便于理解,在整个论文展示中采用了 DDPM 的概率框架。
 
2. DDPM 框架
-  
正向过程:DDPM 框架本质上是一个长度为 T T T 的马尔可夫链,其正向过程由高斯转移核表征,公式(1) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_t|x_{t - 1}) = \mathcal{N}(x_t;\sqrt{1 - \beta_t}x_{t - 1},\beta_tI) q(xt∣xt−1)=N(xt;1−βtxt−1,βtI) 描述了在给定 x t − 1 x_{t - 1} xt−1 的情况下 x t x_t xt 的条件概率分布。其中 β t \beta_t βt 是预先定义的超参数,控制方差调度。通过这个转移核可以推导出边际分布 q ( x t ∣ x 0 ) q(x_t|x_0) q(xt∣x0),如公式(2)所示。

 -  
反向过程:反向过程旨在从初始随机噪声图 x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xT∼N(0,I) 生成高质量图像,其表达式为公式(3) x t − 1 = g θ ( x t , t ) + σ t z t − 1 , t = T , ⋯ , 1 x_{t - 1} = g_\theta(x_t,t) + \sigma_tz_{t - 1}, t = T,\cdots,1 xt−1=gθ(xt,t)+σtzt−1,t=T,⋯,1。其中 g θ ( x t , t ) g_\theta(x_t,t) gθ(xt</
 
