当前位置: 首页 > news >正文

InvSR:Arbitrary-steps Image Super-resolution via Diffusion Inversion

在这里插入图片描述

论文原文链接

代码地址

这是2025CVPR中关于扩散模型和超分辨率重建相关的论文,下面是我的一个阅读记录。

摘要

这篇论文提出了一种名为 InvSR 的新方法,它巧妙地利用预训练扩散模型的强大生成能力来做图像超分辨率。其核心是通过一个学习到的噪声预测器来“聪明地”启动逆向扩散过程,从而用极少的采样步数(最快一步)就能生成高质量的高分辨率图像,在速度和性能上均取得了突破。

简单来说,可以这样理解它的核心思想:“不是从零开始‘画’一张高清图,而是找到一个合适的‘半成品’草图,然后快速精修完成。这个“半成品”就是通过部分噪声预测和深度噪声预测器找到的

好的,这是对您提供的论文结论部分的关键信息提炼。结论部分通常比摘要更具体地强调研究的价值、优势和创新点

结论

  1. 方法重申与核心组件:

    • 论文提出的方法名为 InvSR
    • 其最核心的创新是一个噪声预测网络,用于估算最优噪声图。
  2. 核心机制(如何工作):

    • 该噪声预测器的作用是构建一个预训练扩散模型的中间状态,并将其作为逆向采样的起点
  3. 两大核心优势:

    • 优势一(性能强): 能够充分挖掘和利用预训练扩散模型中的先验知识,从而有效提升超分辨率性能
    • 优势二(灵活性高):
      • 通过噪声预测器的时间依赖架构,可以实现灵活的采样策略,可以从不同的中间状态开始。
      • 这允许用户根据图像退化类型个人需求,自由调整采样步数。
  4. 关键性能验证(最重要的发现):

    • 即使将采样步数减少到仅一步,InvSR 的性能也显著优于近期其他基于扩散模型的一步方法。
    • 这直接证明了该方法同时具备高效性和有效性

本研究提出的 InvSR 方法,通过一个创新的噪声预测网络,实现了从扩散模型中间状态开始的灵活高效采样,在保持顶级性能的同时(甚至一步采样就能显著超越现有方法),为用户提供了根据需求定制计算成本的自由度。

引言

整体背景与问题提出

  • 图像超分辨率(SR)问题:是计算机视觉基础且具挑战性的问题,旨在从低分辨率(LR)图像恢复高分辨率(HR)图像。其挑战在于真实场景中退化模型的复杂和未知性,使SR成为不适定问题。
  • 现有研究基础:扩散模型,尤其是大规模文本到图像(T2I)模型在生成高质量图像上取得成功,其强大生成能力使其被用作缓解SR不适定性的可靠先验。现有利用扩散先验的SR方法通常通过优化或微调扩散网络中间特征,使其与给定LR观测对齐。

现有方法局限与本文创新

  • 现有方法局限:将生成对抗网络(GANs) inversion原理扩展到扩散模型用于SR面临挑战,扩散模型多步随机采样过程使inversion不简单,直接优化每步不同噪声图成本高且复杂,迭代推理机制会积累预测误差和随机性,影响保真度,所以现有扩散inversion方法多用于图像编辑等低保真度要求任务。
  • 本文创新:提出基于扩散inversion的新技术,通过寻找最优噪声图作为扩散模型输入,不修改扩散网络本身,最大化利用扩散先验。

具体方法介绍

  • 噪声预测器:引入名为噪声预测器的深度神经网络,从给定LR图像估计噪声图。
  • 部分噪声预测(PnP)策略
    • 原理:通过按扩散模型正向过程给LR图像添加噪声,噪声预测器预测添加的噪声而非随机采样,构建扩散模型中间状态作为采样起点。
    • 动机
      • 合理性:LR和HR图像仅高频细节不同,添加适当噪声后LR图像与HR图像难以区分噪反向扩散推导inversion轨迹的代理。
      • 复杂性:PnP策略限制预测到起始步,简化inversion任务,降低整体复杂度。
      • 灵活性:噪声预测器可训练预测多个预定义起始步的噪声图,推理时可自由选择起始步并使用任意采样算法和步数,灵活控制采样过程。
      • 保真度:训练时精心选择起始步使其有高信噪比(SNR),确保SR保真度,实践中设置SNR阈值大于1.44(对应Stable Diffusion中250时步)。
      • 效率性:采样从SNR大于1.44的步开始,结合现成加速采样算法,有效减少采样步数至少于五步,解决扩散SR方法常见低效问题。

方法优势与贡献

  • 优势:与现有固定采样步数的扩散方法不同,灵活采样机制可处理SR中不同类型和强度的退化,用户能根据具体退化条件调整采样。
  • 贡献
    • 提出基于扩散inversion的SR新方法,通过集成辅助噪声预测器有效利用扩散先验,同时保持扩散主干不变。
    • 引入灵活高效采样机制,采样步数可任意,从一到五,即使步数减至一步,性能也优于或与近期专用一步扩散方法相当 。

相关工作

基于扩散先验(Diffusion Prior)的图像超分辨率(SR)方法分类及特点

  1. 第一类方法:重新优化扩散模型中间结果

    • 操作方式:通过预定义或估计的退化模型,重新优化扩散模型的中间结果,保证与给定低分辨率(LR)图像的一致性。
    • 代表工作:DDRM [23]、CCDF [7]、DDNM [55] 等 [6, 8, 11, 37, 46, 62, 66]。
    • 优点:有效。
    • 局限性
      • 计算复杂度高:每个扩散步都要解决一个优化问题,导致推理速度慢。
      • 依赖手动定义退化模型:无法处理真实场景中的盲超分辨率(Blind SR)问题。
  2. 第二类方法:直接微调预训练的大型文本到图像(T2I)模型

    • 操作方式:直接对预训练的大型T2I模型进行微调,使其适用于SR任务。
    • 代表工作
      • StableSR [52] 开创此范式,引入空间特征变换层 [53] 引导T2I模型生成高分辨率(HR)输出。
      • 后续工作提出各种微调策略利用扩散先验,如DiffBIR [30]、SeeSR [59]、PASD [63]、S3Diff [70] 等 [27, 39, 48, 58, 60, 65]。
    • 优点:取得了令人印象深刻的性能,验证了扩散先验对SR的有效性。

扩散反演(Diffusion Inversion)相关研究进展及在图像超分辨率(SR)应用上的局限

  1. 扩散反演定义
    聚焦于确定最优噪声图集合,该集合经扩散模型处理后能重建给定图像。

  2. 研究发展历程

    • 早期突破:DDIM [45] 首次通过非马尔可夫过程类对扩散模型进行泛化,建立确定性生成过程,解决扩散反演问题。
    • 中间发展:Rinon 等人 [12] 和 Mokady 等人 [36] 提出优化文本嵌入,使其更好地与期望的文本指导对齐。
    • 近期进展:近期研究进一步优化文本和视觉提示 [35, 38] 以及中间噪声图 [13, 19, 20, 33, 50, 71] 的优化策略,显著提升了反演质量。
  3. 现存局限
    尽管取得上述进展,现有方法主要聚焦于图像编辑领域,无法满足图像超分辨率(SR)任务对高保真度的要求。

研究目标: 在本研究中,专门针对图像超分辨率(SR)任务定制了扩散反演技术。
前人研究局限:Chihaoui 等人 [5] 近期探索了用于图像恢复的扩散反演方法,但该方法在每个反演步骤都需解决优化问题,极大限制了推理效率。
本研究创新点:提出一种噪声预测模块,该模块训练完成后,在推理阶段无需进行迭代优化就能实现高效反演。
研究效果:显著提升了扩散反演在 SR 任务中的效率与实用性。

方法

为了与扩散模型中使用的符号保持一致,将 LR 图像表示为 y 0 y_0 y0,相应的 HR 图像表示为 x 0 x_0 x0

动机

1. 扩散模型的起源与发展

  • 起源:扩散模型是一种受非平衡热力学启发的概率生成模型。它最初被引入,旨在通过模拟扩散过程来生成数据。
  • 发展:随后,Song 等人在随机微分方程(SDEs)的框架内对其进行了重新表述。本文提出了一种适用于基于概率和基于 SDE 的扩散公式的通用扩散反演技术。为了便于理解,在整个论文展示中采用了 DDPM 的概率框架。

2. DDPM 框架

  • 正向过程:DDPM 框架本质上是一个长度为 T T T 的马尔可夫链,其正向过程由高斯转移核表征,公式(1) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) q(x_t|x_{t - 1}) = \mathcal{N}(x_t;\sqrt{1 - \beta_t}x_{t - 1},\beta_tI) q(xtxt1)=N(xt;1βt xt1,βtI) 描述了在给定 x t − 1 x_{t - 1} xt1 的情况下 x t x_t xt 的条件概率分布。其中 β t \beta_t βt 是预先定义的超参数,控制方差调度。通过这个转移核可以推导出边际分布 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0),如公式(2)所示。
    在这里插入图片描述

  • 反向过程:反向过程旨在从初始随机噪声图 x T ∼ N ( 0 , I ) x_T \sim \mathcal{N}(0, I) xTN(0,I) 生成高质量图像,其表达式为公式(3) x t − 1 = g θ ( x t , t ) + σ t z t − 1 , t = T , ⋯   , 1 x_{t - 1} = g_\theta(x_t,t) + \sigma_tz_{t - 1}, t = T,\cdots,1 xt1=gθ(xt,t)+σtzt1,t=T,,1。其中 g θ ( x t , t ) g_\theta(x_t,t) gθ(xt</

http://www.dtcms.com/a/566592.html

相关文章:

  • 广东省省考备考(第一百四十天11.3)——数量关系、资料分析(强化训练)
  • 网站性能优化三明网站开发
  • 【动态规划:01背包】01背包详解 模板题 优化
  • 专门做餐饮空间设计的网站ui设计常用软件
  • 企业信息公示平台徐州seo
  • 雕塑网站模板电商网站设计的流程
  • RAE:Diffusion Transformers with Representation Autoencoders
  • 医院网站开发多少钱烟台网络公司员工人数
  • 算法学习记录11——Python 多变量赋值问题
  • 怎样拥有自己的网站外行学习个人网站建设
  • 建设部城市管理监督局网站官网建站系统源代码
  • html网站地图模板房地产型网站建设
  • 基于YOLOv10的水质污染检测:水面漂浮油污与垃圾智能识别实战
  • 大唐网站建设全国文明城市创建方案
  • 奉贤集团网站建设军队房地产与建设工程法律实务在哪个网站可以购买
  • 上海做网站培训班成都室内设计公司排名前十
  • 建设网站公司是什么淘宝网站的推广方案
  • 长沙自助模板建站网上商城是什么
  • 【动手学深度学习】关于数据转换的时候出现TypeError和iloc
  • 网站建设案例 杭州远大昆明网站建设 熊掌号
  • 无锡网站建设方案优化网站建设吕凡科技
  • MODBUS协议学习(基于RS485总线)一文学会
  • Win10/Win11文件夹图片不能预览怎么解决?
  • linux之arm SMMUv3 client 设备DMA配置过程分析(8)
  • Java企业实战微服务全栈零基础完整使用
  • 做外贸 网站邮箱申请百度自动点击器
  • 楼盘 东莞网站建设关于网站建设的合同范本
  • 代码随想录训练营打卡Day34| 动态规划part03
  • ES 使用URL增删改查
  • C++中指针和引用的区别