【超分辨率专题】DOVE:特色双阶段训练的单步Real-World视频超分辨
DOVE:特色双阶段训练的单步Real-World视频超分辨(2025)
- 专题介绍
- 一、研究背景
- **构建高质量视频超分辨率专用数据集 HQ-VSR**
- **无需额外模块,轻量高效**
- 二、方法细节
- 关键在于训练策略
- video processing pipeline
- 三、实验论证
- 四、总结和思考
本文将对《DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution》这篇文章进行解读,这同样是一篇VSR领域内的单步Diff技术方案,也强调了单步VSR的首创性。参考资料如下:
参考资料如下:
[1]. 论文地址
[2]. 代码地址
专题介绍
现在是数字化时代,图像与视频早已成为信息传递的关键载体。超分辨率(super resolution,SR)技术能够突破数据源的信息瓶颈,挖掘并增强低分辨率图像与视频的潜能,重塑更高品质的视觉内容,是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程,方案也从最早的邻域插值迭代至现今的深度学习SR,但无论是经典算法还是AI算法,都在视觉应用领域内发挥着重要作用。
本专题旨在跟进和解读超分辨率技术的发展趋势,为读者分享有价值的超分辨率方法,欢迎一起探讨交流。
系列文章如下:
【1】SR+Codec Benchmark
【2】OSEDiff
【3】PiSA
【4】DLoRAL
一、研究背景
文章研究主题是真实世界视频超分辨率(Real-World Video Super-Resolution, VSR),目标是从低质量、低分辨率的现实视频中恢复出高分辨率、高保真的视频。
当前技术对比
方法类型 | 代表工作 | 优势 | 劣势 |
---|---|---|---|
传统CNN方法 | RealBasicVSR | 结构简单、推理快 | 依赖固定退化假设,真实场景泛化差 |
GAN-based方法 | RealESRGAN | 可生成逼真纹理 | 容易产生伪影,训练不稳定 |
多步扩散模型 | MGLD-VSR , STAR | 强大先验,恢复质量高 | 需要数十步采样,推理慢(>100秒/视频) |
单步图像超分 | SinSR , OSEDiff | 推理极快(1步) | 未扩展至视频领域,无法处理时序一致性 |
现有扩散模型虽性能优越,但效率低下;而加速方法(如单步)在视频任务中尚未有效解决训练成本与保真度之间的平衡问题。这里的训练成本指得是增加了一些辅助模块(例如用于充当教师模型的角色),例如DMD、VSD这类方法。
为了解决这些挑战,作者提出了DOVE,这是“首个”将单步采样机制应用于真实世界VSR任务的扩散模型,解决了传统扩散方法因多步采样导致的推理速度瓶颈。其核心创新点如下:
-
提出“潜空间-像素空间”两阶段训练策略(Latent-Pixel Training Strategy)
-
Stage-1(潜空间适应):在潜空间中最小化预测潜变量与真实高分辨率潜变量之间的误差,利用 VAE 压缩特性降低计算开销,支持长视频训练。
-
Stage-2(像素空间精调):引入图像-视频混合训练,先用图像数据在像素空间微调以提升细节质量,再加入视频数据确保时序一致性。
亮点:避免了复杂的知识蒸馏或对抗训练,降低了训练成本,同时兼顾恢复质量和效率。
-
-
构建高质量视频超分辨率专用数据集 HQ-VSR
提出五步视频处理流程(元数据过滤 → 场景分割 → 质量评分 → 运动检测 → 局部裁剪),基于 OpenVid-1M 构建出 2,055 个高质量视频样本。强调运动区域检测与裁剪,确保训练数据包含丰富动态细节,更适合VSR任务。
-
无需额外模块,轻量高效
-
不引入 ControlNet、光流约束等辅助模块,直接微调 CogVideoX(先进的预训练视频生成模型) 的 Transformer 解码器,保持模型简洁。
-
相比 MGLD-VSR 等方法,推理速度提升 28倍,适合实际部署。
-
从下图可以看出DOVE的real-world benchmark上的性能和效率表现都不错。
二、方法细节
DOVE整体架构如图2,相比CogVideoX,其移除了文本条件,输入空提示即可(节省了性能开销)。核心模块仅有3D VAE和 DiT,采用了two-stage 训练策略和高质量数据集来获得强大的性能。
实际推理流程大致如下:
- 对LR(低分辨率输入)用双线性插值做放大。
- 送入VAE encoder,得到latent。
- 将此latent视为扩散过程的起始点,视为某个特定时间步 t 的带噪latent,文中 t 为399。
- 将latent送给VAE decoder,得到复原的视频结果。
问题来了,这里为何将 t 设为一个较小值,Why?
文中提到,由观察可知早期扩散步骤关注全局结构,后期步骤更倾向细化微小细节。由于LQ视频已经包含了足够的结构信息,故不需要从头开始(例如 t =999)。当然,当 t 太小也会阻碍退化的去除。所以,这里选择了 t =399。
这意味着不同程度的退化应该用不同的 t ,但很多单步方案都是固定了 t 。 这类似是一个告知模型输入数据退化程度的先验参数。
关键在于训练策略
为了实现对DOVE的有效训练,作者设计了一种latent-pixel训练策略(双阶段)。
这里仅采用回归损失,而不是蒸馏和对抗,以提高训练效率。而且仅微调transformer模块。
stage-1:Adaptation
作者希望让预测结果更接近高质量GT,于是将优化目标定为最小化zsrz_{sr}zsr和HQ latent zhrz_{hr}zhr的差异,用MSE进行损失约束,定义如下
Ls1=Lmse(zsr,zhr)=1∣zhr∣∥zsr−zhr∥2L_{s1} = L_{\text{mse}}(z_{sr}, z_{hr}) = \frac{1}{|z_{hr}|} \|z_{sr} - z_{hr}\|^2Ls1=Lmse(zsr,zhr)=∣zhr∣1∥zsr−zhr∥2
这一步还有个好处,得益于潜空间的高计算效率,即使训练较长的视频数据也能hold住。
stage-2:Refinement
第一阶段后,模型能学个大概,但跟GT仍有明显差距。因为latent之间的微小差距经过VAE解码后会被进一步放大。
所以,在像素空间中的微调是必须的。然而如先前所述,在像素空间中大规模的视频数据训练开销很大,怎么办?
于是,作者采用了图片和视频的混合数据集进行微调,图片可以理解为是单帧视频。
先用图片数据训练,损失方面继续用MSE损失,同时附带感知类损失DISTS,提升纹理细节保留能力。这部分损失表达如下
Ls2-image=Lmse(x^sr,x^hr)+λ1⋅Ldists(x^sr,x^hr)L_{\text{s2-image}} = L_{\text{mse}}(\hat{x}_{sr}, \hat{x}_{hr}) + \lambda_1 \cdot L_{\text{dists}}(\hat{x}_{sr}, \hat{x}_{hr})Ls2-image=Lmse(x^sr,x^hr)+λ1⋅Ldists(x^sr,x^hr)
光靠图片无法保证时序稳定性,所以仍需用视频再做一步微调,在原损失基础上再加一项帧间一致性损失。其表达如下
Lframe(xsr,xhr)=1n−1∑t=2n∥Δxsr(t)−Δxhr(t)∥1,Δx(t):=x(t)−x(t−1)L_{\text{frame}}(x_{sr}, x_{hr}) = \frac{1}{n - 1} \sum_{t=2}^{n} \|\Delta x_{sr}^{(t)} - \Delta x_{hr}^{(t)}\|_1, \quad \Delta x^{(t)} := x^{(t)} - x^{(t-1)}Lframe(xsr,xhr)=n−11t=2∑n∥Δxsr(t)−Δxhr(t)∥1,Δx(t):=x(t)−x(t−1)
其他小巧思
这里为了规避内存峰值,作者建议可以对VAE采用单帧处理模式,transformer部分仍是多个latent一起处理。
当然这个策略可以视情况而定,并不影响效果,除非VAE部分也引入了时域信息的互参考能力。
最后再引入一个超参数,控制一下图像和视频之间的比例,作者实验论证图像视频比为8:2效果最佳。(只能说仅供参考)
至此训练部分就结束了, 非常简洁,你敢信? 👀
video processing pipeline
关于数据集部分,作者也有新想法。
高质量数据集的价值总所周知,但现有VSR数据集,部分样本不够丰富,部分未做过针对性清洗。用来微调则无法激发模型潜力。
于是,提出了一个系统的视频处理流程来构建一个VSR定制化数据集。
具体流程如下:
step1:元数据过滤,保留分辨率>720p、帧率>50 帧的视频。VSR通常针对大尺寸视频。
step2:场景过滤,使用场景检测算法去除短片段、剪切和转场。这些不利于模型学习连贯视频语义。
step3:质量过滤,对每个视频进行多个质量度量指标的评分。使用了LAION美学模型等度量指标,但由于VSR更关注细节质量,这些指标是不够的。因此纳入了CLIP- IQA 、Faster VQA 和DOVER,以实现更严格的过滤。
step4:运动检测,剔除运动不充分的视频。估计光流来计算运动分数,根据阈值计算运动mask,通过padding扩展运动边界(保留一定上下文信息)。最后根据边界框进行裁剪,规避了纯静止的数据,同步舍弃分辨率低于720p的裁剪区域。
在经过此pipeline后的数据集上微调,DOVE可以获得更好的性能。
三、实验论证
数据集的退化处理包括两部分
- 高质量视频用BasicVSR的退化pipeline。
- 高质量图像(DIV2K)用real-esrgan的退化pipeline。
所有实验均采用x4放大倍数。
评价指标:
- 图像质量:PSNR、SSIM、LPIPS、DISTS、CLIP-IQA
- 视频质量:FasterVQA、DOVER
- 时序一致性:光流对齐误差Ewarp∗E^*_{warp}Ewarp∗
实验结果证明了DOVE的有效性
通过跨帧堆叠红线区域,来对比时序一致性效果,如下图所示。
同时做了消融实验以证明训练策略的价值,如下表
训练策略消融:第一阶段的结果比较平滑,感知性能较低。第二阶段微调后,感知效果显著提升。再加入混合训练,效果还能进一步提升。
图像比例消融:此时,有人可能会提问,第二阶段全用视频数据会不会更好?作者也做了实验,结果证明图像视频8:2最佳。
但作者也提到是硬件限制,视频质量较低,如果全改成高质量视频呢?想必效果也不会太差吧。
训练数据消融:比较了多个数据集,差异明显,虽然HQ-VSR数量少,但质量高,效果反而最佳。
数据处理pipeline消融:证明了一下数据集处理pipeline中运动检测步骤的价值。
四、总结和思考
该方案提出了一种有效的一步扩散模型,DOVE,用于real-VSR。模型基于预训练的视频生成模型CogVideoX构建的。为了实现有效的微调,引入了隐像素训练策略,一个两阶段的方案,将预训练的视频模型逐渐适应VSR任务。此外,还构建了一个高质量的数据集HQ - VSR,以进一步提高性能。该数据集是由一套为VSR量身定做的视频处理流水线生成。实验表明,DOVE比现有的方法具有更高的效率。
方案简洁,但很实用。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。