当前位置：首页 > news >正文

【超分辨率专题】DOVE：特色双阶段训练的单步Real-World视频超分辨

news 2025/10/16 5:52:22

在这里插入图片描述

DOVE：特色双阶段训练的单步Real-World视频超分辨（2025）

专题介绍
一、研究背景
- - - **构建高质量视频超分辨率专用数据集 HQ-VSR**
    - **无需额外模块，轻量高效**
二、方法细节
- 关键在于训练策略
- video processing pipeline
三、实验论证
四、总结和思考

本文将对《DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution》这篇文章进行解读，这同样是一篇VSR领域内的单步Diff技术方案，也强调了单步VSR的首创性。参考资料如下：
参考资料如下：
[1]. 论文地址
[2]. 代码地址

专题介绍

现在是数字化时代，图像与视频早已成为信息传递的关键载体。超分辨率（super resolution，SR）技术能够突破数据源的信息瓶颈，挖掘并增强低分辨率图像与视频的潜能，重塑更高品质的视觉内容，是底层视觉的核心研究方向之一。并且SR技术已有几十年的发展历程，方案也从最早的邻域插值迭代至现今的深度学习SR，但无论是经典算法还是AI算法，都在视觉应用领域内发挥着重要作用。

本专题旨在跟进和解读超分辨率技术的发展趋势，为读者分享有价值的超分辨率方法，欢迎一起探讨交流。

系列文章如下：
【1】SR+Codec Benchmark
【2】OSEDiff
【3】PiSA
【4】DLoRAL

一、研究背景

文章研究主题是真实世界视频超分辨率（Real-World Video Super-Resolution, VSR），目标是从低质量、低分辨率的现实视频中恢复出高分辨率、高保真的视频。

当前技术对比

方法类型	代表工作	优势	劣势
传统CNN方法	RealBasicVSR	结构简单、推理快	依赖固定退化假设，真实场景泛化差
GAN-based方法	RealESRGAN	可生成逼真纹理	容易产生伪影，训练不稳定
多步扩散模型	MGLD-VSR , STAR	强大先验，恢复质量高	需要数十步采样，推理慢（>100秒/视频）
单步图像超分	SinSR , OSEDiff	推理极快（1步）	未扩展至视频领域，无法处理时序一致性

现有扩散模型虽性能优越，但效率低下；而加速方法（如单步）在视频任务中尚未有效解决训练成本与保真度之间的平衡问题。这里的训练成本指得是增加了一些辅助模块（例如用于充当教师模型的角色），例如DMD、VSD这类方法。

为了解决这些挑战，作者提出了DOVE，这是“首个”将单步采样机制应用于真实世界VSR任务的扩散模型，解决了传统扩散方法因多步采样导致的推理速度瓶颈。其核心创新点如下：

提出“潜空间-像素空间”两阶段训练策略（Latent-Pixel Training Strategy）
1. Stage-1（潜空间适应）：在潜空间中最小化预测潜变量与真实高分辨率潜变量之间的误差，利用 VAE 压缩特性降低计算开销，支持长视频训练。
2. Stage-2（像素空间精调）：引入图像-视频混合训练，先用图像数据在像素空间微调以提升细节质量，再加入视频数据确保时序一致性。
亮点：避免了复杂的知识蒸馏或对抗训练，降低了训练成本，同时兼顾恢复质量和效率。
构建高质量视频超分辨率专用数据集 HQ-VSR

提出五步视频处理流程（元数据过滤 → 场景分割 → 质量评分 → 运动检测 → 局部裁剪），基于 OpenVid-1M 构建出 2,055 个高质量视频样本。强调运动区域检测与裁剪，确保训练数据包含丰富动态细节，更适合VSR任务。
无需额外模块，轻量高效
1. 不引入 ControlNet、光流约束等辅助模块，直接微调 CogVideoX（先进的预训练视频生成模型）的 Transformer 解码器，保持模型简洁。
2. 相比 MGLD-VSR 等方法，推理速度提升 28倍，适合实际部署。

从下图可以看出DOVE的real-world benchmark上的性能和效率表现都不错。

二、方法细节

DOVE整体架构如图2，相比CogVideoX，其移除了文本条件，输入空提示即可（节省了性能开销）。核心模块仅有3D VAE和 DiT，采用了two-stage 训练策略和高质量数据集来获得强大的性能。
在这里插入图片描述
实际推理流程大致如下：

对LR（低分辨率输入）用双线性插值做放大。
送入VAE encoder，得到latent。
将此latent视为扩散过程的起始点，视为某个特定时间步 t 的带噪latent，文中 t 为399。
将latent送给VAE decoder，得到复原的视频结果。

问题来了，这里为何将 t 设为一个较小值，Why？
文中提到，由观察可知早期扩散步骤关注全局结构，后期步骤更倾向细化微小细节。由于LQ视频已经包含了足够的结构信息，故不需要从头开始（例如 t =999）。当然，当 t 太小也会阻碍退化的去除。所以，这里选择了 t =399。

这意味着不同程度的退化应该用不同的 t ，但很多单步方案都是固定了 t 。这类似是一个告知模型输入数据退化程度的先验参数。

关键在于训练策略

为了实现对DOVE的有效训练，作者设计了一种latent-pixel训练策略（双阶段）。
这里仅采用回归损失，而不是蒸馏和对抗，以提高训练效率。而且仅微调transformer模块。

stage-1：Adaptation

作者希望让预测结果更接近高质量GT，于是将优化目标定为最小化 $z_{sr}$ 和HQ latent $z_{hr}$ 的差异，用MSE进行损失约束，定义如下
$Ls1=Lmse(zsr,zhr)=1∣zhr∣∥zsr−zhr∥2L_{s1} = L_{\text{mse}}(z_{sr}, z_{hr}) = \frac{1}{|z_{hr}|} \|z_{sr} - z_{hr}\|^2$

这一步还有个好处，得益于潜空间的高计算效率，即使训练较长的视频数据也能hold住。

stage-2：Refinement

第一阶段后，模型能学个大概，但跟GT仍有明显差距。因为latent之间的微小差距经过VAE解码后会被进一步放大。
所以，在像素空间中的微调是必须的。然而如先前所述，在像素空间中大规模的视频数据训练开销很大，怎么办？

于是，作者采用了图片和视频的混合数据集进行微调，图片可以理解为是单帧视频。

先用图片数据训练，损失方面继续用MSE损失，同时附带感知类损失DISTS，提升纹理细节保留能力。这部分损失表达如下
$Ls2-image=Lmse(x^sr,x^hr)+λ1⋅Ldists(x^sr,x^hr)L_{\text{s2-image}} = L_{\text{mse}}(\hat{x}_{sr}, \hat{x}_{hr}) + \lambda_1 \cdot L_{\text{dists}}(\hat{x}_{sr}, \hat{x}_{hr})$

光靠图片无法保证时序稳定性，所以仍需用视频再做一步微调，在原损失基础上再加一项帧间一致性损失。其表达如下
$Lframe(xsr,xhr)=1n−1∑t=2n∥Δxsr(t)−Δxhr(t)∥1,Δx(t):=x(t)−x(t−1)L_{\text{frame}}(x_{sr}, x_{hr}) = \frac{1}{n - 1} \sum_{t=2}^{n} \|\Delta x_{sr}^{(t)} - \Delta x_{hr}^{(t)}\|_1, \quad \Delta x^{(t)} := x^{(t)} - x^{(t-1)}$

其他小巧思
这里为了规避内存峰值，作者建议可以对VAE采用单帧处理模式，transformer部分仍是多个latent一起处理。

当然这个策略可以视情况而定，并不影响效果，除非VAE部分也引入了时域信息的互参考能力。

最后再引入一个超参数，控制一下图像和视频之间的比例，作者实验论证图像视频比为8:2效果最佳。（只能说仅供参考）

至此训练部分就结束了，非常简洁，你敢信？ 👀

video processing pipeline

关于数据集部分，作者也有新想法。

高质量数据集的价值总所周知，但现有VSR数据集，部分样本不够丰富，部分未做过针对性清洗。用来微调则无法激发模型潜力。
于是，提出了一个系统的视频处理流程来构建一个VSR定制化数据集。

在这里插入图片描述
具体流程如下：

step1：元数据过滤，保留分辨率>720p、帧率>50 帧的视频。VSR通常针对大尺寸视频。

step2：场景过滤，使用场景检测算法去除短片段、剪切和转场。这些不利于模型学习连贯视频语义。

step3：质量过滤，对每个视频进行多个质量度量指标的评分。使用了LAION美学模型等度量指标，但由于VSR更关注细节质量，这些指标是不够的。因此纳入了CLIP- IQA 、Faster VQA 和DOVER，以实现更严格的过滤。

step4：运动检测，剔除运动不充分的视频。估计光流来计算运动分数，根据阈值计算运动mask，通过padding扩展运动边界（保留一定上下文信息）。最后根据边界框进行裁剪，规避了纯静止的数据，同步舍弃分辨率低于720p的裁剪区域。

在经过此pipeline后的数据集上微调，DOVE可以获得更好的性能。

三、实验论证

数据集的退化处理包括两部分

高质量视频用BasicVSR的退化pipeline。
高质量图像（DIV2K）用real-esrgan的退化pipeline。

所有实验均采用x4放大倍数。

评价指标：

图像质量：PSNR、SSIM、LPIPS、DISTS、CLIP-IQA
视频质量：FasterVQA、DOVER
时序一致性：光流对齐误差 $E^*_{warp}$

实验结果证明了DOVE的有效性
在这里插入图片描述

通过跨帧堆叠红线区域，来对比时序一致性效果，如下图所示。

在这里插入图片描述
同时做了消融实验以证明训练策略的价值，如下表

训练策略消融：第一阶段的结果比较平滑，感知性能较低。第二阶段微调后，感知效果显著提升。再加入混合训练，效果还能进一步提升。

图像比例消融：此时，有人可能会提问，第二阶段全用视频数据会不会更好？作者也做了实验，结果证明图像视频8:2最佳。

但作者也提到是硬件限制，视频质量较低，如果全改成高质量视频呢？想必效果也不会太差吧。

训练数据消融：比较了多个数据集，差异明显，虽然HQ-VSR数量少，但质量高，效果反而最佳。

数据处理pipeline消融：证明了一下数据集处理pipeline中运动检测步骤的价值。

四、总结和思考

该方案提出了一种有效的一步扩散模型，DOVE，用于real-VSR。模型基于预训练的视频生成模型CogVideoX构建的。为了实现有效的微调，引入了隐像素训练策略，一个两阶段的方案，将预训练的视频模型逐渐适应VSR任务。此外，还构建了一个高质量的数据集HQ - VSR，以进一步提高性能。该数据集是由一套为VSR量身定做的视频处理流水线生成。实验表明，DOVE比现有的方法具有更高的效率。

方案简洁，但很实用。

感谢阅读，欢迎留言或私信，一起探讨和交流。
如果对你有帮助的话，也希望可以给博主点一个关注，感谢。

查看全文

http://www.dtcms.com/a/485781.html