当前位置：首页 > news >正文

【论文精读】STAR：基于文本到视频模型的空间-时间增强真实世界视频超分

news 2025/10/14 7:25:44

标题：STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
作者：Rui Xie¹∗, Yinhong Liu¹∗, Penghao Zhou², Chen Zhao¹, Jun Zhou³, Kai Zhang¹, Zhenyu Zhang¹, Jian Yang¹, Zhenheng Yang², Ying Tai¹†
机构：¹南京大学，²字节跳动，³西南大学
期刊：CVPR2025
链接：https://nju-pcalab.github.io/projects/STAR
时间：2025年10月13日

一、引言：真实世界视频超分的挑战与新范式

视频超分辨率（Video Super-Resolution, VSR）是计算机视觉中的经典任务，旨在将低分辨率（LR）视频恢复为高分辨率（HR）视频，以提升视觉质量。然而，真实世界（Real-World）视频超分远比合成数据上的任务复杂得多。真实视频通常受到未知的复杂退化（degradations）影响，如噪声、模糊、压缩伪影等，这些退化在训练数据中难以完全建模。

传统方法（如基于GAN的模型）虽然能生成细节，但常出现**过度平滑（over-smoothing）**问题。近年来，图像扩散模型被引入VSR，虽提升了生成质量，但由于其训练数据主要为静态图像，**时间一致性（temporal consistency）**难以保证。

在此背景下，STAR（Spatial-Temporal Augmentation with Text-to-Video Models）应运而生。该论文首次将强大的文本到视频（Text-to-Video, T2V）扩散模型引入真实世界视频超分，提出了一种全新的空间-时间增强框架，显著提升了恢复视频的空间细节与时间连贯性。

图1：直观的视觉对比

图1 是论文开篇的核心视觉证据，它直观地展示了STAR相较于当前最先进方法（SOTA）的巨大优势。该图对比了在真实世界输入和合成低分辨率视频上的恢复效果。

从图中可以清晰地看到：

Real-ESRGAN 和 RealViformer 等GAN或Transformer-based方法虽然能提升分辨率，但存在明显的过度平滑问题，面部纹理模糊，文字边缘不清晰。
Upscale-A-Video 作为基于文本到图像扩散模型的方法，虽然细节有所提升，但在处理真实世界的复杂退化时，时间一致性较差，且文字结构恢复不佳。
STAR（Ours） 的输出则展现出更自然的面部细节（如皮肤纹理、胡须）和更清晰、结构完整的文字。这充分证明了T2V先验在捕捉真实世界视频的时空动态和恢复精细结构方面的优越性。

二、核心思想与贡献

STAR的核心思想是：利用预训练的T2V扩散模型作为强大的时空先验（spatio-temporal prior），指导视频超分过程。T2V模型（如CogVideoX、I2VGen-XL）在海量视频-文本对上训练，具备极强的时空建模能力，能够生成连贯、逼真的视频内容。

主要贡献：

提出STAR框架：首次将T2V扩散先验引入真实世界VSR，实现高质量的时空恢复。
局部信息增强模块（LIEM）：在T2V模型的全局注意力前引入局部增强模块，缓解复杂退化带来的伪影。
动态频率损失（DF Loss）：设计了一种频率感知的损失函数，引导模型在不同扩散步中分别关注低频（结构）和高频（细节），提升保真度。
实验验证：在多个合成与真实数据集上，STAR在DOVER（视频清晰度）、E*warp（时间一致性）等指标上超越现有SOTA方法。

三、方法详解

3.1 整体架构

STAR的整体框架如图2 所示，主要由以下模块构成：

VAE Encoder：将LR视频 $X_{L}$ 和HR视频 $X_{H}$ 编码为潜在表示 $Z_{L}$ 和 $Z_{H}$ 。
文本编码器（Text Encoder）：生成文本嵌入 $c_{text}$ ，提供高层语义信息。
ControlNet：以 $Z_{L}$ 和 $c_{text}$ 为输入，生成控制信号 $c_l$ ，用于引导T2V模型。
T2V模型（含LIEM）：接收带噪声的潜在、文本嵌入和控制信号，预测速度。
损失函数：包括速度预测损失和提出的动态频率损失 。

训练目标：

其中 $b(t)$ 是随扩散步变化的权重函数，用于平衡两个损失。

训练数据集：

高质量、大规模的训练数据也是STAR成功的重要因素之一。

从表2中可以看出：

STAR采用的OpenVid-1M数据集是一个高质量的野外视频数据集，包含超过100万个带详细字幕的视频片段，最小分辨率为512×512。
相比于RealViformer使用的REDS数据集（专为视频去模糊设计），OpenVid-1M的视频内容更加多样化、真实，且包含丰富的文本描述，这为T2V模型提供了更强大的时空先验学习基础。
STAR的训练数据虽然在数量上不是最大，但其高质量和高相关性（与T2V任务匹配）是其性能优越的关键。