当前位置：首页 > news >正文

【论文精读】SimDA：用于高效视频生成的简单扩散适配器

news 2025/11/4 11:04:56

标题：SimDA: Simple Diffusion Adapter for Efficient Video Generation

作者：Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang

单位：复旦大学、微软亚洲研究院

会议：CVPR 2023

论文链接：https://arxiv.org/abs/2308.09710

项目主页：https://chenhsing.github.io/SimDA/

代码链接：https://github.com/ChenHsing/SimDA

关键词：文本驱动视频生成、参数高效微调、潜在扩散模型、时空适配器、Latent-Shift Attention、视频超分辨率、文本引导视频编辑、轻量级模型架构、单样本视频编辑、高效推理

一、引言：从图像生成到视频生成的跨越

近年来，人工智能生成内容（AIGC）浪潮席卷全球，其中文本到图像（Text-to-Image, T2I）技术取得了巨大成功。以Stable Diffusion、DALL·E 2为代表的扩散模型，凭借其强大的可控性、稳定性和逼真的生成效果，成为主流。

然而，文本到视频（Text-to-Video, T2V）生成技术的发展却相对滞后。主要原因如下：

数据稀缺：高质量、大规模的文本-视频配对数据集远少于图像数据集。
时序建模困难：视频不仅包含空间信息，还包含复杂的时序动态和运动一致性。
训练成本高昂：直接从头训练一个视频生成模型，或对大型T2I模型进行全参数微调，都需要巨大的计算资源和显存。

为了解决这些问题，现有工作主要分为两类：

从头训练：如CogVideo、Video Diffusion Models，但训练周期长、成本高。
模型适配：如Make-A-Video、Imagen Video，通过在T2I模型中引入时序模块来适配视频生成，但参数量巨大（如Imagen Video达16.3B），训练依然昂贵。

在此背景下，本文提出了 SimDA (Simple Diffusion Adapter)，一种参数高效的扩散适配器，旨在用极小的可训练参数量，将强大的T2I模型（如Stable Diffusion）高效地迁移到视频生成任务中。

二、核心思想与贡献

SimDA的核心思想是：冻结原始T2I模型的绝大部分参数，仅引入少量轻量级的“适配器”模块进行微调。这种方法在NLP领域（如LoRA、Adapter）已被证明高效，但在视频生成领域尚属探索。

主要贡献

极简适配：仅微调1.1B参数模型中的2400万（24M）参数（占比仅0.02%），即可实现高质量的视频生成。
轻量级时空适配器：
- 空间适配器（Spatial Adapter）：用于迁移图像空间特征。
- 时序适配器（Temporal Adapter）：用于建模视频时序动态。
提出Latent-Shift Attention (LSA)：替代原始的空间注意力，通过“潜在位移”机制增强时序一致性，且不增加额外参数。
多功能扩展：同一框架可扩展至视频超分（生成1024×1024高清视频）和文本引导视频编辑（One-shot Editing），训练效率显著提升。
高效性：训练显存需求低于8GB（16×256×256分辨率），推理速度比自回归方法（如CogVideo）快39倍。

三、方法详解

3.1 基础：Stable Diffusion回顾

SimDA基于潜在扩散模型（Latent Diffusion Model, LDM），即Stable Diffusion。其核心流程如下：

编码：通过预训练的VAE编码器 $E$ 将图像 $I$ 映射到低维潜在空间 $x_0=E(I)$ 。
前向扩散：在 $T$ 步内逐步向 $x_0$ 添加高斯噪声，得到 $x_T\sim N(0,I)$ 。
反向去噪：训练一个U-Net网络 $\epsilon _\theta$ 预测每一步添加的噪声，从而从纯噪声 $x_T$ 逐步恢复出 $x_0$ 。
解码：通过预训练的VAE解码器 $D$ 将去噪后的潜在码 $x_0$ 解码为最终图像 $I=D(x_0)$ 。

训练目标为：

其中 $c$ 是文本条件的嵌入。

3.2 SimDA整体架构

SimDA的架构如图2所示。

输入处理：对于包含 tt 帧的视频 {Ii}i=1t{Ii}i=1t，使用预训练的编码器 EE 得到潜在特征 {xi}i=1t{xi}i=1t。
前向扩散：对视频潜在特征逐步加噪。
反向去噪：使用膨胀的U-Net（Inflated U-Net）进行去噪预测。
- 卷积块：将2D ResNet块膨胀为3D块以处理视频输入。
- 注意力块：引入Latent-Shift Attention (LSA) 和 空间适配器。
- 时序建模：通过时序适配器捕捉帧间关系。
推理阶段：使用DDIM采样从高斯噪声中生成视频潜在码，再通过解码器 DD 重建视频。

关键点：训练时，仅更新新添加的适配器模块（黄色部分），原始T2I模型的参数完全冻结（蓝色部分），极大降低了训练成本。

3.3 核心组件：适配器与注意力

3.3.1 空间适配器（Spatial Adapter）

受NLP和CV领域高效微调技术的启发，SimDA在U-Net的注意力块和前馈网络（FFN）后添加了瓶颈结构的适配器。

结构：两个全连接层（FC） + GELU激活，形成“下采样-上采样”瓶颈。
公式：
其中 $W_{down}\in \mathbb{R}^{d\times l}$ , $W_{up}\in \mathbb{R}^{l\times d}$ , $l< d$ 。
初始化： $W_{down}$ 初始化为零，以保持原始网络结构不变。
位置：添加在LSA层之后，帮助网络迁移图像空间信息到视频任务。

3.3.2 时序适配器（Temporal Adapter）

为建模时序信息，SimDA设计了轻量级的时序适配器。

结构：与空间适配器类似，但中间层使用深度可分离3D卷积（depth-wise 3D Conv）而非FC层。
公式：
优势：在低维特征上进行3D卷积，显著降低了计算复杂度和显存占用，实现了高效的时序建模。

3.3.3 Latent-Shift Attention (LSA)

这是SimDA的核心创新之一，旨在解决时序一致性问题，且不增加参数，LSA模块示意图如下。

问题：原始T2I的注意力仅在单帧内进行，忽略了帧间关系。
方案：LSA在潜在空间进行块级位移（patch-level shifting）。
1. 将前 $T$ 帧的部分潜在特征沿时间维度“位移”到当前帧。
2. 将当前帧的潜在特征 $x_{z_i}$ 与位移后的特征 $x_{z_{shift}}$ 拼接。
3. 使用拼接后的特征作为Key和Value，当前帧特征作为Query进行注意力计算。
公式：
优势：
- 复杂度低：从全局时空注意力的 $O(L^2N^2)$ 降至 $O(2LN^2)$ 。
- 一致性好：强制模型学习相邻帧间的关系，提升生成视频的流畅性。

3.4 扩展应用：超分与编辑

3.4.1 视频超分辨率（Super Resolution）

由于显存限制，大多数方法（包括SimDA第一阶段）只能生成256×256的视频。为此，SimDA采用两阶段级联训练：

第一阶段：使用SimDA生成256×256视频。
第二阶段：训练一个4倍超分模型，将256×256视频提升至1024×1024。
- 输入：低分辨率视频 $x_{low}$ 与带噪的高分辨率潜在码 $x_{t}$ 的拼接。
- 架构：与第一阶段T2V模型类似，但加入空间和时序适配器，并仅微调这些新模块。
- 训练目标：

3.4.2 文本引导视频编辑（Text-guided Video Editing）

SimDA可轻松扩展至单样本视频编辑（One-shot Editing），灵感来自Tune-A-Video。

训练：与T2V相同，使用一个视频-文本对进行微调。
推理：采用DDIM反演（DDIM inversion）：
1. 将输入视频通过编码器和前向扩散过程，得到其“反演潜在码”。
2. 以此反演码为起点，结合修改后的文本提示，进行反向去噪生成。
优势：由于适配器轻量，SimDA仅需200步微调（Tune-A-Video需500步），训练和推理速度快3倍。

四、实验与结果

4.1 实验设置

数据集：WebVid-10M（训练），MSR-VTT（评估）。
评估指标：
- FVD (Frechet Video Distance)：越低越好，衡量生成视频与真实视频的分布距离。
- CLIPSIM：越高越好，衡量视频与文本提示的语义一致性。
对比方法：CogVideo, Make-A-Video, Video LDM, Latent-Shift等。