当前位置: 首页 > news >正文

【论文精读】SimDA:用于高效视频生成的简单扩散适配器

标题:SimDA: Simple Diffusion Adapter for Efficient Video Generation

作者:Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang

单位:复旦大学、微软亚洲研究院

会议:CVPR 2023

论文链接https://arxiv.org/abs/2308.09710

项目主页https://chenhsing.github.io/SimDA/

代码链接:https://github.com/ChenHsing/SimDA

关键词:文本驱动视频生成、参数高效微调、潜在扩散模型、时空适配器、Latent-Shift Attention、视频超分辨率、文本引导视频编辑、轻量级模型架构、单样本视频编辑、高效推理


一、引言:从图像生成到视频生成的跨越

近年来,人工智能生成内容(AIGC)浪潮席卷全球,其中文本到图像(Text-to-Image, T2I)技术取得了巨大成功。以Stable Diffusion、DALL·E 2为代表的扩散模型,凭借其强大的可控性、稳定性和逼真的生成效果,成为主流。

然而,文本到视频(Text-to-Video, T2V)生成技术的发展却相对滞后。主要原因如下:

  1. 数据稀缺:高质量、大规模的文本-视频配对数据集远少于图像数据集。
  2. 时序建模困难:视频不仅包含空间信息,还包含复杂的时序动态和运动一致性。
  3. 训练成本高昂:直接从头训练一个视频生成模型,或对大型T2I模型进行全参数微调,都需要巨大的计算资源和显存。

为了解决这些问题,现有工作主要分为两类:

  • 从头训练:如CogVideo、Video Diffusion Models,但训练周期长、成本高。
  • 模型适配:如Make-A-Video、Imagen Video,通过在T2I模型中引入时序模块来适配视频生成,但参数量巨大(如Imagen Video达16.3B),训练依然昂贵。

在此背景下,本文提出了 SimDA (Simple Diffusion Adapter),一种参数高效的扩散适配器,旨在用极小的可训练参数量,将强大的T2I模型(如Stable Diffusion)高效地迁移到视频生成任务中。


二、核心思想与贡献

SimDA的核心思想是:冻结原始T2I模型的绝大部分参数,仅引入少量轻量级的“适配器”模块进行微调。这种方法在NLP领域(如LoRA、Adapter)已被证明高效,但在视频生成领域尚属探索。

主要贡献

  1. 极简适配:仅微调1.1B参数模型中的2400万(24M)参数(占比仅0.02%),即可实现高质量的视频生成。
  2. 轻量级时空适配器
    • 空间适配器(Spatial Adapter):用于迁移图像空间特征。
    • 时序适配器(Temporal Adapter):用于建模视频时序动态。
  3. 提出Latent-Shift Attention (LSA):替代原始的空间注意力,通过“潜在位移”机制增强时序一致性,且不增加额外参数
  4. 多功能扩展:同一框架可扩展至视频超分(生成1024×1024高清视频)和文本引导视频编辑(One-shot Editing),训练效率显著提升。
  5. 高效性:训练显存需求低于8GB(16×256×256分辨率),推理速度比自回归方法(如CogVideo)快39倍。

三、方法详解

3.1 基础:Stable Diffusion回顾

SimDA基于潜在扩散模型(Latent Diffusion Model, LDM),即Stable Diffusion。其核心流程如下:

  1. 编码:通过预训练的VAE编码器 E 将图像 I 映射到低维潜在空间 x_0=E(I)
  2. 前向扩散:在 T 步内逐步向 x_0​ 添加高斯噪声,得到 x_T\sim N(0,I)
  3. 反向去噪:训练一个U-Net网络 \epsilon _\theta 预测每一步添加的噪声,从而从纯噪声 x_T 逐步恢复出 x_0​。
  4. 解码:通过预训练的VAE解码器 D 将去噪后的潜在码 x_0​ 解码为最终图像 I=D(x_0)

训练目标为:

其中 c 是文本条件的嵌入。


3.2 SimDA整体架构

SimDA的架构如图2所示。

  1. 输入处理:对于包含 tt 帧的视频 {Ii}i=1t{Ii​}i=1t​,使用预训练的编码器 EE 得到潜在特征 {xi}i=1t{xi​}i=1t​。
  2. 前向扩散:对视频潜在特征逐步加噪。
  3. 反向去噪:使用膨胀的U-Net(Inflated U-Net)进行去噪预测。
    • 卷积块:将2D ResNet块膨胀为3D块以处理视频输入。
    • 注意力块:引入Latent-Shift Attention (LSA) 和 空间适配器
    • 时序建模:通过时序适配器捕捉帧间关系。
  4. 推理阶段:使用DDIM采样从高斯噪声中生成视频潜在码,再通过解码器 DD 重建视频。

关键点:训练时,仅更新新添加的适配器模块(黄色部分),原始T2I模型的参数完全冻结(蓝色部分),极大降低了训练成本。


3.3 核心组件:适配器与注意力

3.3.1 空间适配器(Spatial Adapter)

受NLP和CV领域高效微调技术的启发,SimDA在U-Net的注意力块和前馈网络(FFN)后添加了瓶颈结构的适配器。

  • 结构:两个全连接层(FC) + GELU激活,形成“下采样-上采样”瓶颈。
  • 公式

    其中 W_{down}\in \mathbb{R}^{d\times l},  W_{up}\in \mathbb{R}^{l\times d}, l< d
  • 初始化W_{down}​ 初始化为零,以保持原始网络结构不变。
  • 位置:添加在LSA层之后,帮助网络迁移图像空间信息到视频任务。
3.3.2 时序适配器(Temporal Adapter)

为建模时序信息,SimDA设计了轻量级的时序适配器。

  • 结构:与空间适配器类似,但中间层使用深度可分离3D卷积(depth-wise 3D Conv)而非FC层。
  • 公式

  • 优势:在低维特征上进行3D卷积,显著降低了计算复杂度和显存占用,实现了高效的时序建模。
3.3.3 Latent-Shift Attention (LSA)

这是SimDA的核心创新之一,旨在解决时序一致性问题,且不增加参数,LSA模块示意图如下。

  • 问题:原始T2I的注意力仅在单帧内进行,忽略了帧间关系。
  • 方案:LSA在潜在空间进行块级位移(patch-level shifting)。
    1. 将前 T 帧的部分潜在特征沿时间维度“位移”到当前帧。
    2. 将当前帧的潜在特征 x_{z_i}​ 与位移后的特征 x_{z_{shift}} 拼接。
    3. 使用拼接后的特征作为Key和Value,当前帧特征作为Query进行注意力计算。
  • 公式

  • 优势
    • 复杂度低:从全局时空注意力的 O(L^2N^2) 降至 O(2LN^2)
    • 一致性好:强制模型学习相邻帧间的关系,提升生成视频的流畅性。

3.4 扩展应用:超分与编辑

3.4.1 视频超分辨率(Super Resolution)

由于显存限制,大多数方法(包括SimDA第一阶段)只能生成256×256的视频。为此,SimDA采用两阶段级联训练

  1. 第一阶段:使用SimDA生成256×256视频。
  2. 第二阶段:训练一个4倍超分模型,将256×256视频提升至1024×1024。
    • 输入:低分辨率视频 x_{low}​ 与带噪的高分辨率潜在码 x_{t} 的拼接。
    • 架构:与第一阶段T2V模型类似,但加入空间和时序适配器,并仅微调这些新模块。
    • 训练目标

3.4.2 文本引导视频编辑(Text-guided Video Editing)

SimDA可轻松扩展至单样本视频编辑(One-shot Editing),灵感来自Tune-A-Video。

  • 训练:与T2V相同,使用一个视频-文本对进行微调。
  • 推理:采用DDIM反演(DDIM inversion):
    1. 将输入视频通过编码器和前向扩散过程,得到其“反演潜在码”。
    2. 以此反演码为起点,结合修改后的文本提示,进行反向去噪生成。
  • 优势:由于适配器轻量,SimDA仅需200步微调(Tune-A-Video需500步),训练和推理速度快3倍


四、实验与结果

4.1 实验设置

  • 数据集:WebVid-10M(训练),MSR-VTT(评估)。
  • 评估指标
    • FVD (Frechet Video Distance):越低越好,衡量生成视频与真实视频的分布距离。
    • CLIPSIM:越高越好,衡量视频与文本提示的语义一致性。
  • 对比方法:CogVideo, Make-A-Video, Video LDM, Latent-Shift等。

4.2 文本到视频生成性能

下表展示了在MSR-VTT数据集上的文本到视频生成性能对比评估结果。

  • SimDA (Ours) 在FVD(456)和CLIPSIM(0.2945)上均优于或媲美现有方法。
  • 参数量:总参数1.08B,可调参数仅0.025B(24M),远小于CogVideo(15.5B)和Make-A-Video(9.72B)。

4.3 效率对比

下表展示了模型规模与推理速度的对比。

  • 推理速度:SimDA仅需11.20秒,而CogVideo需434.53秒,快39倍
  • 显存需求:训练显存<8GB,远低于其他方法。

4.4 生成效果对比

下图展示了与其他方法的生成效果对比。

SimDA生成的视频在视觉质量和时序连贯性上表现优异。


五、总结与展望

5.1 总结

SimDA提出了一种简单而高效的视频生成框架,其核心在于:

  1. 参数高效:仅微调0.02%的参数,即可实现高质量视频生成。
  2. 架构创新:通过轻量级的空间/时序适配器和无参数的Latent-Shift Attention,有效解决了时空建模问题。
  3. 多功能性:可无缝扩展至视频超分和视频编辑任务,且训练效率极高。
  4. 实用性强:低显存、高速度,更易于部署和应用。

5.2 局限与未来方向

  • 分辨率限制:第一阶段生成分辨率较低,依赖两阶段超分。
  • 长视频生成:当前方法可能难以生成超长、高动态的复杂视频。
  • 可控性:相比一些专用编辑方法,精确控制能力有待提升。

未来工作可探索更高效的超分方案、更长的时序建模,以及与物理引擎的结合,以生成更真实、可控的视频内容。


六、结语

SimDA的成功表明,并非需要庞大的参数量才能实现高质量的视频生成。通过巧妙的架构设计和参数高效的微调策略,我们可以在极低的训练成本下,释放大型图像生成模型的巨大潜力。这为AIGC从“图像”迈向“视频”的普及化、平民化提供了重要的技术路径。

http://www.dtcms.com/a/565755.html

相关文章:

  • 许昌哪个网站做苗木百度网站介绍显示图片
  • CLIP:打破模态壁垒,重塑AI理解世界的方式
  • firewall-cmd 防火墙操作技巧详解(适用于 CentOS / RHEL 系列)
  • 视频融合平台EasyCVR结合视频智能分析技术构建高空抛物智能监控系统,守护“头顶上的安全”
  • python node 网站开发广东省建设工程执业中心网站
  • ModelEngine智能体全流程体验评测:从创建到部署的深度实践
  • 青岛北京网站建设公司哪家好一万元小型办厂设备
  • PHP:一种强大的服务器端脚本语言
  • 深入了解linux网络—— 守护进程
  • JIS A 5908-2022 刨花板检测
  • 新余网站网站建设网站建设岗位有哪些
  • C# 基于halcon的视觉工作流-章56-彩图转云图
  • 住房城乡建设部办公厅网站网址大全导航
  • 做一个网站的费用构成wordpress 表格 链接地址
  • Vision Transformer(ViT)保姆级教程:从原理到CIFAR-10实战(PyTorch)!
  • 『 QT 』QT QWidget 控件属性全解析 (三)
  • 关于Java EE应用中xml解析类的问题
  • 每日一篇-【ICRA2025】-->任务感知语义地图:超越指令的自主机器人任务分配
  • Winform控件:Chart
  • 有好看图片的软件网站模板下载咸宁建设网站
  • GitPuk零基础学习,如何进行分支管理
  • 极狐GitLab 18.5 正式发布,更新 Maven 虚拟仓库 UI(Beta)、全新个人主页、实例级合规与安全策略管理 以及 DAST 认证脚本 等
  • HAProxy 简介及配置文件详解
  • 【Java】如何保证集合的线程安全?
  • linux系统中进程通信之管道
  • ip下的网站吗wordpress建站企业
  • 企业官网项目方案(Vue3+Node 全栈)
  • 最火的传奇手游网站网站文章分类
  • 算法<C++>——二分查找
  • MIDI协议与Arduino编程