当前位置：首页 > news >正文

【论文精读】CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

news 2025/10/1 12:24:13

文章目录

一、研究背景与目标
二、核心创新点
- （一）3D 因果VAE
- （二）专家Transformer与自适应层归一化（Expert AdaLN）
- - 1. 分块化（Patchify）与序列生成
  - 2. 3D 旋转位置编码（3D-RoPE）
  - 3. 专家自适应层归一化（Expert AdaLN）
  - 4. 3D 全注意力机制
- （三）训练策略优化
- - 1. 多分辨率帧打包（Multi-Resolution Frame Pack）
  - 2. 渐进式训练（Progressive Training）
  - 3. 显式均匀采样（Explicit Uniform Sampling）
- （四）数据处理流程
三、模型总体架构

论文：CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

一、研究背景与目标

CogVideoX是针对文本到视频生成任务的大规模扩散变换器模型，旨在解决现有视频生成模型在运动幅度有限、生成时长短、语义连贯性差等问题。其核心目标是生成高分辨率（768×1360像素）、长时长（10秒）、高帧率（16fps）且与文本提示高度对齐的视频。

二、核心创新点

（一）3D 因果VAE

作用： 在空间和时间两个维度上对视频进行压缩，减少序列长度和计算成本，增强视频重建的连续性和减少闪烁。
核心方法： 结合3D Causal Convlution来在空间和时间上压缩视频（模型中所有的3D卷积都替换成3D因果卷积）
具体结构： 包含编码器、解码器和KL正则化器，支持时空因果卷积。

编码器和解码器：对称结构，通过交错堆叠的 3D 和 2D 卷积层实现时空下采样（编码）和上采样（解码）。
损失函数：结合 L1 重建损失、LPIPS 感知损失、KL 散度正则化，后期引入 3D 判别器的 GAN 损失增强细节。
时间因果卷积（下图b）：只在时间维度前侧填充（而不是对称填充），确保当前帧仅依赖于过去信息，保证了未来的信息不会影响现在或过去的预测。

时间因果卷积的填充方式在上下文并行计算中得以实现：其中每个设备仅处理视频片段的一部分，并通过发送边界信息（长度 k−1）到相邻设备来维持因果性，通信开销较低。

在这里插入图片描述

（二）专家Transformer与自适应层归一化（Expert AdaLN）

1. 分块化（Patchify）与序列生成

视觉潜在表示通过分块操作转换为序列化的视觉标记vision tokens：

分块参数：时间压缩因子 $q$ （每 $q$ 帧压缩为一个时间token），空间压缩因子 $p$ （每 $p×pp\times p$ 像素区域压缩为一个空间token）
生成序列 $z_{vision}$ 的长度： $L=Tq×Hp×WpL=\frac{T}{q}\times \frac{H}{p} \times \frac{W}{p}$
首帧重复机制（ $\gt1$ 时的处理）：当时间压缩因子 $\gt1$ 时（即时间维度被下采样），在序列起始端重复视频或图像的第一帧，从而统一图像与视频的输入格式，支持联合训练。此外，重复帧作为时间锚点能够提供稳定的初始状态，减少生成视频的起始闪烁现象。

2. 3D 旋转位置编码（3D-RoPE）

Rotary Position Embedding (RoPE) 是一种相对位置编码方法，最初为语言模型设计。其核心思想是通过旋转矩阵对查询（Query）和键（Key）向量进行变换，使注意力分数仅依赖于相对位置差，而非绝对位置。这种编码方式在长序列建模中表现出色，因为它：

保持平移不变性：模型能更好地泛化到不同长度的序列
增强远程依赖捕获：减少传统正弦编码在长序列下的性能衰减

视频数据本质上是三维的：空间维度（高度 $x$ 、宽度 $y$ ）和时间维度（帧序号 $t$ ）。直接应用原始RoPE（仅处理1D序列）无法区分空间和时序关系。因此，CogVideoX提出3D-RoPE。

核心方法： 将潜在序列位置映射为三维坐标（高度、宽度、时间），分别对三个维度应用一维RoPE，并拼接结果

3. 专家自适应层归一化（Expert AdaLN）

动机：文本和视觉特征分布差异大，直接合并导致训练不稳定
机制：对文本和视觉模态分别应用独立的自适应层归一化，通过扩散时间步 $t$ 调制特征尺度，促进模态对齐且不增加参数量。

4. 3D 全注意力机制

现有方案： 先前工作通常采用分离的时空注意力来生成视频。其中，空间注意力处理单帧内的视觉关系（类似图像生成），时间注意力处理帧与帧之间的时序关系。

缺陷：

隐式信息传递瓶颈：如下图所示，分离注意力要求视觉信息在空间和时间模块间进行大量隐式传输。例如，一个在帧间大幅运动的物体（如人物头部），其信息只能通过背景等间接路径传递，极易丢失或失真。
大运动一致性差：对于快速或大尺度运动，分离注意力难以维持物体 identity 和运动轨迹的连续性，导致视频闪烁或变形。
学习复杂度高：模型必须额外学习如何协调空间和时间两个独立模块，增加了训练难度。

在这里插入图片描述