当前位置：首页 > news >正文

论文阅读：VACE: All-in-One Video Creation and Editing

news 2025/8/25 5:50:30

论文地址：https://arxiv.org/pdf/2503.07598
开源时间：2025年3月11日
代码地址：https://github.com/ali-vilab/VACE
项目地址：https://ali-vilab.github.io/VACE-Page/
在这里插入图片描述
DIT在生成高质量图像和视频方面展示了强大的能力和可扩展性。进一步追求生成和编辑任务的统一，在图像内容创建领域取得了显著进展。然而，由于在时间和空间动态上保持一致性的内在需求，实现视频合成的统一方法仍然具有挑战性。

VACE使用户能够在创建和编辑的一体化框架内执行视频任务。这些任务包括参考到视频生成、视频到视频编辑和mask视频到视频编辑。具体来说，将各种任务（如编辑、参考和mask）的要求整合到一个统一的逻辑，称为视频条件单元（VCU）。此外，通过利用上下文适配器结构，使用时间维度和空间维度的正式表示将不同的任务概念注入模型中，使其能够灵活处理任意视频合成任务。广泛的实验表明，VACE的统一模型在各种子任务中的性能与特定任务模型相当。同时，它通过多样的任务组合实现了多种应用。

论文实验基于LTX-Video 模型改造而来，但GitHub代码上，有基于wan2.1模型的版本。

1. Introduction

近年来，视觉生成任务领域取得了显著进展，特别是由于扩散模型的快速演变。除了早期为文本到图像或文本到视频生成而预训练的基础模型之外，还出现了许多下游任务和应用，如重绘、编辑、可控生成、帧参考生成和基于ID的视频合成。这一系列发展突显了视觉生成领域的动态性和复杂性。为了增强任务灵活性并减少部署多个模型的开销，研究人员开始专注于构建统一的模型架构，旨在将不同的任务集成到单一图像模型中，简化使用过程，同时促进各种应用工作流程的创建。在视频领域，由于时间和空间维度上的协同转换，利用统一模型可以为视频创作提供无限可能。然而，利用多样化的输入模式并确保时空一致性仍然是统一视频生成和编辑的挑战。

我们提出了一种名为VACE的全能模型，用于视频创作和编辑，该模型可以执行包括参考视频生成、视频到视频编辑、mask视频到视频编辑以及这些任务的自由组合等任务，如图1所示。一方面，各种能力的整合降低了服务部署和用户交互的成本。另一方面，通过在一个模型中结合不同任务的能力，它解决了现有视频生成模型面临的挑战，例如可控的长视频生成、多条件和基于参考的生成以及连续视频编辑，从而赋予用户更大的创造力。
在这里插入图片描述
为了实现这一目标，我们利用当前主流的扩散变换器（DiTs）结构作为基础视频框架，并使用预训练的文本到视频生成模型[22, 64]，这为处理长视频序列提供了更好的基本能力和可扩展性。具体来说，在构建过程中，VACE考虑了不同任务的需求，并设计了一个统一的接口，称为视频条件单元（VCU），该接口集成了多种模态，如用于编辑、参考和mask的图像或视频。此外，为了区分编辑和参考任务中的视觉模态信息，我们引入了概念解耦策略，使模型能够理解哪些方面需要保留，哪些方面需要修改。同时，通过采用可插拔的上下文适配器结构，不同任务的概念（例如编辑或参考的区域或范围）通过协作时空表示注入到模型中，使其具备适应统一任务的处理能力。

由于在视频合成领域缺乏现有的多任务基准，我们构建了一个包含480个评估样本的数据集，这些样本涵盖了12种不同的任务。通过将VACE统一模型与现有专业模型进行比较，我们对其性能进行了评估。实验结果表明，我们的框架在定量和定性分析中都表现出足够的竞争力。据我们所知，我们是第一个基于视频DiT架构的全能模型，能够同时支持如此广泛的任务。值得注意的是，这种创新框架允许基础任务的组合扩展，从而构建如长视频重新渲染等场景，为视频合成提供了一种灵活高效的解决方案，为用户侧的视频内容创作和编辑开辟了新的可能性。

2. Related Work

视觉生成与编辑。随着图像[2, 7, 16, 18, 58, 59]和视频[22, 32, 73, 77]生成模型的快速发展，它们被用于创建高质量的视觉内容，并广泛应用于广告、电影特效、游戏开发和动画制作等领域[13, 43–45, 55]。与此同时，为了满足视觉媒体制作的多样化需求并提高效率和质量，精确的生成和编辑方法应运而生。模型需要基于多模态输入（如深度、结构、姿态、场景和角色ID）进行生成创作。根据输入条件的目的，我们可以将它们分为两类：输入编辑和概念引导的再创作。大量工作，如ControlNet[76]、ControlVideo、Composer[26]、VideoComposer[68]和SCEdit[30]，专注于单条件编辑和基于时空对齐条件的多条件合成编辑。此外，一些关注交互式局部编辑场景的工作，如DragGAN[46]和MagicBrush[75]。基于输入的语义信息引导生成的方法，如Cone[38]、Cone2[39]、InstantID[67]和PuLID[21]，可以实现对输入的概念理解并将其注入模型以进行创意目的。

Task-unified Visual Generative Model 随着用户创作的复杂性和多样性增加，单纯依赖单一模型或复杂的多模型链路已无法提供实现创意想法的便捷高效途径。在图像生成领域，统一的生成和编辑框架开始出现，允许更灵活的创意方法,像UltraEdit [81] 和SEED-Data-Edit [19] 这样的方法,通用目的编辑数据集. 而像InstructPix2Pix[4]、MagicBrush[61]和CosXL[60]这样的技术提供了基于指令的编辑功能。此外，像UniControl[50]和UNIC-Adapter[15]等方法实现了统一的可控生成。进一步的发展导致了ACE[23,41]、OmniGen[71]、OmniControl[63]和UniReal[12]的出现，这些方法通过提供灵活的可控生成、局部编辑和参考引导生成，扩展了任务范围。在视频领域，由于生成难度增加，方法通常表现为单一任务单一模型框架，提供编辑或参考生成的能力，如Video-P2P[37]、MagicEdit[34]、MotionC-trl[69]、MagicMirror[80]和Phantom[35]。VACE旨在填补视频领域内统一模型的空白，为复杂的创意场景提供可能性。

3. Method

VACE是一种多模态到视频生成模型，其中文本、图像、视频和mask被整合为统一的条件输入。为了涵盖尽可能多的视频生成和编辑任务，我们对现有任务进行了深入研究，然后根据它们对多模态输入的各自要求将其分为4个类别。在不失一般性的情况下，我们在视频条件单元（VCU）范式下为每个类别专门设计了一种新颖的多模态输入格式。最后，我们将DiT模型重构为适用于各种视频任务的多功能模型。

3.1. Multimodal Inputs and Video Tasks.

尽管现有的视频任务在复杂用户输入和雄心勃勃的创意目标方面有所不同，我们发现它们的大部分输入都可以通过四种模态完全表示：文本、图像(参考图)、视频（控制）和mask（修复）。总体而言，如图2所示，我们根据这四种多模态输入的需求将这些视频任务分为五类。
在这里插入图片描述

文本到视频生成（T2V）是一种基本的视频创建任务，文本是唯一的输入。
参考到视频生成（R2V）需要额外的图像作为参考输入，确保指定的内容，如人脸、动物和其他物体或视频帧，在生成的视频中出现。
视频到视频编辑（V2V）对提供的视频进行全面更改，例如上色、风格化、可控生成等。我们使用视频控制类型，其控制信号可以表示并存储为RGB视频，包括深度、灰度、姿势、涂鸦、光流和布局；然而，该方法本身不限于这些。
mask视频到视频编辑（MV2V）只在提供的3D感兴趣区域（3D ROI）内对输入视频进行更改，与未更改的其他区域无缝融合，如填补、扩展、视频扩展等。我们使用额外的时空掩码来表示3D ROI。任务组合包括上述4种视频任务的所有组合可能性。

3.2. Video Condition Unit

我们提出了一种输入范式，即视频条件单元（VCU），将不同的输入条件统一为文本输入、帧序列和掩码序列。一个VCU可以表示为
在这里插入图片描述
其中，T 是一个文本提示，而 F 和 M 分别是上下文视频帧序列 {u1, u2, …, un} 和掩码序列 {m1, m2, …, mn}。这里，u 在 RGB 空间中，归一化到 [-1, 1]，m 是二进制的，其中“1”和“0”分别表示编辑或不编辑的位置。F 和 M 在空间尺寸 h × w 和时间尺寸 n 上对齐。在 T2V 中，不需要上下文帧或掩码。为了保持通用性，我们将每个 u 的默认值设为 $0_{h×w}$ ，表示空输入，并将每个 m 设为 $1_{h×w}$ ，意味着所有这些 0 值像素即将重新生成。

对于R2V，额外的参考帧ri被插入到默认帧序列之前，而全零掩码 $0_{h×w}$ 被插入到掩码序列之前。这些全零掩码意味着相应的帧应保持不变。

在V2V中，上下文帧序列是输入视频帧，上下文掩码是一系列 $1_{h×w}$ 。

对于MV2V，需要同时提供上下文视频和掩码。正式的数学表示如表1所示。
在这里插入图片描述
VCU还可以支持任务组合。例如，参考图像填充任务的上下文帧为{r1, r2, …, rl, u1, u2, …, un}，上下文掩码为 $0_{h×w}$ × l + {m1, m2, …, mn}。在这种情况下，用户可以修改视频中的l个对象，并根据提供的参考图像重新生成。另一个例子是，用户只有一张涂鸦图像，希望生成一个以该涂鸦图像描述的内容开始的视频，这是一个基于涂鸦的视频扩展任务。上下文帧为{u} + $0_{h×w}$ × (n − 1)，上下文掩码为 $1_{h×w}$ × n。通过这种方式，我们可以实现对长视频的多条件和参考控制生成。

3.3. Arichitecture

我们重新设计了DiT模型以支持VACE，如图3所示，旨在支持多模态VCU输入。由于已有文本tokenization ，我们只考虑上下文帧和掩码的tokenization 。tokenization 后，将上下文标记与噪声视频token结合，并对DiT模型进行微调。与之不同的是，我们还提出了一种上下文适配器微调策略，允许上下文token通过上下文块并重新添加到原始DiT块中。

在这里插入图片描述

3.3.1. Context Tokenization

概念解耦。常规视频和控制信号（如深度、姿态）的两种不同视觉概念在F中同时编码。我们认为，明确分离这些不同模式和分布的数据对于模型收敛至关重要。概念解耦基于掩码，产生两个形状相同的帧序列：Fc = F × M 和 Fk = F × (1 − M)，其中Fc被称为反应帧，包含所有要改变的像素，而所有要保留的像素存储在Fk中，称为非活动帧。具体来说，参考图像和V2V以及MV2V中未改变的部分进入Fk，而控制信号和即将改变的像素（如灰度像素）被收集到Fc中。

上下文潜在编码 一个典型的DiT处理带有噪声的视频潜在变量 $X ∈ R^{n′×h′×w′×d}$ ，其中n′、h′和w′是潜在空间的时空形状。类似于X，Fc、Fk和M需要被编码到一个高维特征空间中，以确保显著的时空相关性。因此，我们将它们与X一起重新组织成具有时空对齐的分层视觉特征。Fc、Fk通过视频VAE处理并映射到与X相同的潜在空间中，保持其时空一致性。为了避免任何意外的图像和视频混杂，参考图像分别由VAE编码器编码，并沿时间维度连接回去，而在解码过程中需要移除对应的部分。M 直接重新塑形和插值。之后，Fc、Fk 和 M 都映射到潜在空间，并与形状为 n′ × h′ × w′ 的 X 在时空上对齐。

上下文嵌入器 我们通过在通道维度上连接Fc、Fk和M，并将它们标记为上下文标记来扩展嵌入层，这被称为上下文嵌入器。用于标记Fc和Fk的权重直接从原始视频嵌入器中复制，而用于标记M的权重初始化为零。

3.3.2. Fully Fine-Tuning and Context Adapter Tuning

为了使用VCU作为输入进行训练，一种简单的方法是完全微调整个DiT模型，如图3a所示。上下文标记与噪声标记X一起添加，并且在训练过程中DiT和新引入的上下文嵌入器的所有参数都将被更新。为了避免完全微调以实现更快的收敛，并建立一个可插拔的特征与基础模型，我们还提出另一种方法，以Res-Tuning[29]方式处理上下文标记，如图3b所示。特别地，我们从原始DiT中选择并复制几个Transformer块，形成分布式和级联类型的上下文块。原始DiT处理视频标记和文本标记，而新添加的Transformer块处理上下文标记和文本标记。每个上下文块的输出被插入回DiT块作为附加信号，以协助主分支执行生成和编辑任务。通过这种方式，DiT的参数被冻结。只有上下文嵌入器和上下文块是可训练的。

4. Datasets

4.1. Data Construction

为了获得一个全能模型，所需数据构建的多样性和复杂性也会增加。现有的常见文本到视频和图像到视频任务只需要构建文本和视频的对。然而，在VACE任务中，模态需要进一步扩展，包括目标视频、源视频、局部掩码、参考等。为了高效快速地获取各种任务的数据，必须在保持视频质量的同时，进行实例级别的视频数据分析和理解。

为此，我们首先通过镜头切片分析视频数据，并根据分辨率、美学评分和运动幅度初步过滤数据。接下来，我们使用RAM[78]标注视频的第一帧，并结合Grounding DINO[36]进行检测，利用定位结果对目标区域过小或过大的视频进行二次过滤。此外，我们采用SAM2[52]的传播操作进行视频分割，以获取视频中的实例级别信息。利用视频分割的结果，我们在时间维度上通过计算基于掩码面积阈值的有效帧比率来过滤实例。

在实际训练过程中，不同任务的构建也需要根据每个任务的特点进行定制：

1）对于一些可控视频生成任务，我们从过滤后的视频中预提取深度[51]、涂鸦[6]、姿态[5, 72]和光流[65]。对于灰度和布局任务，我们实时创建数据。
2）对于重绘任务，视频中的随机实例可以被mask用于修复，而mask的反面则可用于构建扩展数据。对mask进行增强[62]可以实现无条件修复。
3）在扩展任务中，我们提取关键帧，如第一帧、最后一帧、两端的帧、随机帧和两端的片段，以支持更多种类的扩展类型。
4）对于参考任务，我们可以从视频中提取几个面部或对象实例，并应用离线或在线增强操作来创建配对数据。值得注意的是，我们随机组合所有前面提到的任务进行训练，以适应更广泛的应用场景。此外，对于所有涉及掩码的操作，我们进行任意增强以满足各种细粒度局部生成需求。

4.2. VACE-Benchmark

在视频生成领域已经取得了显著进展。然而，对这些模型性能进行科学和全面的评估仍然是一个迫切需要解决的问题。VBench [27] 和 VBench++ [28] 通过广泛的评估套件和维度设计，建立了一个精确的文本到视频和图像到视频任务的评估框架。然而，随着视频生成生态系统的发展，越来越多的衍生任务开始出现，如视频参考生成和视频编辑，但这些任务仍然缺乏全面的基准测试。为了解决这一差距，我们提出了 VACE-Benchmark，以系统地评估与视频相关的各种下游任务。

从数据源开始，我们认识到在评估过程中，真实视频和生成视频可能会表现出不同的性能特征。因此，我们收集了总共240个高质量的视频，按其来源分类，涵盖了各种数据类型，包括文本到视频、修复、扩展、扩展、灰度、深度、草图、姿势、光流、布局、参考面部和参考对象任务，每个任务平均有20个样本。输入模式包括输入视频、掩码和参考，为了便于开发者根据每个任务的具体特征进行进一步处理，我们提供视频的原始字幕以供定量评估，以及针对具体任务定制的重写提示，以评估模型的创造力。

5. Experiments

5.1. Experimental Setup

实现细节。VACE基于Dif-fusion Transformers进行文本到视频生成，支持不同尺度。它利用LTX-Video-2B[22]实现更快的生成，而Wan-T2V-14B[64]则专门用于更高质量的输出，支持高达720p的分辨率。训练采用分阶段的方法。最初，我们专注于基础任务，如修复和扩展，这些任务被认为是预训练文本到视频模型的模态补充。这包括引入掩码和在空间和时间维度上学习上下文生成。接下来，从任务扩展的角度，我们逐步从单帧输入参考过渡到多帧输入参考，并从单一任务过渡到复合任务。最后，我们使用高质量数据和更长的序列对模型的质量进行微调。模型训练的输入支持任意分辨率、动态时长和可变帧率，以满足用户多样化的输入需求。

基线模型。我们的目标是实现视频创作和编辑任务的统一，目前尚无类似的一站式视频生成模型，这促使我们将评估重点放在与专为特定任务设计的模型对比上。此外，由于涉及的任务众多且许多任务缺乏开源方法，我们对在线或离线可用的模型进行比较。具体来说，对于各个任务比较以下内容：

1. 对于图像到视频（I2V）任务，我们评估I2VGenXL [77]、CogVideoX-I2V [73]和LTX-Video-I2V [22]；
1. 在重绘任务中，我们比较ProPainter [82]用于去绘画，而Follow-Your-Canvas [8]和M3DDM [17]用于扩展绘画；
1. 对于可控任务，我们在深度条件下使用Control-A-Video [10]、VideoComposer [68]和ControlVideo [79]，并在姿势条件下比较Text2Video-Zero [31]、ControlVideo [79]和Follow-Your-Pose [40]。此外，在光学流条件下，比较 FLAT-TEN [14]；
1. 在参考生成中，由于缺乏开源模型，我们比较了商业产品Keling1.6 [1]、Pika2.2 [49]和Vidu2.0 [66]。

评估为了全面评估各种任务的表现，我们使用VACE-Benchmark进行评估。具体来说，我们将评估分为自动评分和用户研究以进行人工评估。对于自动评分，我们从VBench[27]中选择指标来评估视频质量和视频一致性，包括八个指标：美学质量、背景一致性、动态程度、成像质量、运动平滑度、整体一致性、主体一致性和时间闪烁。对于人工评估，我们使用平均意见评分（MOS）作为评估指标，重点关注三个方面：遵循提示、时间一致性以及视频质量。在实践中，我们匿名化生成的数据，并随机分配给不同参与者，让他们在1到5的范围内进行评分。

5.2. Main Results

定量评估。我们将基于LTX-Video 的VACE综合模型与VACE基准中的任务专有方法进行比较。对于某些任务，我们遵循现有方法；例如，虽然我们支持基于任何帧生成，但我们使用当前开源方法中的第一帧参考方法进行比较，以确保公平性。从表2可以看出，在I2V、修复、扩展、深度、姿态和光流等任务中，我们的方法在视频质量和视频一致性八个指标上比其他开源方法表现更好，归一化平均指标显示出更优的结果。一些竞争方法只能在256分辨率下生成，生成时间非常短，并且在时间一致性方面表现出不稳定，导致在自动度量计算中表现较差。对于R2V任务，对于旨在快速生成的小规模模型，与商业模型相比，指标上仍存在一定差距。根据人类用户研究的结果，我们的方法在多个任务的评估指标上始终表现更好，与用户偏好高度一致。
在这里插入图片描述
定性结果。在图1中，我们展示了VACE单模型在各种任务中的结果。显然，该模型在视频质量和时间一致性方面达到了很高的性能水平。

此外，在图4所示的合成任务中，我们的模型展示了令人印象深刻的能力，有效地整合了不同的模态和任务，生成了现有单一或多个模型无法生成的结果，从而展示了其在视频生成和编辑领域的强大潜力。例如，在“移动任何物体”案例中，通过提供一张单输入图像和一个运动轨迹，我们能够精确地按照指定方向移动场景中的角色，同时保持连贯性和叙事一致性。
在这里插入图片描述

5.3. Ablation Studies

为了更好地理解不同独立模块对统一视频生成框架的影响，我们在LTX-Video模型的基础上进行了一系列系统的比较实验，以实现更好的模型结构和配置。为了准确评估不同的实验设置，我们为每个任务采样250个数据点作为验证集，并计算训练损失，通过不同任务的均值曲线变化反映模型的训练进度。
在这里插入图片描述

基础结构。文本引导的图像或视频生成模型仅将噪声作为推理输入。当我们扩展到我们的统一输入范式VCU时，我们可以使用完全微调或通过加入额外参数微调来进行训练。具体来说，如图5a所示，我们比较了在通道维度上不同输入的连接，并修改补丁投影层的输入维度以实现预训练模型的加载和完全微调。此外，我们以Res-Tuning[29]的形式引入了一些额外的训练参数，它在旁路分支中序列化VCU并将信息注入主分支。结果表明，两种方法产生了类似的效果；然而，由于额外参数微调更快收敛，我们基于这种方法进行后续实验。如图5b所示，我们进一步基于这种结构进行超参数实验，重点关注权重方案、时间戳偏移和p-zero等方面。

上下文适配器。由于上下文块的数量会显著影响模型大小和推理时间消耗，我们试图找到最优的上下文块数量和分布。我们从输入端选择连续的块开始，并比较前1/4块、1/2块和所有块之间的差异。受Res-Tuning方法的启发，我们也尝试均匀分布注入块，而不是选择连续的块系列。如图5c所示，我们可以看到，在使用相同数量的块时，分布式排列在浅层块中优于连续排列。此外，更多的块通常会产生更好的结果，但由于有效性的有限提升和训练资源的限制，我们采用部分分布式块排列。

概念解耦。在训练过程中，我们引入了一个概念解耦处理模块，进一步拆分视觉单元，明确模型需要学习以修改或保留的内容。如图5d所示，使用这个模块会导致损失显著减少。

6. Conclusion

本文介绍了VACE，一个集视频生成和编辑于一体的框架。它统一了各种视频任务所需的多样且复杂的多模态输入，弥补了为每个单独任务设计的专用模型之间的差距。这使得大多数视频AI创作任务可以通过单一模型的一次推理来完成。虽然广泛涵盖了各种视频任务，VACE还支持这些任务的灵活自由组合，极大地扩展了视频生成模型的应用场景，并满足了广泛的用户创意需求。VACE框架为开发具有多模态输入的统一视觉生成模型铺平了道路，并在视觉生成领域代表了一个重要的里程碑。

查看全文

http://www.dtcms.com/a/348169.html