Seedance:字节发布视频生成基础模型新SOTA,能力全面提升
1.简介
Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速。
与当代模型相比,Seedance 1.0展现出四个显著特点:
- 全面生成能力。Seedance 1.0实现了卓越的时空连贯性和结构稳定性,展现出流畅的运动和物理合理性。该模型能够生成具有细腻纹理和丰富构图的逼真视觉效果,在专有评估套件和权威第三方基准测试中均达到了最先进的性能水平。
- 精准指令遵循。通过对多样化场景、实体和动作语义的全面学习,Seedance 1.0能够精准解读复杂的用户指令。它能够稳健地处理多主体交互、自适应镜头控制以及风格变化,同时保持叙事的连贯性。
- 多镜头叙事能力。Seedance 1.0原生支持连贯的多镜头叙事,能够在时空转换中保持稳定的视角过渡和一致的主题呈现。
- 超快速生成体验。借助多种模型加速技术,Seedance 1.0显著降低了推理成本:它仅需41.4秒即可生成一段时长5秒、分辨率为1080p的视频(基于NVIDIA-L20),速度远超其他商业同类产品。
Seedance 1.0将于2025年6月集成至多个平台,包括Doubao1和Jimeng2。作者期待它成为提升专业工作流程和日常创意应用效率的必备生产力工具。
项目主页:Seedance
技术报告:https://lf3-static.bytednsdoc.com/obj/eden-cn/bdeh7uhpsuht/Seedance%201.0%20Paper.pdf
-
生成效果
-
-
2.论文详解
简介
当前的视频生成基础模型在平衡多维需求方面仍面临关键挑战,特别是在遵循提示、运动合理性以及视觉保真度方面。为解决这些限制,作者提出了Seedance 1.0,Seedance 1.0整合了四项关键技术改进:
- 多源数据与全面视频字幕。通过多阶段、多视角的策划和数据集平衡,作者构建了一个涵盖多种类别、风格和来源的大型高质量视频数据集。这使得模型能够全面学习丰富的情景、主题和动作动态。
- 高效架构设计。在作者的设计中,空间层和时间层被解耦,并通过交错的多模态位置编码进行整合。这使得模型能够在单一模型中同时学习文本到视频和图像到视频,并原生支持多镜头视频生成。
- 增强的后训练优化。作者使用一组精心收集的小数据集进行SFT(监督微调),随后采用针对视频的RLHF(人类反馈强化学习)算法。作者利用多个成熟的奖励模型,显著提升了模型在文本到视频和图像到视频任务上的表现。
- 推理加速。作者提出了一个多阶段蒸馏框架,以减少生成所需的函数评估次数(NFE),并结合推理基础设施优化技术,实现了超过10倍的端到端加速,且模型性能未出现下降。
-
模型架构
变分自编码器(VAEs)
变分自编码器(VAEs)在现代大规模图像和视频生成模型中被广泛采用,以减少后续扩散模型的计算量,并促进高效的训练和推理。
通常,变分自编码器由编码器和解码器组成;编码器将原始冗余的像素信息压缩为紧凑的潜在表示,而解码器则从这些潜在特征中重建原始输入。VAE重建的质量直接决定了生成过程能够实现的真实性和清晰度的上限,而潜在表示的分布对后续扩散变换器(DiT)的收敛行为有着显著影响。
时间因果压缩:遵循MAGVIT,作者对编码器和解码器都采用了时间因果卷积,它允许在潜在空间内联合进行图像和视频的空间-时间压缩。更具体地说,模型将形状为的RGB像素空间输入数据转换为形状为
的连续潜在表示,其中
表示时间、高度、宽度和通道维度,
,
, 和
分别表示这三个轴上的下采样比率。得益于因果设计,VAE模型可以在 T = T' = 0 的情况下无缝处理图像输入和输出。整体压缩比由下式给出:
在实践中,作者分别设置和C = 48。为了适应更高的下采样率并追求更好的生成性能,作者在DiT侧移除了patchification操作,遵循了DCAE中采用的策略。
“Patchification” 是一种在计算机视觉和深度学习中常见的图像处理技术,特别是在 Vision Transformer(ViT)模型中被广泛应用。它的核心思想是将输入图像分割成一系列不重叠的小块(patches),这些小块通常具有相同的大小,例如 16×16 像素。这些小块随后被展平为一维向量,并通过线性映射转换为模型可以处理的“tokens”,类似于自然语言处理中的单词或短语。
VAE训练:作者的VAE使用L1重建损失、KL损失、LPIPS感知损失和对抗训练损失进行训练。
其中对抗训练已被证明在提高VAE重建质量方面是有效的,因为它对局部纹理和详细结构施加了更精细的监督。为了同时考虑外观和运动建模,作者应用了一个具有类似于PatchGAN中使用架构的混合判别器。
DiT
通过VAE编码的视觉标记和文本编码器生成的文本标记,作者采用Transformer作为扩散主干,其中微调的大型语言模型(LLM)作为文本编码器。然后将视觉标记与文本标记连接,并输入到变换器块中。
解耦的空间和时间层:考虑到训练和推理效率,作者构建了具有解耦空间和时间层的扩散变换器,其中空间层在每一帧内执行注意力聚合,而时间层则专注于跨帧的注意力计算。作者在时间层的每一帧内执行窗口划分,允许在时间维度上具有全局感受野。此外,文本标记仅参与空间层中的跨模态交互。
MMDiT架构:对于变换器块,作者遵循Stable Diffusion 3中的MMDiT设计,其中多模态自注意力层专门应用于空间层以整合视觉和文本标记,而自注意力层仅在时间层处理视觉标记。考虑到视觉和文本标记之间的语义差异,作者在空间层中为两种模态使用两组独立的权重,包括自适应层归一化、QKV投影和MLP。为了防止训练不稳定,Q和K嵌入在注意力矩阵计算之前进行归一化。
多镜头多模态RoPE:在本文中,除了使用3D RoPE编码视觉标记外,作者通过为文本标记添加额外的1D位置编码,为连接的序列中添加了3D多模态RoPE(MM-RoPE)。MM-RoPE还支持视觉标记和文本标记的交错序列,并可以扩展到训练多镜头视频,其中镜头按照动作的时间顺序组织,每个镜头都有自己的详细字幕。
统一任务范式:为了实现条件视频生成,作者将噪声输入与零填充帧沿通道维度连接,并使用二进制掩码来指示哪些帧是需要遵循的指令。通过这种公式,作者可以进一步统一不同的生成任务,如文本到图像、文本到视频和图像到视频。在训练过程中,作者混合这些任务,并通过控制条件输入来调整比例。
Refiner
考虑到训练和推理效率,作者采用了一个级联扩散框架来生成高分辨率(HR)视频。
基础模型首先生成480p视频,然后通过一个refiner模型将这些视频放大到720p或1080p高分辨率视频,以增强视觉细节和纹理。
refiner模型训练。为了便于训练,扩散细化模型从预训练的基础模型初始化。与基础模型不同,refiner模型在低分辨率(LR)视频的条件下进行训练。具体来说,首先将LR视频上采样到高分辨率,然后与扩散噪声沿通道维度连接,形成扩散变换器的输入。
提示词工程
DiT中使用的文本是密集视频字幕的形式。因此,我们需要使用一个大型语言模型将用户提示转换为相应的字幕格式。为了实现这一点,作者基于Qwen2.5-14B进行初始化,并采用两个阶段来实施高质量的提示工程(PE):监督微调(SFT)和强化学习(RL)。
- 监督微调。在SFT阶段,作者通过手动标注合成了大量的用户提示及其密集字幕文本。作者特别区分了图像到视频(i2v)和文本到视频(t2v)任务,因为它们在用户提示风格上有所不同。然后,作者采用了完全微调策略来训练模型,使其在标注数据上获得基本的改写能力。
- 强化学习。然而,由于模型幻觉的存在,第一阶段SFT的结果不能保证改写结果的语义完全符合用户提示的要求。因此,作者精心收集了正确和错误改写结果的配对数据集,以执行直接偏好优化(DPO)训练。在这个阶段,作者在SFT模型上使用了低秩适应(LoRA)微调策略。经过上述阶段,作者的提示工程模型具有强大的理解用户提示的能力,并能够以视频字幕格式给出精确且高质量的改写结果,与DiT训练一致。
-
数据
本节特别详细介绍了作者精心策划视频数据的方法。作者开发了一个系统化的数据处理工作流程,如图3所示,其将大量异构的原始视频集合转化为一个经过提炼的、高质量的、多样化的、安全的数据集,用于训练强大的视频生成模型。这个工作流程被部署为一个强大的自动化系统,优化了对大量数据的高通量处理。
数据预处理
作者视频数据策划的核心是一个多阶段预处理流程,旨在解决原始视频集合的挑战。每个后续阶段系统地提高数据集的标准,为强大的模型训练做好准备。以下段落详细介绍了这一全面流程的每个组成部分,确保只有符合作者严格标准的视频片段才能贡献给最终数据集。
以多样性为导向的数据来源。作者的视频数据获取策略优先考虑来自多样化的公共和授权存储库的合乎道德和法律的内容。作者旨在最大化覆盖关键维度,包括片段时长、分辨率、主题(例如,人类、动物、物体)、场景类型(例如,自然景观、城市环境)、主体动作、类型(例如,纪录片、动画)、艺术风格、摄像机运动学和电影制作技术。原始视频集合表现出显著的异质性,并且通常包含不良元素,这些是作者流程旨在解决的关键挑战。
镜头感知的时间分割。原始长视频不适合直接模型训练。作者采用自动化镜头边界检测技术,通过分析帧间视觉差异或利用预训练检测器来识别自然场景转换。随后,视频被分割成较短的片段,最长持续时间为12秒。每个结果片段可能包含一个或多个时间上连贯的镜头,保留局部叙事流程,同时确保模型可处理的输入长度。
视觉叠加校正。许多源视频包含多余的视觉叠加,如标志、水印、字幕或屏幕图形,这些可能会引入噪声或偏见。作者的校正阶段使用基于启发式规则的系统和专门的对象检测模型的混合方法来识别这些遮挡。然后自适应裁剪帧,以最大限度地保留主要视觉内容,从而产生更干净、更专注的视频数据。
质量和安全过滤。为了确保模型在高质量和符合道德的数据上进行训练,作者通过视觉评估和安全筛选实施严格的过滤。首先,作者的专门视觉质量模型系统地识别并移除表现出视觉缺陷的片段,如模糊、过度抖动、低审美质量、不良的电影构图或主要静态内容。其次,作者严格排除有害或不适当的材料,部署先进的分类器来检测涉及色情、明确暴力、儿童剥削和明确裸露的内容,从而确保道德合规性和数据集安全。
语义去重。为了促进数据集多样性并防止模型过度拟合冗余内容,作者执行语义去重。视频片段由从内部开发的视频表示模型中提取的稳健特征嵌入表示,然后对这些嵌入进行聚类。在每个识别出的近重复集群中,只保留具有最高整体质量分数(来自前面的质量过滤阶段)的单个实例。
分布再平衡。原始数据通常在各种属性上表现出显著的类别不平衡。作者通过量化针对不同语义和技术视角的属性(如主题类别、场景类型、主导动作、类型、视觉风格、片段时长、分辨率和运动特征)的频率来分析数据集的分布。对于过度代表的头部类别,应用下采样。相反,对于代表性不足的尾部类别,作者在训练期间增加其采样概率,并启动针对性的数据获取以增强其存在,旨在更公平和全面地代表视觉世界。
视频字幕
视频字幕在很大程度上影响视频生成模型的指令遵循能力。作者主要通过提高字幕的质量和准确性,确保重要内容和动作能够被正确地看到和描述。
字幕风格。作者采用了一种密集字幕风格,整合了动态和静态特征。对于动态特征,作者细致地描述视频片段中的动作和摄像机运动,突出变化的元素。对于静态特征,作者详细阐述视频中核心角色或场景的特征。
字幕元素。作者分别定义了动态和静态特征的具体类别。动态特征涵盖动作、主题或场景变化以及摄像机运动的类别,而静态特征包括外观、美学、风格等。作者收集了这些类别的多样化数据,并进行了高质量的手动标注以供训练。训练好的字幕模型能够准确描述复杂和抽象视频材料的关键内容。
模型训练。作者在标注数据上训练字幕模型,使用的是Tarsier2,这是一个具有强大视频理解能力模型。视觉编码器被冻结,语言模型被完全微调。作者在中文和英文数据上进行训练,以获得双语能力。在推理过程中,作者使用PE模型将用户提示改写为详细的视频字幕,其中格式在内容和结构上与训练字幕一致。
基础设施
工程基础设施概述:作者的数据处理工程基础设施如图4所示,由三层组成:最上层是统一平台层,它自动化了人工参与的工作流程,管理任务,可视化数据,监控流程等;中间层是计算框架层,它采用BMF和Ray进行跨CPU/GPU/NPU架构的异构计算,并优化资源分配以实现稳定和弹性计算;最底层是底层资源层,它利用来自ByteCloud(内部)和Volcengine(外部)的云基础设施。
高效的异构计算。为了最大化资源利用率,作者的框架动态地将视频操作分配到最优硬件(例如,CPU用于解码,GPU用于深度模型推理)。计算单元之间的异步通信被用来减轻由不同类型计算硬件之间的性能差距引入的瓶颈。为了解决由弹性计算资源的不稳定性引起的复杂性,作者的框架整合了两个关键能力:适应性自动扩展以处理资源波动和预占任务的失败重试机制。定制版本的BMF和Ray实现了这些优化,提供了近线性的可扩展性和极高的吞吐量,以高效处理大规模视频训练数据。
-
模型训练
如图5所示,作者展示了Seedance 1.0的训练和推理阶段。作者的训练过程分为几个子阶段,包括预训练、继续训练(CT)、监督微调(SFT)和人类反馈对齐(RLHF)。作者的refiner也包括预训练、SFT和RLHF。图6展示了不同训练阶段的可视化结果,每个阶段都可以逐步改进结果。
预训练
扩散调度:在训练期间,作者采用了流匹配框架和速度预测,并且从对数正态分布中采样一个训练时间步。考虑到更高分辨率和更长时长的视频需要更多的噪声来扰乱它们的信号,作者随后通过分辨率感知的偏移转换训练时间步,这增加了对更高分辨率和更长时长视频的噪声扰动。
渐进式训练:为了实现更高的数据吞吐量和训练效率,作者首先用足够低分辨率的文本到图像(256像素)训练初始化模型,然后在后续阶段逐步引入更高分辨率和更高帧率的视频模态:(1)作者使用256像素的图像和3到12秒(12帧每秒)的视频片段进行图像-视频联合训练。(2)在第二阶段,作者将训练分辨率提高到640像素,同时保持相同的时长。(3)在最后阶段,作者用24帧每秒的视频训练模型,以进一步提高视频的流畅性。在视频预训练期间,作者还保留了一小部分文本到图像任务,以保持语义对齐,并将图像到视频任务的比例设置为20%,以激活遵循视觉提示的能力。
持续训练 Continue Training (CT)
由于图像到视频任务仅占预训练的一小部分,模型在这一领域的潜力尚未被充分探索。为了解决这个问题,作者引入了继续训练(CT)阶段,专注于加强预训练后的图像到视频生成能力。在这个阶段,作者将图像到视频的比例从20%提高到40%,并进一步细化训练数据集以提高整体多任务性能。
高质量数据选择。作者使用一系列专门的评估模型,包括基于光流的审美评分器和运动评估器,从预训练数据中选择具有更高审美质量和更丰富运动动态的子集。由于图像到视频任务中总是提供第一帧,作者设计了两种类型的字幕进行训练:(1)包含动态和静态内容详细描述的原始长字幕,以及(2)仅关注运动动态的短字幕,通过移除与第一帧对应的静态描述。这鼓励了与训练目标更强的语义对齐。
训练策略。在继续训练期间,作者使用的GPU数量略少于预训练阶段,同时保持退火学习率策略。更丰富的运动动态和多样化的字幕使模型能够生成更自然、更流畅的视频。此外,训练数据的更高审美质量显著提高了文本到视频生成的视觉保真度。因此,最终模型支持文本到视频和图像到视频任务,并具有增强的整体性能。
监督微调
继持续训练(CT)之后,作者执行监督微调(SFT),以进一步使模型的输出与人类对视觉质量和运动连贯性的偏好保持一致。在这个阶段,模型在一组经过精心策划的高质量视频-文本对上进行训练,这些视频-文本对的字幕已经过人工验证,使模型能够生成具有更好美学和更一致运动动态的视频。
人工策划的数据集。确保数据质量和分布平衡至关重要。为了实现这一点,作者基于视觉风格、运动类型和其他关键属性定义了几百个类别。然后,作者在每个类别中有针对性地收集数据,从而形成一个策划好的高质量视频样本数据集,这些样本具有准确且有意义的字幕。
模型合并。为了充分利用高质量数据,作者在策划好的子集上训练不同的模型,这些子集旨在捕捉各种风格、运动和场景。随后,这些生成的模型被合并成一个单一的模型,该模型整合了它们各自的优势。每个模型都使用比预训练时更小的学习率进行训练,并使用了有限数量的GPU。此外,作者在有效点应用提前停止以防止过拟合并保持文本可控性。最终的合并步骤显著提高了视觉保真度和运动质量。
强化学习
反馈数据基础设施
作者从训练数据集和在线用户那里收集提示,并对提示进行数据平衡和信息过滤,以丢弃重复和模糊的提示。作者为人类偏好标记收集高质量的视频数据对,包括由模型不同阶段生成的合成视频。实验结果表明,纳入多种来源的视觉材料可以进一步增强RM模型的领域能力,扩展RM的偏好上限,并加强泛化能力。在标记过程中,作者采用多维注释方法,即在特定标记维度下选择最佳和最差的视频,同时确保最佳视频在其他维度上不比最差视频差。
奖励模型
为了全面提高模型性能,作者设计了一个复杂的奖励系统,包括三个专门的奖励模型:基础奖励模型、运动奖励模型和美学奖励模型。这些特定维度的奖励模型,结合针对视频的RLHF优化策略,使模型能力在多个方面得到全面改进,如图7所示。基础奖励模型专注于增强基本模型能力,如图像-文本对齐和结构稳定性。作者采用视觉-语言模型作为该奖励模型的架构。运动奖励模型有助于减少视频伪影,同时增强运动幅度和生动性。鉴于视频美学主要来源于关键帧,作者设计了美学奖励模型,该模型从图像空间输入,灵感来自Seedream,数据源修改为使用视频中的关键帧。
基础模型反馈学习
奖励反馈学习已在当前扩散模型中广泛使用。在Seedance 1.0中,作者在训练期间模拟视频推理管道,当奖励模型(RM)充分评估视频质量时,直接预测x0(生成的干净视频)。优化策略直接最大化来自多个RM的复合奖励。与DPO/PPO/GRPO的比较实验表明,作者的奖励最大化方法是最有效率和效果的方法,全面提高了文本-视频对齐、运动质量和美学。此外,作者在扩散模型和RMs之间进行多轮迭代学习。这种方法提高了RLHF过程的性能界限,并且比RM的动态更新更稳定和可控。
超分辨率RLHF框架
如图8所示,作者还将RLHF应用于扩散refiner,这可以被视为基于扩散的条件生成模型。在训练期间,低分辨率VAE潜在空间表示作为超分辨率模型的条件输入,而生成的高分辨率视频由多个奖励模型评估。作者直接最大化这些奖励信号的线性组合。值得注意的是,作者的方法直接将RLHF应用于加速细化模型,有效地在低NFE场景中增强运动质量和视觉保真度,同时保持计算效率。
-
推理优化
模型加速
DiT优化。为了加速DiT推理,作者采用了扩散蒸馏技术来减少生成所需的函数评估(NFE)数量。作者引入了在HyperSD中最初提出的轨迹分割一致性蒸馏(TSCD)技术,该技术将去噪轨迹分割成多个片段,并在这些片段之间强制执行预测状态和目标状态之间的一致性。这允许学生模型以更少的步骤学习扩散过程的准确近似。使用TSCD,作者的DiT模型在4倍加速下表现竞争,提供了速度和保真度之间的强平衡。
TSCD技术的核心在于将整个时间步范围 [0,T] 划分为多个子区间(例如 k 个子区间),然后在每个子区间内独立执行一致性蒸馏。具体步骤如下:
分段一致性蒸馏:在每个子区间内,使用教师模型(通常是预训练的扩散模型)来指导学生模型的学习,确保学生模型在每个子区间内能够复现教师模型的行为。
逐步减少子区间数量:随着训练的进行,逐步减少子区间的数量(例如从8个减少到4个,再到2个,最后到1个),使得学生模型能够逐渐逼近教师模型的全局行为。
全局一致性蒸馏:最终,基于前面阶段的分段一致性结果,执行全局一致性蒸馏,确保学生模型在整个时间范围内的一致性。
为了进一步推动加速,作者引入了来自RayFlow的得分蒸馏,该技术使用期望噪声一致性将学生模型预测的噪声(即得分函数)与教师模型对齐。这种方法支持每个样本的轨迹级优化,即使在低NFE下也能实现更稳定和自适应的采样。它有效地提高了泛化能力,并在快速生成过程中减少了伪影。
得分蒸馏的核心思想是利用预训练的扩散模型(教师模型)来指导学生模型的学习。具体来说,教师模型通过添加噪声并预测噪声的方式来生成数据,学生模型则尝试学习教师模型的这一过程。通过最小化学生模型预测的噪声与教师模型添加的噪声之间的差异,学生模型能够逐渐逼近教师模型的行为。
为了提高视觉质量,作者将APT中的对抗性训练策略扩展到多步蒸馏设置中,纳入人类偏好数据进行监督。一个学习到的判别器引导学生模型朝着人类判断更偏爱的输出方向发展,有效地减轻了激进加速产生的伪影,并增强了感知真实性。
通过提出的蒸馏管道,作者的最终蒸馏模型在四个专家评估的维度上取得了与原始模型相当的结果:提示对齐、运动质量、视觉保真度和与源图像的一致性。
VAE优化。在视频生成任务中,从潜在空间到像素空间的解码过程会产生显著的计算成本。作者对VAE解码器进行了分析,发现接近像素空间的阶段主导了延迟。通过缩小这些阶段的通道宽度,作者设计了一个精简的VAE解码器。用固定的预训练编码器重新训练它,作者在不损失端到端视频生成的视觉质量的情况下实现了2倍的加速。
推理基础设施
高性能内核。作者对模型的核心模块进行了广泛的内核融合工作,使模型推理吞吐量累计提高了15%。
量化和稀疏化。基于Seedream的技术解决方案,作者实现了针对注意力(Attention)和Gemm操作的细粒度混合精度量化。此外,作者的探索揭示了DiT的稀疏属性在不同模态之间和内部展现出层次化和块状结构。在AdaSpa建立的方法论基础上,作者引入了一个简化的调优解决方案,专注于最小化搜索阶段的开销。此外,作者已成功将优化的细粒度注意力量化方法整合到该方案中。作者致力于减轻全量化和稀疏化对像素级生成质量的影响。作者在性能和效率之间取得了最佳平衡。
并行策略。为了减少视频生成模式中长序列所分配的大量内存,作者提出了一种定制的自适应混合并行策略,有效地分割序列。这种方法整合了上下文并行的概念来优化通信过程,使通信开销减少到Ulysses观察到的水平的四分之一。同时,作者通过引入FP8通信进一步减少了端到端通信开销。
异步卸载策略。由于注意力计算量大且模型尺寸大,作者开发了一种自动化和自适应的异步卸载策略。作者成功解决了在内存受限设备上部署大模型的问题,性能下降不到2%。
分布式VAE的混合并行。此外,为了解决VAE解码器导致的高GPU内存消耗问题,作者实施了一种自适应混合并行策略。该方法同时沿空间和时间维度分割输入数据,并采用高效的集体通信进行Conv3D计算。因此,作者进一步提高了并行扩展性能。
管道优化。作者采用了内核融合、量化、并行化、连续批处理、前缀缓存和其他常用技术,有效提高了提示工程的整体吞吐量。此外,为了解决长视频中低编码效率的问题,作者实施了视频编码加速解决方案。这些创新有效地提高了整个推理管道的端到端效率。
-
训练基础设施
预训练优化
为了支持在数千个GPU上高效进行长上下文视频模型的大规模预训练,作者设计了一个高度优化的训练基础设施。该系统专注于最大化硬件效率、可扩展性和鲁棒性。它整合了高性能内核融合、混合并行策略、多级激活检查点(MLAC)、运行时感知工作负载平衡和多级容错。这些组件协同工作,确保在不同的工作负载和硬件规模下进行稳定、高吞吐量的训练。
高性能内核。为了充分利用GPU硬件资源,作者结合了torch.compile和手工制作的CUDA内核,以提高性能关键操作的性能。作者识别出内存绑定操作并将它们融合成单个CUDA内核,以最小化冗余内存访问,例如旋转位置编码(RoPE)和归一化。这些融合的内核将中间结果存储在寄存器或共享内存中,显著提高了算术强度,并将全局内存流量减少了90%以上。
并行策略。作者采用了结合数据并行和序列并行的混合并行策略,以在数千个GPU上高效训练长上下文模型。具体来说,作者采用了混合分片数据并行(HSDP)进行内存高效的权重分片,并减轻了在扩展到数千个GPU时观察到的性能下降。对于序列并行,作者遵循了Ulysses方法,沿序列和头部维度在GPU间分片标记,以实现长视频样本的并行处理。
多级激活检查点。作者采用多级激活检查点(MLAC)策略,在反向传播期间以可忽略的重新计算开销减少GPU内存压力。MLAC实现了优化的异步缓存和预取机制,以最大化内存传输和前向/后向计算之间的重叠。作者利用MLAC优先卸载模型训练期间具有最高重新计算成本的操作符(ops)的输出张量,例如注意力和MLP模块中的FC2层。此外,MLAC被应用于卸载激活检查点模块的输入张量,以实现GPU内存中零激活占用,这允许作者降低序列并行度,从而减少通信开销。
工作负载平衡。大规模视频预训练通常涉及异构数据类型(例如,长视频与短视频、不同分辨率),这在GPU之间引入了显著的计算不平衡。为了解决这个问题,作者应用了运行时感知的工作负载平衡策略,利用额外的全对全通信步骤在GPU之间均匀分配工作负载。这种平衡策略在每个批次内执行,以保持数据一致性,并在后台异步预计算,以避免阻塞主训练循环。作者的方法显著减少了GPU之间的空闲时间,并提高了整体训练吞吐量。
容错。在数千个GPU上长时间运行的大规模训练作业中,短暂的故障是不可避免的。为了确保鲁棒性,作者在多个层面集成了容错。首先,作者实现了模型和优化器状态的定期检查点,完全支持FSDP分片权重。数据加载器的状态也被保存,以确保精确恢复。其次,作者在启动每个作业之前进行了彻底的机器健康检查,以消除潜在的落后者和故障节点。第三,作者减少了模型初始化开销,以最大化有效训练时间。例如,作者利用PyTorch的元张量初始化直接加载模型参数,消除了通常花在标准初始化上的时间。综合这些策略,提高了训练的可靠性,并最大限度地减少了长时间分布式运行期间硬件或软件故障的影响。
后训练优化
后训练主要包括三个阶段:监督微调、强化学习和蒸馏。在这个阶段,不仅要优化训练效率,还要最小化GPU内存消耗(例如,减少峰值内存使用和碎片化)并提高整体内存利用率。后训练阶段观察到的次优GPU内存利用主要源于三个因素:
- 内存竞争。在强化学习和蒸馏阶段,GPU内存被各种组件顺序和动态共享,包括文本编码器、DiT、VAE、奖励模型及其对应的激活张量。
- 复杂的训练模式。可训练和冻结模型组件的共存使内存管理复杂化,并引入了额外的优化挑战。
- 多样化的工作负载。长和短视频序列的同时存在创造了可变的内存需求,使得传统的静态内存优化方法无效。
为了有效解决这些挑战,作者开发了一个动态内存管理框架,该框架结合了CPU卸载和重新计算技术。此外,作者采用了预训练期间使用的并行策略,利用FSDP和序列并行来实现高效的多节点扩展。
- 内存优化。为了确保简单易用,作者利用PyTorch实现了CPU卸载,从而最小化对用户代码的侵入性修改。通过详细的分析和建模,作者确定了最佳的CPU卸载和重新计算策略。此外,作者应用了局部静态内存规划,以减轻频繁分配和释放不同大小张量引起的内存碎片化。
- 并行策略。为了最大化硬件利用率,作者根据不同模型的计算特性在不同模型之间配置了不同程度的序列并行。此外,作者设置了TORCH_NCCL_AVOID_RECORD_STREAMS=1以消除延迟内存释放问题。此外,作者手动管理free_event_queue,以解决FSDP中参数冻结时参数释放延迟的问题。此外,作者利用register_post_backward_reshard_only_hook在冻结模式下调整反向计算期间内存分配和释放的顺序。这些优化确保了即使在涉及多个模型组件和多样化视频工作负载的复杂场景中,也能实现稳定高效的后训练性能。
-
模型表现
本节提供了对Seedance 1.0的全面评估
Artificial Analysis Arena
Artificial Analysis已成为一个广泛认可和信赖的基准测试平台,特别是在图像和视频生成领域。它提供了一个开放的竞技场,各种生成模型在这里由公众评估和打分。利用大量的比较结果,该平台计算Elo分数以反映用户对不同模型的偏好。人工分析视频竞技场排行榜包括两个不同的赛道:文本到视频和图像到视频。Seedance 1.0参加了这两个类别。一些值得注意的外部竞争对手包括Veo 3、Kling 2.0、Runway Gen4、OpenAI Sora和Wan 2.1。
Seedance 1.0在文本到视频和图像到视频排行榜上均位居榜首,显示出相对于竞争模型的显著性能优势。特别是,它在图像到视频任务中以超过100分的优势超过了排名第二和第三的最佳模型Veo 3和Kling 2.0。值得注意的是,Seedance 1.0在两个任务中都取得了最先进的结果,使用的是单一统一模型,而以前的模型通常在一个领域表现出色而在另一个领域表现不佳。接下来的章节将详细分析Seedance 1.0在每种情况下的优势。
综合评价
除了整体用户偏好之外,一个全面的基准测试对于视觉生成模型的评估同样重要,因为它能够更全面地评估模型的能力。作者开发了SeedVideoBench-1.0,这是一个全面的用于视频生成的基准测试,包括了300个文本到视频(T2V)和图像到视频(I2V)的提示。然后,作者与电影导演专家合作,共同开发评估标准,并进行了详细的手动专家评估。
SeedVideoBench 1.0
为了全面评估视频生成模型在不同场景下的能力,作者提出了SeedVideoBench-1.0,这是一个通过系统分析真实世界用户提示而设计的基准测试。这个基准测试涵盖了广泛的应用场景,包括特效、电子商务和专业生成内容(PGC)。此外,作者还开发了一个详细的分类系统来评估模型的能力。以下部分以文本到视频为例,展示了主要标签类别的分类。
- 主体:首先评估模型准确生成主要实体的能力是至关重要的,包括人类、动物、自然场景、消费品和一些虚拟主体。
- 主体描述:重点是模型产生准确表示主要主体的能力。它包括主体数量、实体属性(例如人类主体的外观特征,物理项目的物体属性)和空间定位。
- 动作:动作模拟和生成代表了视频生成模型的基本能力,表明它们在捕捉现实世界动态和潜在物理法则方面的熟练程度。这个类别评估多个类别中的与运动相关的行动,包括人类活动、多实体交互、动物运动、体育动作、自然现象(例如天气事件、生物过程)、物理原理(例如重力、流体动力学)和创造性或富有想象力的运动模式。
- 动作描述:这个类别提供了对动作生成的更细粒度分析,专注于动作数量、运动方向、时间顺序、运动强度和情感状态的表达。
- 摄像机:摄像机语言组件反映了视频生成中艺术表达的独特维度,包括摄像机运动、拍摄角度、镜头大小定义和变化,以及多个镜头之间的转换。SeedVideoBench-1.0整合了一系列专业的摄像机运动,包括环形跟踪镜头、推轨镜头、希区柯克式变焦、横向平移和跟随镜头。
- 美学描述:美学评估是评估视觉生成模型的一个重要组成部分。这部分包括风格一致性、构图氛围、光影动态和其他影响生成视频整体美学质量的因素。
图像到视频的分类类似,增加了对第一帧的标签系统。对于文本到视频和图像到视频任务,作者各构建了300个提示,均匀分布在上述类别中。每个类别的提示数量旨在确保评估中具有足够的区分性和统计信心。
评估指标
通过与电影导演合作,作者开发了一套针对生成视频的专业评估指标,使评估能够从专业角度进行。与通常强调审美吸引力而忽视模型能力细微差别的公众偏好评估不同,该框架围绕四个核心维度构建。
- 运动质量:运动质量是生成视频给用户的首要直观印象。它包括结构准确性、运动合理性、运动稳定性和运动生动性等多个方面。结构准确性侧重于检测生成内容中的结构异常,如额外的肢体、截断、不自然的弯曲或非人类姿势。运动合理性涉及轨迹和速度的物理合理性,遵循物理定律和常识,并识别不自然静止的主体或运动幅度不足的主体。此外,运动稳定性评估用于检测由主体或背景动态引起的伪影,而运动生动性则涉及动作序列的连贯性和真实性,包括宏观结构完整性和摄像机运动的艺术质量。
- 提示遵循:提示遵循代表了生成模型的基础能力,反映了它们产生与人类意图一致的内容的能力。此评估侧重于多个维度,包括动作响应性、主体描述保真度、风格一致性、辅助实体的整合、动作的时间对齐、摄像机行为和环境描绘准确性。
- 美学质量:对生成视频中美学吸引力和视觉质量的评估强调视觉纹理、AI感知的可察觉性、材料细节的真实性以及美学意图的艺术表达。
- 原始图像保留:针对图像到视频任务的原始图像保留,通过多个维度进行评估,包括主体一致性、风格连贯性、材料真实性、视觉内容对齐以及颜色和照明的一致性。
人类评估
利用SeedVideoBench 1.0,作者对Seedance 1.0与几个领先的视频生成模型在文本到视频和图像到视频生成两个任务上进行了全面的比较评估。对于文本到视频任务,比较的模型包括Kling 2.1(Master)、Veo 3、Wan 2.1和Sora;对于图像到视频任务,Sora被Runway Gen4取代。作者采用了两种评估协议:绝对评分和好-相同-坏(GSB)比较指标。绝对评分采用五点李克特量表(其中1表示极度不满意,5表示非常满意),便于跨模型统一性能比较。GSB指标进行成对比较以评估相对视频质量,能够对模型输出进行细粒度区分。
图10和图11显示了文本到视频任务中视频生成模型的绝对评分和GSB结果。Seedance 1.0、Kling 2.1和Veo 3显著优于其他模型。虽然Kling 2.1展示了强大的运动质量和视觉保真度,但其有限的提示遵循能力对其整体效果产生了负面影响。在文本到视频生成中,精确的指令遵循对于生成内容的采用至关重要。Seedance 1.0和Veo 3展示了卓越的提示遵循能力,推动了它们在人工分析排行榜上的更高排名。Veo 3擅长生成逼真的视频,但其相对较弱的运动质量限制了其进行复杂视频合成的能力。
图12和图13展示了图像到视频任务的绝对评分和GSB结果。Seedance 1.0和Kling 2.1在这种情况下表现出强劲的整体性能。将图像输入作为条件引入了在保留角色和背景方面的挑战。Veo 3在这方面表现相对较弱,偶尔会改变参考图像的光照条件、物体纹理和其他视觉元素。此外,它还遭受一些质量退化问题,如油腻的外观或模糊的细节,这大大影响了其整体效果。Kling 2.1在运动质量方面表现出色,产生自然且连贯的动态,适合复杂场景,尽管偶尔会经历细节崩溃。Seedance 1.0在涉及复杂镜头转换或详细指令提示的场景中与Kling 2.1的运动质量相匹配,同时提供了更优越的提示遵循能力,从而实现了更有利的整体性能。
多镜头生成
Seedance 1.0展示了从单个提示生成多个连续镜头的能力,同时确保了跨帧的主题连续性和风格连贯性。这使得模型能够处理电影叙事中常用的复杂叙事技术。具体来说,Seedance 1.0有助于构建用于对话互动的镜头反转镜头序列,以及使用切入镜头和切离镜头来丰富叙事节奏和上下文分层。此外,它还支持匹配剪切和动作剪切,实现无缝过渡并保持视觉连续性。这些能力突出了Seedance在电影镜头构图和时间连贯性方面的熟练程度,为视频内容生成提供了增强的创意控制和叙事表现力。图14显示了Seedance 1.0生成的连续镜头转换示例,与其他模型相比,该模型显示出更连贯和流畅的电影故事讲述。
-
-
总结
Seedance 1.0 是字节跳动推出的一款高性能、推理高效的视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习,能够处理复杂多主体的上下文并生成高质量的视频内容。在架构设计上,Seedance 1.0 采用了高效的解耦空间和时间层的 Transformer 架构,并通过多模态位置编码和窗口注意力机制进一步提升了模型效率。此外,该模型还通过细粒度监督微调和多维度奖励机制的强化学习(RLHF)进行优化,显著提升了运动自然性、结构连贯性和视觉保真度。为了实现快速推理,Seedance 1.0 还采用了多阶段蒸馏策略和系统级优化,实现了 10 倍的推理加速,能够在 NVIDIA-L20 上仅用 41.4 秒生成 5 秒的 1080p 视频。
在数据处理方面,Seedance 1.0 通过多阶段数据预处理和视频字幕生成,构建了一个大规模、高质量的视频数据集。数据预处理包括从多样化来源获取视频、进行合规性预筛选、基于镜头的分割、视觉覆盖校正、质量与安全过滤、语义去重以及分布再平衡等步骤。视频字幕生成则采用了密集字幕风格,结合动态和静态特征,通过高质量的手动标注数据训练字幕模型,以确保生成的字幕能够准确描述视频内容。
在模型训练阶段,Seedance 1.0 采用了预训练、继续训练(CT)、监督微调(SFT)和人类反馈对齐(RLHF)等多种训练策略。预训练阶段通过逐步提升分辨率和帧率来优化模型性能;继续训练阶段则专注于增强图像到视频生成的能力;监督微调阶段利用高质量的视频-文本对来进一步对齐模型输出与人类偏好;而人类反馈对齐阶段则通过多维度奖励模型和强化学习来优化模型的运动自然性和视觉保真度。
在推理优化方面,Seedance 1.0 通过模型加速和推理基础设施优化实现了显著的效率提升。模型加速方面,采用了扩散蒸馏技术,如轨迹分割一致性蒸馏(TSCD)和分数蒸馏,以减少生成所需的函数评估次数(NFE),同时保持模型性能。推理基础设施方面,通过高性能内核融合、量化、稀疏化、并行化策略和异步卸载策略等技术,进一步提升了模型的推理效率。
Seedance 1.0 在多个评估指标上表现出色,包括在人工智能分析竞技场(Artificial Analysis Arena)的文本到视频和图像到视频排行榜上均排名第一。内部评估方面,Seedance 1.0 在 SeedVideoBench 1.0 基准测试中展现了卓越的性能,尤其是在多镜头生成和多风格对齐方面表现出色。该模型能够生成具有复杂叙事结构的多镜头视频,并在多种视觉风格之间无缝切换,展现出强大的泛化能力和创造性控制。
总的来说,Seedance 1.0 通过技术创新和优化,在视频生成领域实现了高质量、高效率的生成体验,有望成为提升专业工作流程和日常创意应用的重要工具。
如果你觉得这篇文章对你有帮助,或者让你眼前一亮,别忘了点赞和收藏哦!👍✨
你的每一个点赞都是对我最大的支持,每一次收藏都是对我努力的认可。希望我的内容能为你带来启发,也期待在未来的日子里继续为你提供更多有价值的信息!感谢有你!💖