当前位置：首页 > news >正文

Ovi-音视频生成模型

news 2025/10/17 6:20:55

论文链接：https://arxiv.org/abs/2510.01284

文章目录

引言
数据处理管道
- 数据收集
- 音视频数据预处理
- - 分割与过滤
  - 同步检测
  - caption标注
  - 打包
- 纯音频数据预处理
方法
- 架构概述
- 训练策略
- - 音频模型训练
  - - 预训练
    - 微调
  - 音视频模型训练
- 实现细节
- 跨模态注意力可视化

引言

Ovi是一种统一的音视频生成范式，将音频和视频两种模态建模为单一生成过程；通过采用双DiT模块逐块跨模态融合方式实现音视频的自然同步，并且不再需要单独的处理流水线或事后对齐操作。为助力细粒度多模态融合建模，构建的音频塔/Audio Tower采用与性能优异的预训练视频模型完全一致的架构。在数十万小时的原始音频数据上从头开始训练后，该音频塔能够生成逼真的音效，同时还能生成传递丰富说话人身份信息与情感的语音。

在海量视频语料库上，通过对架构相同的视频塔与音频塔进行联合训练，训练过程中，单个冻结的T5编码器会利用组合的自然语言提示对两个分支（视频分支与音频分支）进行条件约束，同时基于缩放旋转位置嵌入/scaled-RoPE embeddings实现时序信息的逐块交换，并通过双向交叉注意力机制实现语义信息的逐块交换，最终达成了跨模态融合。Ovi能够实现具有电影感的叙事效果，生成包含自然语音以及与上下文精准匹配的逼真音效的电影级视频片段。

模型训练分为两个阶段：（i）构建一个与预训练视频模型架构完全一致的音频塔，并在大规模、带丰富字幕标注的音频数据上从头开始训练该音频塔，使其掌握语音生成与多样化音效生成能力；（ii）在配对的音视频数据上，对 “双主干”（音频主干与视频主干）以及新初始化的跨模态层和原始注意力模块进行微调，从而在不损失单模态生成质量的前提下，让模型学习音视频同步能力。

Ovi主要贡献有以下几点：

构建了一个大规模音视频数据处理流水线，涵盖数百万个视频，该流水线具备严格的同步过滤机制与丰富的字幕标注，支持 “组合提示条件约束方案”（通过单次T5编码实现），从而实现跨模态语义控制的统一；
设计了一个11B亿参数的对称双主干网络，通过逐块双向融合与缩放RoPE嵌入，实现精准的跨模态时间关联；
提出了一种端到端、单阶段的建模方案，无需借助人脸掩码或事后对齐等启发式方法，即可实现出色的音视频同步效果；
提出一套可扩展的训练方案——包含音频预训练、音频后训练与融合微调三个阶段；该方案能够生成质量高、同步性好的5秒时长视频片段，分辨率达720×720，帧率为24 fps。

数据处理管道

大规模训练统一的音视频生成模型，需要精心构建一个大型多模态语料库。为此设计了一套多阶段数据处理流水线，以确保两种模态的数据在质量、多样性及同步性上均达到要求。

数据收集

为同时支持高保真视频生成与稳健的文本转语音/TTS建模，构建了两个互补的语料库：一个用于学习模态对齐的配对音视频语料库，以及一个用于声学预训练与微调的纯音频语料库。内部音视频语料库包含来自不同场景的人类相关数据与非人类相关数据。在构建纯音频语料库时，分别收集一个由较长波形组成的初始预训练子集，以及一个时长较短的微调子集。这种设计为 “两阶段训练法” 提供了支持：首先训练一个基础音频模型，随后在时长更短、类型更多样的数据上对其进行微调，使其更适配实际部署场景。

预训练数据由时长最长达12秒的波形组成，主要是来源于内部采集的人类语音。这些较长的音频片段注重语言多样性、韵律变化及音色差异，对基础声学建模具有重要价值。微调数据由时长5秒的波形组成，旨在进一步优化音频模型，使其生成的音频能适配各类不同的视频场景。为此重点强化音效建模能力，从VGGSound、AudioSet及WavCaps等公开数据集获取相关数据。同时，为保留模型的TTS能力，并更好地契合下游任务目标，还额外融入了从内部配对音视频语料库中提取的音轨数据。

音视频数据预处理

音视频数据的数据处理流程包含四个步骤，分别是分割与过滤、同步检测、caption标注和打包。

分割与过滤

首先采用场景检测技术，提取出符合特定标准、帧率24 fps、包含121帧画面的视频片段。具体而言，会确保这些片段满足以下要求：分辨率不低于720×720像素；采用光流模型RAFT过滤掉静态视频并计算运动得分；借助美学预测器剔除低质量数据。此外，还使用内部人脸检测模型，确保数据集中单人视频、多人视频与无人物视频的比例合理均衡；这样做可使模型学习在各类场景下生成视频，避免对某一特定子任务过度拟合。

同步检测

采用广泛使用的SyncNet模型，该模型基于卷积神经网络架构，通过学习声音与唇部图像之间的联合嵌入特征，筛选掉音视频同步性不足的语音类视频。对该模型进行了适配，使其能够处理数百万规模的视频数据；运行模型后，会输出标量形式的置信度与偏移量数值。仅保留满足以下条件的视频片段：偏移量绝对值/|offset|≤3、置信度＞1.5，且这些片段的最小平均音量需达到-60分贝。通过实验发现，即便少量音画不同步的数据，也会影响模型的唇部同步能力；因此设置上述严格标准，以最大限度降低数据错位风险。

caption标注

采用多模态大语言模型/MLLM生成详细的视频字幕：在描述视觉事件的同时，将可听到的语音内容嵌入语音起始标签<S>与语音结束标签<E>之间。在字幕末尾，让MLLM补充一段丰富的音频描述，并将其用音频描述起始标签<AUDCAP>与音频描述结束标签<ENDAUDCAP>包裹。向MLLM输入从视频中提取的7个帧均匀间隔画面，以及完整的音轨来生成caption；同时通过大量实验确保字幕不仅涵盖所有相关视觉与音频事件，还能严格遵循事件发生的时间顺序。对于包含语音的视频片段，要求音频描述重点突出与说话人相关的声学属性，例如年龄、性别、口音、音调、韵律、情感及语速；而对于无语音的视频片段，音频描述则需详细说明其中的音效、背景音或音乐元素。

打包

为将数据预处理为模型可读取的格式，需将音频与视频两种模态的数据均转换为字节/bytes形式。在此之前，会对数据执行两项最终转换操作：首先去除视频中所有现有的边距，如黑边，随后将视频帧调整为固定分辨率（调整过程中保持宽高比不变），最终分辨率为 518400 像素，即 720×720 像素；此举可确保模型接收的视频帧规格统一。最后，将视频转换为字节数组，提取视频帧时采用 24 帧 / 秒的帧率，并将音频转换为原始波形字节/raw wave bytes。

纯音频数据预处理

对于缺少视觉模态的数据，其预处理阶段会相应简化。提取两种不同时长的音频：用于预训练数据的音频时长最长可达12秒，而另一类音频时长则精确控制为5.04 秒，以匹配24fps下121帧视频的时长。采用与音视频数据预处理相同的MLLM，为音频生成转录文本（若音频中不含可识别语音，例如纯音效音频，则转录文本留空）与音频描述。

方法

架构概述

Ovi采用对称双主干网络设计，其音频分支与视频分支并行构建，且二者均基于完全相同的DiT架构。其中，视频分支由Wan2.2 5B模型初始化，而结构完全一致的音频分支则采用从头训练。因此，两个主干网络拥有相同数量的Transformer块、注意力头、注意力头维度以及前馈网络，实现了每一层级的对称性，具体细节如表 1 所示。
在这里插入图片描述

表1 Ovi双主干网络的Transformer超参数

每个Transformer块都包含成对的交叉注意力层：音频流会对视频流进行注意力计算，而视频流也会反过来对音频流进行注意力计算。这种双向机制使得同步线索能够在整个网络中传递。音频塔与视频塔之间的对称性，确保了两种模态拥有相同的潜在维度，从而无需设置中间投影层，避免了多余的参数或计算开销。重要的是，这种设计还能保留单模态预训练过程中建立的注意力结构，提升训练的稳定性与效率。在实际运行中，视频分支会利用来自音频的信号，实现与语音及音效的同步；而音频分支则会将语音、音效及环境音与视觉场景关联起来，确保音频内容与画面匹配。图1详细展示了整体架构及融合设计。
[图片]

图1 音频与视频采用对称的DiT主干网络，具备逐块双向交叉注意力机制，且通过组合提示实现基于T5编码器的共享条件约束

尽管音频主干网络与视频主干网络的架构相同，但二者的时间分辨率存在差异：视频潜在特征涵盖31帧画面，而音频潜在特征则形成157个标记（16kHz×5 秒 / 512）。为实现二者的对齐，对两种模态均应用了旋转位置嵌入/RoPE，并借鉴MMAudio的研究思路，将音频分支的RoPE频率按31/157≈0.197的比例进行缩放，以匹配视频更粗的时间分辨率。这种缩放操作确保了音频标记与视频标记能够以时间一致的方式进行注意力交互。如图 2 所示，未进行缩放时（左图），RoPE 亲和矩阵的对角线出现错位，会阻碍同步效果；而进行缩放后（右图），对角线实现了精准对齐，为时间维度上的对应关系提供了更清晰的表征。
[图片]

图2 缩放操作可对齐音频与视频的时间位置，从而提升同步效果

此外，Ovi通过采用单个冻结的T5编码器作用于组合提示，简化了提示条件约束过程。该组合提示由视频字幕拼接而成；此视频字幕在描述视觉事件的同时，还穿插嵌入了可听见的语音内容；其T5嵌入特征会独立用于与音频和视频的交叉注意力计算。

训练策略

我们分两个阶段训练 OVI 模型：首先，基于 Wan2.2 5B 的架构初始化一个音频主干网络，并在语音与音效生成任务上对其进行从头训练；随后，在联合模型中训练自注意力层与交叉注意力层。

音频模型训练

为兼顾效率与视频分支的架构一致性，基于MMAudio中的预训练1D VAE，在紧凑的潜在空间中进行音频处理。具体而言，原始音频先通过短时傅里叶变换/STFT转换为梅尔频谱图/mel-spectrogram，再由该变分自编码器编码为潜在特征。在推理阶段，生成的潜在特征会先解码回mel谱图，再通过BigVGAN声码器转换为波形。仅采用16kHz的编码器变体，该变体在效率与质量之间实现了高效权衡。

在音频潜在特征上优化流匹配目标函数：给定服从数据分布 $p_{data }^{a}$ 的 $z_{1}^{a}$ 与服从标准正态分布 $N (0, I)$ 的 $z_{0}^{a}$ ，构建线性插值项 $z_{t}^{a}=(1-t) z_{0}^{a}+t z_{1}^{a}$ ，其中 $\sim \mathcal{U}[0,1]$ ，并训练速度预测器 $v_{\theta}^{a}(z_{t}^{a}, t, c_{text})$ ，使其逼近目标值 $z_{1}^{a}-z_{0}^{a}$ ，目标函数如下：
$\mathcal {L}_{FM}^{a}=\mathbb {E}_{t,z_{1}^{a},z_{0}^{a}}\left[ \left\| v_{\theta }^{a}\left( z_{t}^{a},t,c_{text}\right) -\left( z_{1}^{a}-z_{0}^{a}\right) \right\| _{2}^{2}\right] \tag1$
音频塔通过两个子阶段训练：初始预训练阶段使用时长最长可达12秒的音频波形，微调阶段则使用时长最长可达5秒的音频波形。为避免在过渡到音视频微调阶段时需要重新适配，同时省去为音频RoPE维护多种尺度的麻烦，在所有注意力层中均应用了经过缩放的旋转位置嵌入。

预训练

音频主干网络在数十万小时、时长最长可达12秒、以语音数据为主的音频数据上进行从头预训练。预训练过程中，采用变长音频以最大限度覆盖多样的声学特征，让音频主干网络广泛接触音频在时长与内容上的自然变异性。这种长时长原始音频能帮助模型生成具有一致性的音频，并保留说话人的特征，如音调与情感。

微调

接下来使用填充后时长为5.04 秒的音频波形，对预训练完成的音频模型进行微调，以生成能与生成的视频适配的音频。此步骤可确保音频主干网络与多模态融合训练所需的数据分布保持一致，同时保留其从大规模多样化预训练中习得的泛化能力。在该阶段，还在训练数据中加入了多种音效，使音频塔能够作为音视频生成任务的基础音频模型。

音视频模型训练

将预训练好的音频主干网络与视频主干网络相结合，从头初始化跨模态注意力层，同时冻结所有前馈网络以减少内存占用，在11B参数中保留5.7B参数可训练。通过仅微调单模态自注意力模块与交叉注意力模块（文本到模态及模态到模态），在对齐音频与视频的同时，保留了二者的预训练表征。基于公式（1），在成对的音视频潜在特征 $z_{1}^{v}, z_{1}^{a})$ ，独立噪声 $z_{0}^{v}, z_{0}^{a})$ 和共享的 $\sim \mathcal{U}[0,1]$ 上进行训练，定义 $z_{t}^{m}=(1-t) z_{0}^{m}+t z_{1}^{m}$ ，其中 $\in\{v, a\}$ 。每个主干网络通过双向交叉注意力，基于文本和另一模态预测速度，且对每种模态应用相同的流匹配/FM目标函数；总损失为加权和：
$\mathcal {L}_{total}=\lambda _{v}\, \mathcal {L}_{FM}^{v}+\lambda _{a}\, \mathcal {L}_{FM}^{a}, \lambda _{v}=0.85, \lambda _{a}=0.15 \tag2$
成对采样与共享时间步长使模型能够学习音视频对应关系，例如唇部同步、动作-声音对齐等，且无需额外设置显式同步损失。在推理阶段，两个分支共享相同的时间步长调度，并通过单个常微分方程/ODE求解器进行联合整合。

实现细节

音频模型训练小节所述的音频预训练阶段共进行了50,000 步，批次大小为2880，学习率为 $1 ×10^{-4}$ 。使用AdamW优化器，其参数设置为 $\beta_{1}=0.9,\beta_{2}=0.999,epsilon=10^{-8}$ 。当音频塔收敛后，按照音视频模型训练小节的流程进入音视频融合训练阶段。对部分冻结的融合模型训练了40,000 步，批次大小为768，学习率为 $5 ×10^{-5}$ ，使用的AdamW优化器参数为 $\beta_{1}=0.9,\beta_{2}=0.95,epsilon=10^{-8}$ 。

跨模态注意力可视化

通过对标记对齐结果取平均值，并将其投影为像素热力图，来可视化音频到视频（A2V）的交叉注意力图，以此突出音频在视觉场景中所关注的区域。如图 3 所示：语音会重点关注（人物的）嘴巴区域，鼓声会重点关注鼓的位置，动物叫声则会与动物身体的发声部位对齐。这一结果表明，该融合模型能有效将音频与相关视觉线索进行同步。
[图片]