当前位置：首页 > news >正文

ICCV 2025｜单视频生成动态4D场景！中科大微软突破4D生成瓶颈，动画效果炸裂来袭！

news 2025/8/5 7:32:25

文章链接：https://arxiv.org/pdf/2507.23785
开源地址：https://gvfdiffusion.github.io/

亮点直击
新颖的 4D生成建模框架，由两个核心模块组成：直接的4D网格到高斯变分场的VAE（变分自编码器） 与 高斯变分场扩散模型。
训练了一个扩散模型，用于学习变分场在隐空间中的分布，该模型以输入视频和标准3DGS为条件，从而实现可控的4D内容生成。
借助本文隐空间的紧凑性，采用了 Diffusion Transformer（DiT）架构，并引入了时间自注意力层，以捕捉动画序列中的平滑时间动态。
在经过精心筛选的、来自 Objaverse 和 Objaverse-XL 的多样化可动画3D物体集合上对模型进行了训练。本文方法在视频到4D生成任务上具有显著优势。尽管模型训练使用的是合成数据，但在面对真实世界视频输入时，仍表现出出色的泛化能力，能够从真实动画序列中生成令人印象深刻的动画效果。是从静态3D生成迈向高质量4D内容创作的重要一步，为未来的4D生成任务铺平了道路。

总结速览

解决的问题

视频到4D生成的挑战：
- 4D内容（3D形状 + 外观 + 运动）的联合建模维度极高，导致直接使用扩散模型建模4D数据在计算和数据构建上代价极大。
- 当前方法普遍依赖于逐实例拟合，效率低下，且难以泛化。
- 缺乏能够从单个视频输入中高效生成高质量动态3D（4D）内容的通用框架。

提出的方案

整体框架：提出一个新颖的“视频到4D生成框架”，由两个核心模块组成：
1. Direct 4DMesh-to-GS Variation Field VAE：
  - 从4D网格动画中直接编码标准3D Gaussian Splatting（3DGS）及其随时间变化的属性（高斯变分场），压缩到紧凑隐空间。
2. Gaussian Variation Field Diffusion Model：
  - 在VAE隐空间中建模高斯变分场的分布，条件输入为视频帧特征和标准3DGS，实现可控的4D动画生成。

应用的技术

高效表示学习：
- 利用 VAE 对高维4D动画进行压缩，避免逐实例拟合。
- 引入 网格引导损失 与 图像级损失，确保高斯点运动与真实网格运动对齐。
- 动作压缩到 512维隐空间，为后续建模提供高效表示。
扩散模型与条件生成：
- 采用时间感知的 Diffusion Transformer（DiT） 架构。
- 引入 时间自注意力机制，捕捉动画中的平滑动态变化。
- 使用 交叉注意力机制 融合视频帧特征与标准3DGS。
- 加入 位置先验，增强高斯点与网格顶点之间的空间一致性。
训练数据与泛化能力：
- 在 Objaverse 和 Objaverse-XL 中精心挑选的可动画3D物体上进行训练。
- 虽使用合成数据训练，但模型在真实视频输入上具有良好泛化能力。

达到的效果

生成质量优异：
- 在视频到4D生成任务中，相较现有方法展现出更高的生成质量与动画保真度。
- 能够从单个视频输入中生成结构清晰、运动自然的动态3D内容。
泛化能力强：
- 尽管训练数据为合成数据，模型在真实世界视频输入上依然表现出色，生成结果具有高度可用性。
效率与可扩展性：
- 通过隐空间建模和高效扩散机制，大幅降低了4D生成的计算成本。
- 为未来高质量4D内容生成提供了可扩展的解决方案。

方法

给定一个物体的视频序列，本文的目标是生成一个3D高斯投影模型序列，该序列能够捕捉物体的形状、外观和运动。本文将该任务分解为标准高斯投影的生成（以第一帧为标准）和高斯变分场的生成，其中描述了每个高斯点相对于随时间变化的属性。本文的框架包含两个主要组件：

一个直接的 4D 网格到高斯变分场的 VAE，用于高效地将3D动画序列编码为紧凑的隐空间；
一个高斯变分场扩散模型，用于学习在输入视频和标准高斯投影条件下的变分场隐空间分布。

以下部分将详细介绍每个组件。

直接 4D 网格到高斯变分场的 VAE

将 3DGS 扩展到动态内容的生成建模面临显著挑战。为每个动画实例拟合单独的动态 3DGS 表示在计算上开销巨大，且扩展性差。此外，由于高斯数据量（例如 [32] 中通常超过 100K）和时间维度的高维性，直接使用扩散模型对高斯序列的时间变形进行建模也非常困难。因此，本文提出了一个高效的自动编码框架，能够将3D动画数据直接编码为高斯变分场，并压缩到一个紧凑的隐空间中，从而便于后续的扩散建模。

高斯变分场编码。 给定一个网格动画序列，首先通过均匀表面采样将其转换为点云序列，其中每个点云包含个点。位移场通过相邻帧之间对应点的时间差计算得到：

其中是标准帧的点云。然后利用预训练的 mesh-to-GS 自动编码器和从标准网格中获得标准高斯投影表示：

其中表示高斯参数，包括位置、尺度、旋转、颜色和不透明度，其中是标准高斯的总数。是标准高斯的结构化隐空间表示（SLAT）。本文对进行微调，以确保标准高斯与其变分场的一致重建，同时保持冻结，以利用预训练的标准高斯扩散模型。

受 3DShape2VecSet 启发，使用一个交叉注意力层，将3D动画序列中的运动信息聚合为固定长度的隐空间表示。尽管直接使用作为查询向量是一种直接的方法，但本文发现这会导致较差的运动感知。为了增强网络对网格变形的敏感性，本文引入了一种网格引导的插值机制，该机制基于与之间的空间对应关系生成运动感知的查询向量。

具体而言，对于每个标准高斯的位置，本文在标准点云中找到其个最近邻，并计算它们的距离。为了处理网格采样点云中不同的点密度，本文引入一个自适应半径，用于根据局部点的分布调整影响区域。插值权重和自适应半径的公式如下：

其中是一个超参数，用于控制插值权重随距离的衰减速率，较大的值会产生更局部化的影响区域。本文中设定。

然后本文对第个高斯在时间的位移场进行插值：

其中表示第个最近邻的索引。本文基于它们的规范位置对执行最远点采样，以构建本文的运动感知查询，从而减少序列长度。点云位移场在交叉注意力编码器中作为键和值。为了保留空间关系，本文基于规范位置引入位置嵌入：

其中是位移嵌入层。该过程生成一个潜在表示，其中是时间帧数，是潜在大小，是特征维度。值得注意的是，本文的编码过程将序列长度从压缩到，显著减少了后续扩散建模的空间。

高斯变分场解码。 解码过程首先通过层自注意力模块对潜在表示进行变换，以实现充分的运动信息交换。然后解码器将处理后的潜在表示映射为高斯变分场，该场由高斯属性的变化定义。为了确保解码器能够感知所有规范高斯属性，本文使用的所有参数通过交叉注意力层查询潜在输出：

其中是规范高斯的嵌入层，是最终的自注意力层输出。最终的 3DGS 序列通过以下方式获得：

训练目标。 本文的训练目标由三个主要部分组成。首先，本文在最终预测的高斯渲染图像与真实图像之间采用图像级重建损失：

其中，和分别是感知损失和 SSIM 损失的损失权重。为了确保动作重建的准确性，本文引入了一个网格引导损失，使预测的高斯位移与通过网格引导插值得到的伪真实值对齐：

本文发现该项对于动作重建质量至关重要。最后，为了促进后续的扩散训练，本文还使用 KL 散度损失对隐空间分布进行正则化。总损失为：，

其中和是相应的损失权重。

高斯变分场扩散

扩散过程可以形式化为离散时间马尔可夫前向过程的反演。设表示来自分布的初始高斯变分场隐空间变量。在前向阶段，本文通过在扩散步骤中逐步添加高斯噪声来扰动该隐空间变量序列，遵循以下公式：，其中，和定义了噪声调度。

经过足够的扩散步骤后，接近纯高斯噪声。生成过程通过反转该过程实现，从随机高斯噪声开始，逐步去噪以恢复。

紧凑的隐空间使本文能够基于强大的 Diffusion Transformer (DiT) 架构构建扩散模型。如下图 3 所示，模型以被噪声扰动的隐空间变量为输入，并通过一系列 transformer 块进行去噪处理。每个 transformer 块通过自适应层归一化（adaLN）和门控机制引入扩散时间步信息。除了标准的空间自注意力层外，还引入了专门的时间自注意力层，以确保序列中的动作生成具有连贯性。

为了对生成过程进行条件控制，本文通过交叉注意力层注入两类特征：(1) 从输入视频帧中使用 DINOv2 提取的视觉特征，以及 (2) 从静态高斯场中使用 farthest point 采样得到的几何特征。还在扩散 transformer 中引入了基于规范高斯场位置的位置嵌入，这增强了模型在去噪过程中对规范高斯场与其变分场之间对应关系的感知，从而有效提升生成质量。

本文将扩散模型参数化为在每个扩散步骤预测速度。扩散模型的训练目标为：

其中表示和的条件特征。

推理流程

在推理过程中，本文的框架以顺序管线方式运行。首先，使用预训练的3D扩散模型获取第一帧的规范高斯场。给定输入视频序列，本文提取视觉特征，并将其与最远采样的规范高斯结合，作为扩散模型的条件信号。扩散模型生成潜在编码，随后被解码以获得高斯变分场。每一帧的最终动画高斯表示是通过将这些变分应用于规范高斯得到的，从而有效生成高保真、时间连贯的4D动画。

实验

数据集与评估指标

在 Objaverse-V1 和 ObjaverseXL 上进行实验，遵循以往在4D内容生成中的工作。在筛选出具有高质量动画的物体后，本文使用 34K 个物体进行训练。为了评估视频到4D的生成质量，本文构建了一个包含 100 个物体的综合测试集，将广泛使用的 Consistent4D 测试集中 7 个实例与来自 Objaverse-XL 的 93 个额外测试实例结合起来，以确保与以往工作的全面比较。本文为每个实例的每个时间步渲染 4 个新视角。

使用多个指标评估生成质量：PSNR、LPIPS 和 SSIM 用于逐帧质量评估，FVD 用于评估生成序列的时间一致性。所有评估均在分辨率的渲染图上进行。

实现细节

在本文的 VAE 实现中，规范的 Mesh-to-GS 自编码器基于 TRELLIS 构建，训练分为两个阶段：首先在规范3D数据上对稀疏高斯解码器微调 150K 次迭代，然后与其他模块联合训练 200K 次迭代，使用4D动画数据。VAE 架构采用点云大小，隐空间大小，特征维度。本文使用 AdamW 优化器优化 VAE，的学习率为，其他模块为，批量大小为 32。

扩散模型在 24 帧序列上进行训练，使用相同的 AdamW 优化器、学习率和批量大小，训练 1300K 次迭代。本文为扩散模型训练使用 1000 步的余弦噪声调度。训练时设置，推理时设置，以便与以往工作进行比较。

主要结果

定量比较。 将本文模型的视频到4D生成结果与之前的最新方法进行比较，包括基于优化的方法 [28, 56, 79, 88] 和前馈方法 [57]。如下表 1 所示，本文的方法在所有质量指标上始终优于现有方法，表现出更优越的重建保真度和更好的时间连贯性。与一些需要数分钟到数小时优化的以往方法 [28, 56, 79, 88] 不同，本文的方法更高效，仅需 4.5 秒即可生成一个4D动画序列（其中 3.0 秒用于生成规范高斯场，1.5 秒用于高斯变分场扩散），仅比前馈重建方法 L4GM稍慢。这些定量结果共同验证了本文方法的有效性和效率。

定性比较。 本文还在下图 4 中提供了与之前最新方法的定性比较。基于 SDS 的方法往往生成纹理模糊、几何质量较差的结果。前馈方法 L4GM 利用从二维生成先验生成的多视角图像来重建 4DGS 序列。然而，L4GM 的结果受到生成多视角图像的3D不一致性的影响。相比之下，本文的模型直接生成规范高斯场和高斯变分场，能够创建高保真的3D一致动画，并具有连贯的时间动态。

更多生成结果可视化。 下图 5 展示了本文方法生成的更多结果，包括基于自然视频（左两例）和测试集视频（右两例）的示例。本文的模型展现出高质量的生成能力和真实的动作重现能力。尽管训练于合成数据，模型在捕捉自然视频输入中的动作模式方面表现出强大的泛化能力。此外，模型还成功应对了具有挑战性的多物体场景，突显了本文方法的鲁棒性。

消融研究

对 VAE 的消融。 在下表 2 和下图 6 中，本文分析了 VAE 的关键组成部分。本文的基线（配置 A）从使用最远采样的规范高斯场位置作为编码器交叉注意力层的查询开始，变分属性仅限于位置、缩放和旋转，遵循之前的 4DGS 工作 [76]。由于本文没有用于显式监督的真实高斯运动，VAE 最初在动作学习方面表现不佳。在引入本文的网格引导损失后，通过伪位移监督有效提升了动作重建能力（配置 B）。随后，本文将编码查询替换为使用网格引导插值的动作感知，成功处理了大多数动作序列（配置 C）。最后，为了让模型更灵活地处理复杂的动作序列，本文将高斯属性的颜色和不透明度纳入变分场，进一步增强了 VAE 的重建能力。

对扩散模型的消融。本文在下表 3 中检验了位置嵌入在扩散模型训练中的重要性。通过引入基于规范高斯位置的位置先验，扩散变换器能更好地捕捉空间位置与其变分之间的对应关系。移除这些位置嵌入会导致显著的性能下降，表明它们在实现高质量结果中的关键作用。

应用

尽管仅在单个视频输入上进行训练，本文的模型依然能够根据条件视频中描绘的动作有效地为已有的3D模型生成动画。如下图 7 所示，该方法生成的动画质量较高，能够忠实地重现目标动作。因此，在实际应用中，用户可以首先使用现成的视频扩散模型从其3D模型渲染图像生成二维动画，然后使用本文的模型生成对应的4D动画。

结论

本文提出了一个新颖的框架，用于应对4D生成建模的挑战性任务。为了高效构建大规模训练数据集并降低扩散建模的难度，首先提出了一个直接从4D网格到高斯变分场的变分自编码器（VAE），该模型能够高效地将复杂的运动信息压缩到一个紧凑的隐空间中，而无需代价高昂的逐实例拟合。随后，提出了一个高斯变分场扩散模型，用于在输入视频和规范3D高斯场的条件下生成高质量的动态变分场。通过将4D生成分解为规范3D高斯场生成和高斯变分场建模，本文方法显著降低了计算复杂度，同时保持了高保真度。定量和定性评估表明本文的方法始终优于现有方法。此外，本文模型在自然视频输入下表现出卓越的泛化能力，推动了高质量3D动画内容生成的发展。