【AI论文】Yume:一种交互式世界生成模型
摘要:Yume旨在利用图像、文本或视频来创建一个交互性强、逼真且动态的世界,用户可使用外设设备或神经信号对其进行探索与操控。在本报告中,我们展示了\method的预览版本,该版本可从输入图像中创建一个动态世界,并允许用户通过键盘操作来探索这个世界。为实现这种高保真且交互式的视频世界生成,我们引入了一个精心设计的框架,该框架包含四个主要组件,分别是相机运动量化模块、视频生成架构、高级采样器以及模型加速模块。首先,我们利用键盘输入对相机运动进行量化,以实现稳定训练和便于用户交互。然后,我们引入了带有记忆模块的掩码视频扩散变换器(Masked Video Diffusion Transformer,MVDT),以自回归的方式实现无限视频生成。之后,我们将无需训练的抗伪影机制(Anti-Artifact Mechanism,AAM)和基于随机微分方程的时间旅行采样(Time Travel Sampling based on Stochastic Differential Equations,TTS-SDE)引入采样器,以提升视觉质量并实现更精确的控制。此外,我们还通过对抗蒸馏和缓存机制的协同优化来研究模型加速方法。我们使用高质量的世界探索数据集\sekai来训练\method,该方法在多种场景和应用中均取得了显著成果。所有数据、代码库和模型权重均可在https://github.com/stdstu12/YUME上获取。Yume将每月更新,以实现其最初目标。项目页面:https://stdstu12.github.io/YUME-Project/。Huggingface链接:Paper page,论文链接:2507.17744
研究背景和目的
随着生成模型和沉浸式体验需求的不断发展,创建交互式、逼真且动态的虚拟世界成为人工智能领域的重要目标。视频扩散模型在合成高保真和时序一致的视觉内容方面展现出巨大潜力,为构建复杂的交互式世界提供了可能。
然而,现有的视频扩散方法在应用于生成交互式(连续相机运动控制)和逼真视频时,尤其是在城市环境中,面临着诸多挑战:
-
领域差距: 现有方法主要关注合成或静态场景,与现实世界存在领域差距,限制了其泛化能力。
-
相机运动控制: 现有方法大多基于绝对相机运动,需要精确标注和额外的学习模块,增加了训练和架构设计的难度。
-
城市环境复杂性: 城市环境具有多样化的建筑风格、动态物体和复杂的细节,现有方法难以适应这种复杂性,难以在不同场景中保持一致的逼真度。
-
视觉伪影: 现有方法生成的视频容易出现闪烁、不自然的纹理和几何失真等视觉伪影,降低了感知质量,破坏了沉浸式体验。
为了解决这些挑战,本研究提出了 Yume,一个基于图像输入的交互式世界生成模型,允许用户使用键盘输入探索动态世界。Yume 通过对四个关键维度进行系统优化,旨在生成高质量、动态且交互式的无限视频,特别是用于复杂真实场景的探索。
研究方法
Yume 模型主要由四个核心组件构成:
-
相机运动量化 (QCM): 将相机轨迹量化为平移运动(前进、后退、左移、右移)和旋转运动(向右转、向左转、向上倾斜、向下倾斜),可以通过键盘输入灵活组合和转换。QCM 通过训练期间相对相机姿态的变化产生,自然地将时间上下文和空间关系嵌入到控制信号中。
-
模型架构: 采用 Masked Video Diffusion Transformers (MVDT) 架构,并引入了记忆模块,实现无限视频的自动回归生成。MVDT 通过随机掩码输入特征,并通过编码器、侧插值器和解码器三个核心组件进行处理,有效提升了视频生成质量。
-
采样器设计: 引入训练无关的抗伪影机制 (AAM) 和基于随机微分方程的时间旅行采样 (TTS-SDE)。AAM 通过细化潜在表示的高频成分,提高了细粒度细节,平滑了不一致性,显著减少了视觉伪影,而无需额外的模型训练或专用数据集。TTS-SDE 利用后期去噪阶段的信息来指导早期去噪过程,同时结合随机微分方程来增强采样随机性,从而提高了文本可控性。
-
模型加速: 通过对抗性蒸馏和缓存机制的协同优化来加速扩散模型的采样过程。对抗性蒸馏将迭代去噪过程蒸馏成更少的步骤,而缓存机制通过重用去噪步骤之间的中间残差特征来减少计算冗余。
研究结果
Yume 在 Sekai 数据集上进行训练,并在各种场景和应用中取得了显著成果:
-
视觉质量: Yume 生成的视频具有高质量的视觉效果,能够准确捕捉城市环境的细节和动态变化。
-
控制精度: Yume 能够准确地响应键盘输入,实现流畅且稳定的相机运动控制。
-
世界泛化: Yume 能够泛化到各种类型的场景,包括动画、视频游戏和 AI 生成的图像,不仅可以进行真实世界的探索,还可以进行虚幻世界的探索。
-
世界编辑: Yume 可以与图像编辑方法结合,实现对虚拟世界的编辑,例如改变天气、时间和风格。
研究局限
尽管 Yume 取得了显著成果,但仍存在一些局限性:
-
视觉质量: AAM 在自动回归长视频生成场景中表现不佳,容易出现帧间不连续性,需要进一步改进。
-
运行效率: Yume 的采样过程仍然需要一定的时间,需要进一步优化模型架构和采样方法,提高运行效率。
-
控制精度: Yume 的控制精度仍有提升空间,需要进一步研究更精细的相机运动控制方法。
-
功能扩展: Yume 目前只支持相机运动控制,需要进一步扩展功能,例如与物体交互、环境交互等。
未来方向
未来研究将着重于以下几个方面:
-
改进 AAM: 研究更有效的 AAM 方法,使其能够更好地适应自动回归长视频生成场景。
-
提高运行效率: 研究更高效的模型架构和采样方法,例如更轻量级的网络结构、更快的采样算法等,提高 Yume 的运行效率。
-
提升控制精度: 研究更精细的相机运动控制方法,例如基于深度学习的控制策略、基于强化学习的控制策略等,提升 Yume 的控制精度。
-
扩展功能: 研究与物体交互、环境交互等功能,使 Yume 能够构建更丰富的虚拟世界体验。
-
探索新的应用场景: 将 Yume 应用于更广泛的应用场景,例如游戏开发、电影制作、虚拟现实等。
总而言之,Yume 是一个具有巨大潜力的交互式世界生成模型,为构建复杂真实场景的虚拟世界提供了新的思路和方法。随着研究的不断深入,Yume 将在未来发挥更大的作用,为用户带来更加沉浸式的虚拟世界体验。