当前位置：首页 > news >正文

【AI论文】Yume：一种交互式世界生成模型

news 2025/7/31 20:13:05

摘要：Yume旨在利用图像、文本或视频来创建一个交互性强、逼真且动态的世界，用户可使用外设设备或神经信号对其进行探索与操控。在本报告中，我们展示了\method的预览版本，该版本可从输入图像中创建一个动态世界，并允许用户通过键盘操作来探索这个世界。为实现这种高保真且交互式的视频世界生成，我们引入了一个精心设计的框架，该框架包含四个主要组件，分别是相机运动量化模块、视频生成架构、高级采样器以及模型加速模块。首先，我们利用键盘输入对相机运动进行量化，以实现稳定训练和便于用户交互。然后，我们引入了带有记忆模块的掩码视频扩散变换器（Masked Video Diffusion Transformer，MVDT），以自回归的方式实现无限视频生成。之后，我们将无需训练的抗伪影机制（Anti-Artifact Mechanism，AAM）和基于随机微分方程的时间旅行采样（Time Travel Sampling based on Stochastic Differential Equations，TTS-SDE）引入采样器，以提升视觉质量并实现更精确的控制。此外，我们还通过对抗蒸馏和缓存机制的协同优化来研究模型加速方法。我们使用高质量的世界探索数据集\sekai来训练\method，该方法在多种场景和应用中均取得了显著成果。所有数据、代码库和模型权重均可在https://github.com/stdstu12/YUME上获取。Yume将每月更新，以实现其最初目标。项目页面：https://stdstu12.github.io/YUME-Project/。Huggingface链接：Paper page，论文链接：2507.17744

研究背景和目的

随着生成模型和沉浸式体验需求的不断发展，创建交互式、逼真且动态的虚拟世界成为人工智能领域的重要目标。视频扩散模型在合成高保真和时序一致的视觉内容方面展现出巨大潜力，为构建复杂的交互式世界提供了可能。

然而，现有的视频扩散方法在应用于生成交互式（连续相机运动控制）和逼真视频时，尤其是在城市环境中，面临着诸多挑战：

领域差距: 现有方法主要关注合成或静态场景，与现实世界存在领域差距，限制了其泛化能力。
相机运动控制: 现有方法大多基于绝对相机运动，需要精确标注和额外的学习模块，增加了训练和架构设计的难度。
城市环境复杂性: 城市环境具有多样化的建筑风格、动态物体和复杂的细节，现有方法难以适应这种复杂性，难以在不同场景中保持一致的逼真度。
视觉伪影: 现有方法生成的视频容易出现闪烁、不自然的纹理和几何失真等视觉伪影，降低了感知质量，破坏了沉浸式体验。

为了解决这些挑战，本研究提出了 Yume，一个基于图像输入的交互式世界生成模型，允许用户使用键盘输入探索动态世界。Yume 通过对四个关键维度进行系统优化，旨在生成高质量、动态且交互式的无限视频，特别是用于复杂真实场景的探索。

研究方法

Yume 模型主要由四个核心组件构成：

相机运动量化 (QCM): 将相机轨迹量化为平移运动（前进、后退、左移、右移）和旋转运动（向右转、向左转、向上倾斜、向下倾斜），可以通过键盘输入灵活组合和转换。QCM 通过训练期间相对相机姿态的变化产生，自然地将时间上下文和空间关系嵌入到控制信号中。
模型架构: 采用 Masked Video Diffusion Transformers (MVDT) 架构，并引入了记忆模块，实现无限视频的自动回归生成。MVDT 通过随机掩码输入特征，并通过编码器、侧插值器和解码器三个核心组件进行处理，有效提升了视频生成质量。
采样器设计: 引入训练无关的抗伪影机制 (AAM) 和基于随机微分方程的时间旅行采样 (TTS-SDE)。AAM 通过细化潜在表示的高频成分，提高了细粒度细节，平滑了不一致性，显著减少了视觉伪影，而无需额外的模型训练或专用数据集。TTS-SDE 利用后期去噪阶段的信息来指导早期去噪过程，同时结合随机微分方程来增强采样随机性，从而提高了文本可控性。
模型加速: 通过对抗性蒸馏和缓存机制的协同优化来加速扩散模型的采样过程。对抗性蒸馏将迭代去噪过程蒸馏成更少的步骤，而缓存机制通过重用去噪步骤之间的中间残差特征来减少计算冗余。