当前位置：首页 > news >正文

上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型！

news 2025/9/4 15:00:17

近年来，视频生成模型取得了显著进展，因其能够基于大规模真实世界数据训练出高度逼真的生成效果，被广泛认为有望成为模拟真实物理世界的“世界模型”。然而，要实现这一愿景，模型必须能够在长时间生成过程中保持对场景的持续记忆能力，而当前方法在这方面仍存在明显不足。

交互式长视频生成一直面临一个致命短板：缺乏稳定的场景记忆。镜头稍作移动再转回，眼前景物就可能“换了个世界”。这一问题严重制约了视频生成技术在游戏、自动驾驶、具身智能等下游应用的落地。今年8月初，Google DeepMind 发布的 Genie 3 因在生成长视频时展现出卓越的场景一致性，迅速引起广泛关注，被许多人视为世界模型发展中的一次质变。遗憾的是，该模型并未公开技术细节。

近日，香港大学和快手可灵团队联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》，提出一种创新性方法：将历史生成的上下文作为“记忆”（即Context-as-Memory），通过context learning 技术学习上下文条件，从而实现对长视频前后场景一致性的有效控制。研究发现：视频生成模型能够隐式学习视频数据中的 3D 先验，无需显式 3D 建模辅助，这一理念与 Genie 3 不谋而合。如下是一个结果展示：

为了高效利用理论上可无限延长的历史帧序列，论文还提出了基于相机轨迹视场（FOV）的记忆检索机制（Memory Retrieval），从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件，大幅提升视频生成的计算效率并降低训练成本。在数据构建上，研究团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频，用于充分训练和测试上述技术。用户只需提供一张初始图像，即可沿设定的相机轨迹自由探索生成的虚拟世界。

【📖论文题目】: Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

【📊项目主页】: https://context-as-memory.github.io/

【🏆论文地址】: https://arxiv.org/pdf/2506.03141

1. 能力展示

从上述视频可以观察到，Context as Memory可以在几十秒的时间尺度下保持原视频中的静态场景记忆力，并在不同场景有较好的泛化性。更多示例请访问项目主页。

2. 技术创新

尽管现有视频生成模型已能生成较长时间的视频，但在维持场景记忆方面仍表现不佳。例如，简单的摄像机转向再回正都可能导致场景完全改变，凸显出当前方法在长程一致性建模方面的局限。

这类问题的根源在于，现有方法在生成每一新帧时，仅能依赖有限数量的前一帧（如几十帧的固定窗口）作为上下文信息。以 Diffusion Forcing 为例，其上下文窗口的约束限制了长期依赖的建模能力。尽管该设置适用于短视频延续任务，却难以保障生成内容在长时间范围内的连贯性。若能使每一帧在生成时参考全部历史帧，模型便可主动从过往帧中选择并复制与当前生成相关的内容，从而显著提升长视频的场景一致性。换言之，所有先前生成的上下文可被视为一种记忆。

然而，“将所有历史上下文作为记忆”这一思路虽然直观，却存在三个主要问题：

一、计算资源消耗极大；

二、全部历史上下文中包含大量冗余，仅少数帧与当前生成真正相关；

三、无关帧的引入可能增加噪声，反而干扰生成质量。

为此，一种更合理的方式是从历史上下文中动态检索少量相关帧，作为条件引导当前帧的生成，我们将其称为“记忆检索”。针对上述问题，本研究提出“Context as Memory“方法，旨在实现无需显式三维建模的场景一致的长视频生成。该方法的核心创新包括：

提出了 Context as Memory 方法，强调将历史生成的上下文作为记忆，无需显式3D建模即可实现场景一致的长视频生成。
设计了Memory Retrieval方法，采用基于视场（FOV）重叠的相机轨迹规则进行动态检索，显著减少了需要学习的上下文数量，从而提高了模型训练与推理效率。
实验结果表明，Context as Memory在长视频生成中的场景记忆力表现优越，显著超越了现有的SOTA方法，并且能够在未见过的开放域场景中保持记忆。

3. Context as Memory算法解读

如上图（a）所示，Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的，其中，所有历史生成的视频帧作为context，它们被视为记忆力的载体。

进一步地，如上图（b）所示，为了避免将所有历史帧纳入计算所带来的过高计算开销，提出了Memory Retrieval模块。该模块通过根据相机轨迹的视场（FOV）来判断预测帧与历史帧之间的重叠关系，从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量，大幅提高了模型训练和推理的效率。

4. 实验结果

在实验中，研究者将 Context-as-Memory 与最先进的方法进行了比较，结果表明，Context-as-Memory 在长视频生成的场景记忆力方面，相较于这些方法，表现出了显著的性能提升。

在实验中，研究者将 Context-as-Memory 与最先进的方法进行了比较，结果表明，Context-as-Memory 在长视频生成的场景记忆力方面，相较于这些方法，表现出了显著的性能提升。

研究团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文，系统性地总结了该领域的发展现状，还提出了世界模型的五大基础能力模块：Generation，Control，Memory，Dynamics以及Intelligence。这一框架为后续基础世界模型的研究指明了方向，具有很高的学习与参考价值。在该框架指导下，团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作，还在 ICCV 2025 上发表了 GameFactory 论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力，能够生成无限可交互的新游戏，并被选为 Highlight 论文。

1. 能力展示

2. 技术创新

3. Context as Memory算法解读

4. 实验结果

相关文章：