腾讯开源:视频生成框架Hunyuan-GameCraft
1. 引言
传统的视频生成模型,无论是文生视频(Text-to-Video)还是图生视频(Image-to-Video),其生成过程都是“一次性”的。用户提供提示,模型生成一段视频,交互就此结束。然而,真正的沉浸式体验,尤其是在游戏场景中,要求视频的生成是动态的、连续的、可由用户实时驱动的。
Hunyuan-GameCraft正是为了应对这一挑战而生。它旨在解决现有方法在以下几个关键领域的局限性:
- 高动态性 (High Dynamics):能够生成快速、复杂的场景变化。
- 精细控制 (Fine-grained Control):用户能够通过标准游戏输入(键盘、鼠标)进行精确的视角和移动控制。
- 长期一致性 (Long-term Consistency):在无限延伸的视频序列中,保持场景、物体和物理逻辑的一致性。
- 高效率 (Efficiency):推理速度足够快,以支持实时或近实时的交互。
2. Hunyuan-GameCraft概览:一个为“交互”而生的视频生成框架
Hunyuan-GameCraft是一个基于扩散模型的交互式游戏视频合成框架。其核心工作流程是:给定一张初始的游戏场景图片和一段文本描述,用户可以通过类似游戏的键盘/鼠标操作,**自回归地(autoregressively)**生成后续