当前位置: 首页 > news >正文

SIGGRAPH 2025 | 快手可灵团队提出3D感知的电影级文本到视频生成框架CineMaster

Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。

近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了电影级文本到视频生成框架 CineMaster,允许用户在提供全局文本描述的基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。目前该论文已录用于 SIGGRAPH 2025。

图片

  • 论文标题:CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

  • 论文地址:https://arxiv.org/abs/2502.08639

  • 项目主页:https://cinemaster-dev.github.io/

图片

一、支持3D感知的目标、相机运动控制

a)目标相机联合控制:

图片

b)目标运动控制

图片

c)相机运动控制

图片

可以观察到,CineMaster可以根据用户提供的多模态细粒度的控制信号生成期望的视频,支持较大幅度的目标、相机运动的可控生成。

二、CineMaster 框架

CineMaster通过两阶段的工作流,实现高度可控的文本到视频生成:

阶段1:构建3D感知的控制信号:用户可以通过交互式界面在 3D 空间中调整物体的边界框(3D Bounding Box)和摄像机位置,这个过程类似于真实的电影拍摄过程,即导演多次调整演员在场景中的排布和相机的运动。随后,导出相机轨迹和每帧的投影深度图,作为后续生成的条件信号。

阶段2:如图所示,该方法框架通过语义布局ControlNet的架构集成了物体的运动控制信号和物体的类别标签信息,从而明确地控制每个目标的运动。此外,通过Camera Adapter集成了相机运动控制信号表示视频序列的全局运动。

图片

三、CineMaster训练数据构建流程

图片

数据构建流程旨在从任意视频中提取 3D bounding boxes、类别标签、视频相机轨迹,主要包含 4 个步骤:

  • 通过 Qwen2-VL 增强的实体描述提升开放词汇目标检测模型 Grounding DINO 的性能,并通过 SAM v2 实现视频实例分割;

  • 利用 DepthAnything V2 估计视频的绝对深度;

  • 在每个目标的 Mask 最大帧通过深度投影分割结果到点云空间计算 3D bounding box;

  • 访问由 Spatial Tracker 实现的 3D 点跟踪结果,计算所有目标在视频序列中的 3D bounding box,并投影整个 3D 场景得到深度图。

此外,该框架利用 MonST3R 计算了视频的相机轨迹。

四、对比结果

图片

上图中研究者将 CineMaster 与基线方法进行了比较。据观察,基线方法无法显式地关联给定的运动条件和相应的目标,也存在目标运动和相机运动耦合的问题。而 CineMaster 可以合成符合文本提示、目标、相机控制信号的高质量视频。请访问项目主页查看视频结果。

五、总结

在本文中,研究者期望为用户提供强大的 3D 感知的可控视频生成能力,让用户能够像专业导演一样创作。为此,首先设计了一个 3D 感知的交互工作流,允许用户直观地编辑目标和相机的运动;随后开发了一个多模态条件控制视频生成模型,生成用户想要的视频。此外,该方法精心设计了一套从任意视频中提取 3D 控制信号的数据构建流程,为 3D 可控视频生成领域的研究提供了实践经验。

更多细节请参阅原论文

相关文章:

  • 视频监控联网系统GB28181协议中历史视音频的回放流程详解以及查询失败常见原因
  • 测试 Gemini Pro 2.5
  • 电机控制杂谈(26)——电机驱动系统的编码器的测速噪声
  • 迪米特法则 (Law of Demeter, LoD)
  • ISP图像处理算法之Demosaic
  • 第1章 计算机系统知识
  • Spring Boot 深度集成 Ollama 指南:从聊天模型配置到生产级应用开发
  • 计算机网络实验课(二)——抓取网络数据包,并实现根据条件过滤抓取的以太网帧,分析帧结构
  • 5.27打卡
  • 3D Web轻量化引擎HOOPS Communicator实时协作功能深度解析
  • 4.GIS迁移步骤+注意事项+部署常见问题
  • 欧拉定理:若 gcd(a,n)=1,则 a^φ(n)≡1(mod n)。
  • AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年5月27日第90弹
  • 算力革命:RoCE实测推理时延比InfiniBand低30%的底层逻辑
  • [BUG记录]0X10 会话切换服务响应NRC 0x10
  • 2025年5月6日 飞猪Java一面
  • LittleFS 小型文件系统(一)
  • 实验四 ——序列检测器和序列发生器
  • CSS 中的transform详解
  • 树莓派超全系列教程文档--(50)如何查找树莓派的IP地址
  • 做视频网站 视频放在哪里找/交换链接营销案例
  • 天津网络排名优化/广州网站优化工具
  • 做旅行社网站/爱站网seo工具包
  • 济南 营销型网站建设/百度app下载并安装
  • 网站怎么去优化/学营销app哪个更好
  • jsp做的网站难吗/网络优化师