ICCV 2025|可灵团队新作 ReCamMaster:从单视频到多视角生成,多角度看好莱坞大片
导读
2025年7月,Kuaishou Technology团队发布了论文《ReCamMaster: Camera-Controlled Generative Rendering from A Single Video》——一种利用预训练文本到视频模型,通过巧妙的视频注入机制和高质量多摄像机同步数据集,实现对单条视频动态场景进行新相机轨迹下再渲染的创新框架。本文结合业界现状,深入浅出地阐述相机运动在视频创作中的重要性,梳理传统视频生成与可控视频生成任务的发展脉络,并剖析ReCamMaster在数据构建、条件注入、训练策略等方面的核心技术亮点。
论文基本信息
- 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
- 作者:Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
- 作者单位:浙江大学; 快手科技Kling团队; 香港中文大学; 华中科技大学
- 发布时间:2025年7月9日
- 论文来源:https://arxiv.org/abs/2503.11647
- 代码与数据集:https://github.com/KwaiVGI/ReCamMaster
点击阅读原文,获取更多前沿咨询
摘要
ReCamMaster提出了一种基于单条输入视频,生成新相机轨迹下再渲染目标视频的生成框架。核心在于将源视频和目标视频的潜在表示按帧维度拼接,充分利用Transformer跨帧-跨空间的自注意力机制,通过简单而高效的视频条件注入,重用预训练文本到视频模型的强大生成能力。为弥补真实视频多视角数据稀缺,作者使用Unreal Engine 5构建了136K条多摄像机同步视频,覆盖40个高质量三维场景和122K种相机运动轨迹,并设计多种训练策略(噪声调度、T2V/I2V联合训练、仅微调3D注意力层等)提升模型对“野外”视频的泛化。实验包含与GCD、Trajectory-Attention、DaS等方法在视觉质量、相机精度与源-目标同步性上的量化对比,以及消融研究与实际任务验证,全面展示ReCamMaster在视频稳定、超分辨与扩展填充等应用中的潜力。
研究背景及相关工作
研究背景
相机运动是影视制作的灵魂元素,通过镜头推拉、俯仰、轨道等手法对观众关注点、情绪和叙事节奏施加微妙影响。然而,业余视频爱好者往往因硬件抖动、拍摄视角受限,难以获得专业级相机运动效果。近年来,随着文本到视频(T2V)及图像到视频(I2V)扩散模型的兴起,研究者开始尝试将相机参数合入生成模型,实现可控视频合成。但大多数方法依赖模拟环境数据、摄像机同步多视角或优化过高,难以在真实视频上大规模应用。
相关工作
- 相机控制视频生成:MotionCtrl、CameraCtrl等方法将6DoF外参注入扩散Transformer,通过微调全模型或引入额外LoRA层实现相机轨迹条件生成,但对训练数据要求高且泛化能力受限。
- 视频到视频生成:GCD利用Kubric模拟器合成多视角视频对训练,Trajectory-Attention和DaS等通过3D点跟踪提取动态结构再生成,虽能保持一定同步性,但在真实场景下常见运动伪影与失真。
- 高质量数据集构建:公开多视角视频集(如Human3.6M、Panoptic Studio)多聚焦人体动作,缺少多样场景和丰富相机轨迹;因此,合成数据成为填补真实数据空白的必要之举。
主要贡献
ReCamMaster的核心创新及贡献可归纳如下:
-
高质量多视角合成数据集:基于Unreal Engine 5自动化渲染136K条同步视频,涵盖40个3D环境、13.6K动态场景与122K相机轨迹,实现像真实拍摄般的多样性与同步性,有效弥补真实多视角数据不足。
-
帧维度条件注入机制:首次提出将源视频与目标视频的潜在表示在帧维度展开拼接,无需额外注意力模块即可通过Transformer自注意力层完成时空信息交互,显著优于通道维度和视图维度拼接策略。
-
灵活高效训练策略:仅微调3D注意力层并结合噪声调度、T2V与I2V联合训练,在保持预训练模型能力的基础上提升泛化;支持多任务(T2V、I2V、V2V)训练而无需额外优化。
-
全面实验与实际应用:在WebVid测试集与VBench指标下,与GCD、Trajectory-Attention、DaS等最先进方法对比,ReCamMaster在FID、FVD、RotErr、Mat.Pix.等指标上均有大幅提升;并展示在视频稳定、超分与扩展填充等场景的创新应用。
研究方法与基本原理
问题定义与总体架构
给定源视频 V_s∈Rf×c×h×wV\_s\in\mathbb{R}^{f\times c\times h\times w}V_s∈Rf×c×h×w 和目标相机序列 camt∈Rf×3×4camt\in\mathbb{R}^{f\times3\times4}camt∈Rf×3×4,ReCamMaster旨在生成目标视频 VtV_tVt,既保持源视频动态场景一致,又遵循新轨迹视觉效果。总体框架基于预训练文本到视频潜在扩散模型,由3D VAE编码器 E\mathcal{E}E、Transformer扩散主干与3D VAE解码器 D\mathcal{D}D 组成,如图中所示。
帧维度视频条件注入
以往方法在通道或视图维度拼接源-目标潜在表示,导致时空信息难以充分交互。ReCamMaster将 zs=E(Vs),zt=E(Vt)z_s=\mathcal{E}(V_s), z_t=\mathcal{E}(V_t)zs=E(Vs),zt=E(Vt) token化后,沿帧维度拼接:
x=[patchify(zs),patchify(zt)]frame∈Rb×2f×s×dx=[\mathrm{patchify}(z_s),\mathrm{patchify}(z_t)]_{frame}\in\mathbb{R}^{b\times2f\times s\times d}x=[patchify(zs),patchify(zt)]frame∈Rb×2f×s×d
无需额外视图注意力层,通过Transformer自注意力即可实现跨帧跨空间信息融合,在多种复杂运动场景下均保持同步与一致。实验证明帧拼接在FID、Mat.Pix.等指标上显著优于其他注入方式。
相机位姿注入
仅在Transformer每层的3D注意力前融入目标相机外参,通过线性编码器 EcE_cEc 将 3×43\times43×4 矩阵映射为 ddd 维特征并加到视觉特征上:
Fi=Fo+Ec(camt)F_i=F_o+E_c(camt)Fi=Fo+Ec(camt)
在推理阶段覆盖真实视频时仅需估计目标外参,无需提供源视频外参或内参,易于实用。
数据集构建
采用Unreal Engine 5,在40个真实感3D环境中放置多主体动画和多摄像机,自动化批量生成13.6K动态场景下122K条自然相机轨迹,最终获得136K条时序同步视频用于训练。
训练策略
- 仅微调3D注意力层:冻结VAE和Transformer其他模块,保留预训练能力。
- 视频潜在噪声调度:在200-500步噪声内对条件源视频latent施加噪声,减小合成与真实分布差距。
- T2V/I2V联合任务:20%概率全帧噪声生成T2V,20%概率除首帧外噪声生成I2V,提高可见性增强与场景补全能力。
论文正文
实验设置与评价指标
- 训练配置:384×672分辨率,批量40,学习率1e-4,训练1万步。
- 评价指标:视觉质量(FID、FVD、CLIP-T/F)、相机精度(RotErr、TransErr)、视图同步(Mat.Pix.、FVD-V、CLIP-V)、VBench综合。
- 测试集:1000条WebVid视频,10种基础相机轨迹。
与最先进方法对比
Table 1显示,在FID(↓57.10 vs 63.25/69.21/72.83)、FVD(↓122.74)、RotErr(↓1.22)等指标上全面领先;Mat.Pix.(↑906.03)和CLIP-V(↑90.36)体现优秀同步性。VBench结果同样表明ReCamMaster在美学、成像质量和背景一致性方面优于GCD、Trajectory-Attention和DaS。
消融研究
- 注入方式对比:Channel、View、Frame三种方案对比,Frame拼接在视觉质量与同步性上优势明显(FID从74.09→57.10,Mat.Pix.从521.10K→906.03K)。
- 训练策略有效性:逐步添加噪声调度、3D注意力微调与丢帧策略使FID从66.67降至57.10,Aesthetic Quality提升2.68点。
实际应用示例
- 视频稳定:对DeepStab抖动视频输入平滑轨迹,即可获得稳定效果。
- 局部超分辨:输入“Zoom-in”参数实现中心区域细节增强。
- 视频扩展填充:“Zoom-out”轨迹生成画面外区域,完成序列化出镜范围拓展。
总结与展望
总结
本文系统剖析了ReCamMaster通过帧维度视频条件注入、高质量多视角合成数据及高效训练策略,实现了单视频在新相机轨迹下的高保真再渲染。与现有方法相比,在视觉质量、相机精度与动态同步性方面均有显著提升,并且在视频稳定、超分辨、扩展填充等任务中具备可落地应用价值。
展望
- 计算效率优化:帧拼接策略带来更大计算开销,可尝试轻量化方案或可分层拼接减少内存占用;
- 真实数据融合:引入少量真实多视角视频微调,进一步缩小合成与真实域差距;
- 多模态可控:结合文本、语义或深度条件,实现更丰富的场景与运动控制。
代码实现
ReCamMaster仓库已开源。克隆后使用命令:
git clone https://github.com/KwaiVGI/ReCamMaster.git
cd ReCamMaster
pip install -r requirements.txt
主要目录:dataset/
(合成数据)、models/
(VAE与扩散)、train_utils/
(训练脚本)、inference/
(推理示例)。
关注下方《AI前沿速递》🚀🚀🚀
各种重磅干货,第一时间送达
码字不易,欢迎大家点赞评论收藏