当前位置：首页 > news >正文

ICCV 2025｜可灵团队新作 ReCamMaster：从单视频到多视角生成，多角度看好莱坞大片

news 2025/8/5 7:32:24

导读

2025年7月，Kuaishou Technology团队发布了论文《ReCamMaster: Camera-Controlled Generative Rendering from A Single Video》——一种利用预训练文本到视频模型，通过巧妙的视频注入机制和高质量多摄像机同步数据集，实现对单条视频动态场景进行新相机轨迹下再渲染的创新框架。本文结合业界现状，深入浅出地阐述相机运动在视频创作中的重要性，梳理传统视频生成与可控视频生成任务的发展脉络，并剖析ReCamMaster在数据构建、条件注入、训练策略等方面的核心技术亮点。
author

论文基本信息

论文标题：ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
作者：Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
作者单位：浙江大学; 快手科技Kling团队; 香港中文大学; 华中科技大学
发布时间：2025年7月9日
论文来源：https://arxiv.org/abs/2503.11647
代码与数据集：https://github.com/KwaiVGI/ReCamMaster

点击阅读原文，获取更多前沿咨询

摘要

ReCamMaster提出了一种基于单条输入视频，生成新相机轨迹下再渲染目标视频的生成框架。核心在于将源视频和目标视频的潜在表示按帧维度拼接，充分利用Transformer跨帧-跨空间的自注意力机制，通过简单而高效的视频条件注入，重用预训练文本到视频模型的强大生成能力。为弥补真实视频多视角数据稀缺，作者使用Unreal Engine 5构建了136K条多摄像机同步视频，覆盖40个高质量三维场景和122K种相机运动轨迹，并设计多种训练策略（噪声调度、T2V/I2V联合训练、仅微调3D注意力层等）提升模型对“野外”视频的泛化。实验包含与GCD、Trajectory-Attention、DaS等方法在视觉质量、相机精度与源-目标同步性上的量化对比，以及消融研究与实际任务验证，全面展示ReCamMaster在视频稳定、超分辨与扩展填充等应用中的潜力。

研究背景及相关工作

研究背景

相机运动是影视制作的灵魂元素，通过镜头推拉、俯仰、轨道等手法对观众关注点、情绪和叙事节奏施加微妙影响。然而，业余视频爱好者往往因硬件抖动、拍摄视角受限，难以获得专业级相机运动效果。近年来，随着文本到视频（T2V）及图像到视频（I2V）扩散模型的兴起，研究者开始尝试将相机参数合入生成模型，实现可控视频合成。但大多数方法依赖模拟环境数据、摄像机同步多视角或优化过高，难以在真实视频上大规模应用。

主要贡献

ReCamMaster的核心创新及贡献可归纳如下：

高质量多视角合成数据集：基于Unreal Engine 5自动化渲染136K条同步视频，涵盖40个3D环境、13.6K动态场景与122K相机轨迹，实现像真实拍摄般的多样性与同步性，有效弥补真实多视角数据不足。
帧维度条件注入机制：首次提出将源视频与目标视频的潜在表示在帧维度展开拼接，无需额外注意力模块即可通过Transformer自注意力层完成时空信息交互，显著优于通道维度和视图维度拼接策略。
灵活高效训练策略：仅微调3D注意力层并结合噪声调度、T2V与I2V联合训练，在保持预训练模型能力的基础上提升泛化；支持多任务（T2V、I2V、V2V）训练而无需额外优化。
全面实验与实际应用：在WebVid测试集与VBench指标下，与GCD、Trajectory-Attention、DaS等最先进方法对比，ReCamMaster在FID、FVD、RotErr、Mat.Pix.等指标上均有大幅提升；并展示在视频稳定、超分与扩展填充等场景的创新应用。

研究方法与基本原理

问题定义与总体架构

给定源视频 $V_s∈Rf×c×h×wV\_s\in\mathbb{R}^{f\times c\times h\times w}$ 和目标相机序列 $camt∈Rf×3×4camt\in\mathbb{R}^{f\times3\times4}$ ，ReCamMaster旨在生成目标视频 $V_t$ ，既保持源视频动态场景一致，又遵循新轨迹视觉效果。总体框架基于预训练文本到视频潜在扩散模型，由3D VAE编码器 $E\mathcal{E}$ 、Transformer扩散主干与3D VAE解码器 $D\mathcal{D}$ 组成，如图中所示。

Overview of ReCamMaster.

帧维度视频条件注入

以往方法在通道或视图维度拼接源-目标潜在表示，导致时空信息难以充分交互。ReCamMaster将 $zs=E(Vs),zt=E(Vt)z_s=\mathcal{E}(V_s), z_t=\mathcal{E}(V_t)$ token化后，沿帧维度拼接：
$x=[patchify(zs),patchify(zt)]frame∈Rb×2f×s×dx=[\mathrm{patchify}(z_s),\mathrm{patchify}(z_t)]_{frame}\in\mathbb{R}^{b\times2f\times s\times d}$
无需额外视图注意力层，通过Transformer自注意力即可实现跨帧跨空间信息融合，在多种复杂运动场景下均保持同步与一致。实验证明帧拼接在FID、Mat.Pix.等指标上显著优于其他注入方式。

相机位姿注入

仅在Transformer每层的3D注意力前融入目标相机外参，通过线性编码器 $E_c$ 将 $3×43\times4$ 矩阵映射为 $d$ 维特征并加到视觉特征上：
$F_i=F_o+E_c(camt)$
在推理阶段覆盖真实视频时仅需估计目标外参，无需提供源视频外参或内参，易于实用。

数据集构建

采用Unreal Engine 5，在40个真实感3D环境中放置多主体动画和多摄像机，自动化批量生成13.6K动态场景下122K条自然相机轨迹，最终获得136K条时序同步视频用于训练。

Illustration of the dataset construction process.

训练策略

仅微调3D注意力层：冻结VAE和Transformer其他模块，保留预训练能力。
视频潜在噪声调度：在200-500步噪声内对条件源视频latent施加噪声，减小合成与真实分布差距。
T2V/I2V联合任务：20%概率全帧噪声生成T2V，20%概率除首帧外噪声生成I2V，提高可见性增强与场景补全能力。

论文正文

实验设置与评价指标

训练配置：384×672分辨率，批量40，学习率1e-4，训练1万步。
评价指标：视觉质量（FID、FVD、CLIP-T/F）、相机精度（RotErr、TransErr）、视图同步（Mat.Pix.、FVD-V、CLIP-V）、VBench综合。
测试集：1000条WebVid视频，10种基础相机轨迹。

与最先进方法对比

Table 1显示，在FID(↓57.10 vs 63.25/69.21/72.83)、FVD(↓122.74)、RotErr(↓1.22)等指标上全面领先；Mat.Pix.(↑906.03)和CLIP-V(↑90.36)体现优秀同步性。VBench结果同样表明ReCamMaster在美学、成像质量和背景一致性方面优于GCD、Trajectory-Attention和DaS。

消融研究

注入方式对比：Channel、View、Frame三种方案对比，Frame拼接在视觉质量与同步性上优势明显（FID从74.09→57.10，Mat.Pix.从521.10K→906.03K）。
训练策略有效性：逐步添加噪声调度、3D注意力微调与丢帧策略使FID从66.67降至57.10，Aesthetic Quality提升2.68点。

实际应用示例

视频稳定：对DeepStab抖动视频输入平滑轨迹，即可获得稳定效果。
局部超分辨：输入“Zoom-in”参数实现中心区域细节增强。
视频扩展填充：“Zoom-out”轨迹生成画面外区域，完成序列化出镜范围拓展。

Applications of ReCamMaster.

总结与展望

总结

本文系统剖析了ReCamMaster通过帧维度视频条件注入、高质量多视角合成数据及高效训练策略，实现了单视频在新相机轨迹下的高保真再渲染。与现有方法相比，在视觉质量、相机精度与动态同步性方面均有显著提升，并且在视频稳定、超分辨、扩展填充等任务中具备可落地应用价值。

展望

计算效率优化：帧拼接策略带来更大计算开销，可尝试轻量化方案或可分层拼接减少内存占用；
真实数据融合：引入少量真实多视角视频微调，进一步缩小合成与真实域差距；
多模态可控：结合文本、语义或深度条件，实现更丰富的场景与运动控制。

代码实现

ReCamMaster仓库已开源。克隆后使用命令：

git clone https://github.com/KwaiVGI/ReCamMaster.git
cd ReCamMaster
pip install -r requirements.txt

主要目录：dataset/（合成数据）、models/（VAE与扩散）、train_utils/（训练脚本）、inference/（推理示例）。

关注下方《AI前沿速递》🚀🚀🚀
各种重磅干货，第一时间送达
码字不易，欢迎大家点赞评论收藏

查看全文

http://www.dtcms.com/a/314329.html

socket与udp

折叠屏网页布局挑战：响应式设计在工业平板与PC端的弹性适配策略

【Mac】OrbStack：桌面端虚拟机配置与使用

LeetCode 140：单词拆分 II

【MySQL03】：MySQL约束

mac 技巧

零售消费行业研究系列报告

Java-基础-统计投票信息

Linux下载安装mysql，客户端（Navicat）连接Linux中的mysql

allegro建库--1

【Redis】移动设备离线通知推送全流程实现：系统推送服务与Redis的协同应用

模型学习系列之考试

机器学习（8）：线性回归

基于落霞归雁思维框架的自动化测试实践与探索

OpenLayers 入门指南【五】：Map 容器

Unity发布Android平台实现网页打开应用并传参

如何查看 iOS 电池与电耗：入门指南与实战工具推荐

期权投资盈利之道书籍推荐

Codeforces Round 1008 (Div. 2)

Chrontel【CH7214C-BF】CH7214C USB Type C Logic Controller

【Java线程池深入解析：从入门到精通】

Memcached 缓存详解及常见问题解决方案

【深度学习新浪潮】近三年城市级数字孪生的研究进展一览

【音视频】WebRTC 一对一通话-实现概述

使用vue缓存机制缓存整个项目的时候静态的一些操作也变的很卡，解决办法~超快超简单~

深入剖析RT-Thread串口驱动：基于STM32H750的FinSH Shell全链路Trace分析与实战解密(上)

Back to the Features:附录C Unconditional world model evaluations

第四十一节 MATLAB GNU Octave教程

第四十五章：AI模型的“灵魂契约”：GGUF权重到PyTorch结构极致适配

Nginx vs Spring Cloud Gateway：限流功能深度对比与实践指南

导读