【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion
PEEKABOO: Interactive Video Generation via Masked-Diffusion
-
原文摘要
-
研究背景与问题
-
现状:现代视频生成模型(如 Sora)已能生成高质量视频,但缺乏用户交互控制能力。
-
问题:交互控制是未来应用和创意表达的关键功能,但现有模型无法支持对生成视频的时空(spatio-temporal)内容进行灵活控制。
-
-
核心贡献
-
PEEKABOO 方法
-
一种新型的掩码注意力模块(masked attention module),可直接嵌入现有扩散模型(如 Sora 的底层架构),无需额外训练或增加计算开销。
-
功能:通过掩码机制实现对生成视频的空间(如物体位置)和时间(如运动时序)的精确控制。
-
-
交互式视频生成基准测试
- 提出首个标准化评测框架,用于评估交互控制视频生成模型的性能,推动领域研究。
-
性能优势
- 实验表明,PEEKABOO 在保持生成速度(延迟不变)的同时,mIoU(交并比均值,衡量控制精度)提升 3.8 倍,显著优于基线模型。
-
-
技术亮点
-
无需微调/额外计算:直接兼容现有模型,降低部署成本。
-
掩码注意力机制:通过动态掩码约束生成内容,实现用户指定的时空控制(例如:让物体在特定帧出现在特定位置)。
-
-
1. Introduction
1.1研究背景与现状
- 文本到视频生成的进展:近年来,基于生成模型(如 LDMs)的文本到视频(T2V)技术取得显著突破,能生成高质量、多样化的视频,为创意应用(如教育、广告)提供了新可能。
- 当前局限:现有模型虽能生成时序连贯的视频,但缺乏用户交互控制能力(如物体位置、运动轨迹的精确控制),且可能遗漏关键对象。
1.2 研究问题与挑战
- 核心问题:如何在不重新训练大规模预训练模型的前提下,实现视频生成的时空控制(spatio-temporal control)? –training-free
- 现有方法的不足:传统方法需微调模型或训练专用适配器,计算成本高,难以普及。
1.3 解决方案:PEEKABOO
- 即插即用设计:通过改进 UNet 中的空间/交叉/时序注意力机制,直接嵌入现有 T2V 模型,无需额外训练或显著增加推理开销。
- 局部上下文控制:利用局部而非全局上下文,实现对单个物体生成的精确控制(如通过掩码指定物体位置)。
1.4 贡献总结
- 方法创新:
- 首次实现零训练的交互式视频生成,支持时空与运动控制。
- 保持生成质量的同时,mIoU 提升 2.9×–3.8×(优于 ZeroScope 和 ModelScope)。
- 资源开放:
- 发布评测基准 SSv2-ST 和数据集 IMC
- 广泛验证:
- 在多个模型(T2V/T2I)和指标上验证普适性,并解决现有模型的失败案例(如漏生成主体对象)。
2. Related Work
2.1 视频生成(Video Generation)
1. 基于扩散模型的文本到视频生成
-
核心架构:
- 以 3D UNet 为基础,分解注意力层为 空间(spatial)、交叉(cross)和时序(temporal)注意力(如 Make-a-video )。
- 后续工作(延续了这一架构,但缺乏对生成内容的 时空控制(如物体位置、运动轨迹)。
-
局限性:现有模型依赖文本输入生成视频,但无法精确控制每一帧的空间布局或时间动态。
2. 时空控制方法的尝试
- 基于外部引导的方法:
- 使用 深度图(depth maps)、目标运动轨迹或多模态组合控制生成。
- 缺点:需重新训练基础模型或适配器,计算成本高且依赖对齐的时空标注数据。
- 零训练(Zero-training)方法:
- Text2Video-Zero:结合光流引导和图像模型生成时序连贯帧。
- ControlVideo:通过序列控制帧(如深度图、骨架图)调控视频运动。
- Free-Bloom:结合 LLM 和文生图模型生成连贯视频。
- 局限性:依赖特定图像模型,无法直接用于现成视频生成模型。
3. 与本文工作的对比
- 最接近的方法:利用 LLM 生成物体边界框坐标,结合现成视频模型和额外引导模块。
- 缺点:引入额外推理延迟,而本文方法(PEEKABOO)无需此开销。
2.2 可控文本到图像生成(Controllable Text-to-Image Generation)
1. 方法分类
- 基于训练的方法:需大量计算资源和标注数据,训练成本高。
- 无需训练的方法:通过能量函数引导扩散或掩码调整注意力图。
- 优势:避免微调,直接适配预训练模型。
2. 注意力引导技术
- Agarwal:最小化不同提示词的注意力图重叠,保持物体信息跨扩散步骤。
- Epstein:设计能量函数调控交叉注意力图,实现空间属性控制。
- Phung:优化噪声和分段注意力,确保注意力图准确表征物体。
- 缺点:基于优化的方法增加推理时间。
- Cao:阈值化交叉注意力图作为自注意力掩码,限制前景像素交互。
- 局限性:需多次扩散推理或输入源图像,仅支持姿态/动作控制。
3. 扩展到视频的挑战
- 视频的 时空复杂性 使得直接迁移图像控制方法困难。本文方法通过 掩码注意力模块 解决这一问题,实现高效时空控制。
3. Method
-
时空条件化(Spatio-temporal Conditioning)
-
问题:传统扩散模型将整个潜在变量 z t z_t zt 与全局条件(即文本条件) c c c 绑定,而交互式生成需要局部条件化(如物体位置、运动轨迹)。
-
解决方案:
- 将用户指定的时空条件(如掩码区域、文本描述)编码为 grounding pairs(时空体积 + 文本嵌入),作为交叉注意力层的上下文token。
- 受图像方法 GLIGEN 和 Flamingo 启发,但避免重新训练模型,直接利用冻结的扩散模型 f θ f_\theta fθ。
-
3.1 Masked Diffusion
- 灵感来源:借鉴分割任务(如 MaskFormer 和 Mask2Former)的掩码分类思想,将视频生成视为逆分割问题。
- 关键步骤:
- 局部上下文生成:将视频分解为 N N N 个区域,每个区域用二值掩码表示,独立生成物体。
- 掩码注意力机制:修改扩散模型中 Transformer 块的注意力计算,引入掩码自注意力(类似 ),限制注意力仅在掩码区域内生效。
- 全局合成:将局部生成的物体通过叠加或加权融合为完整视频帧
3.2 Masked spatio-temporal mixed attention
-
核心目标
- 通过用户提供的边界框(Bounding Box)生成二值掩码,在扩散模型的潜在空间中引导注意力计算,从而精确控制视频中物体的位置、大小和运动。
-
关键步骤
-
二值掩码生成与下采样
-
输入:用户指定视频中前景物体的边界框(如“狗的移动轨迹”)。
-
操作:
- 根据边界框创建二值掩码(Binary Mask),前景区域为1,背景为0。
- 将掩码下采样至扩散模型潜在空间(latent space)的尺寸,与模型内部特征图对齐。
-
-
块稀疏注意力掩码(Block Sparse Attention Mask)
-
设计原理:
-
通过**加性掩码(Additive Masking)**修改注意力分数,公式如下:
MaskedAttention ( Q , K , V , M ) = softmax ( Q K T + M ) V \text{MaskedAttention}(Q,K,V,M) = \text{softmax}(QK^T + M)V MaskedAttention(Q,K,V,M)=softmax(QKT+M)V -
掩码矩阵 ( M ) 的定义:
M [ i , j ] = { − ∞ if M [ i , j ] = 1 ( 需屏蔽的区域 ) 0 otherwise M[i,j] = \begin{cases} -\infty & \text{if } M[i,j]=1 \ (\text{需屏蔽的区域}) \\ 0 & \text{otherwise} \end{cases} M[i,j]={−∞0if M[i,j]=1 (需屏蔽的区域)otherwise -
作用:在需屏蔽的区域(如背景)施加极大负值( − ∞ -\infty −∞),使这些位置的注意力分数趋近于0,强制模型仅关注掩码指定的前景区域。
-
-
-
符号定义与约束
-
关键符号:
- l text l_{\text{text}} ltext:文本提示长度。
- l video l_{\text{video}} lvideo:视频帧数。
- mask f \text{mask}_f maskf:第 f f f 帧的输入掩码。
- fg ( ⋅ ) \text{fg}(\cdot) fg(⋅):判断函数,输入像素或文本token,返回1(前景)或0(背景)。
-
注意力约束:
- 引导前景token仅关注每帧中指定位置的像素,实现物体运动控制。
-
-
跨层注意力约束的不足
- 问题:仅约束交叉注意力层(Cross-Attention)无法完全控制空间生成,因为:
- 前景与背景像素在自注意力层(Self-Attention)中仍会交互。
- 需同时约束时空注意力(Spatio-Temporal Attention)以阻断无关区域的信息流动。
- 问题:仅约束交叉注意力层(Cross-Attention)无法完全控制空间生成,因为:
3.2.1 Masked Cross-Attention
-
功能
- 对齐文本描述与视频帧的局部区域,确保潜在变量(latents)仅关注与当前生成目标相关的文本标记。
-
实现细节
-
输入:
- 每帧的输入掩码 M i n p u t M_{input} Minput(二值矩阵,前景=1,背景=0)。
- 文本标记的类别标识 f g ( T j ) fg(T_j) fg(Tj)(判断第j个文本token是否描述前景物体)。
-
掩码公式:
M f C A [ i , j ] = f g ( M i n p u t [ i ] ) ⋅ f g ( T j ) + ( 1 − f g ( M i n p u t [ i ] ) ) ⋅ ( 1 − f g ( T j ) ) M^{CA}_f[i,j] = fg(M_{input}[i]) \cdot fg(T_j) + (1-fg(M_{input}[i])) \cdot (1-fg(T_j)) MfCA[i,j]=fg(Minput[i])⋅fg(Tj)+(1−fg(Minput[i]))⋅(1−fg(Tj))- 当像素i和文本tokenj同为前景或背景时,掩码值为1,否则无效。
-
-
作用:
- 强制潜在变量仅从相关文本token获取信息(如前景物体仅关注描述它的文本)。
-
示例
- 若文本提示为“狗在草地上”,掩码会确保“狗”区域的潜在变量只关注“狗”的文本嵌入,而“草地”区域关注“草地”的文本。
3.2.2 Masked Spatial Attention
-
功能
- 控制同一帧内不同空间区域的生成过程,避免前景与背景的相互干扰。
-
实现细节
-
输入:每帧的输入掩码 M i n p u t M_{input} Minput。
-
掩码公式:
M f S A [ i , j ] = f g ( M i n p u t [ i ] ) ⋅ f g ( M i n p u t [ j ] ) + ( 1 − f g ( M i n p u t [ i ] ) ) ⋅ ( 1 − f g ( M i n p u t [ j ] ) ) M^{SA}_f[i,j] = fg(M_{input}[i]) \cdot fg(M_{input}[j]) + (1-fg(M_{input}[i])) \cdot (1-fg(M_{input}[j])) MfSA[i,j]=fg(Minput[i])⋅fg(Minput[j])+(1−fg(Minput[i]))⋅(1−fg(Minput[j]))- 仅当像素i和j同属前景或背景时,才允许计算注意力。
-
作用:
- 初期生成阶段,隔离前景与背景的注意力交互,避免错误融合(如狗的身体混入草地纹理)。
- 后期逐步放松约束,实现自然过渡。
-
3.2.3 Masked Temporal Attention
-
功能
- 维持视频帧间的时间一致性,确保物体运动轨迹连贯。
-
实现细节
-
输入:所有帧对同一像素位置i的掩码状态。
-
掩码公式:
M i T A [ f , k ] = f g ( M i n p u t f [ i ] ) ⋅ f g ( M i n p u t k [ i ] ) + ( 1 − f g ( M i n p u t f [ i ] ) ) ⋅ ( 1 − f g ( M i n p u t k [ i ] ) ) M^{TA}_i[f,k] = fg(M_{input}^f[i]) \cdot fg(M_{input}^k[i]) + (1-fg(M_{input}^f[i])) \cdot (1-fg(M_{input}^k[i])) MiTA[f,k]=fg(Minputf[i])⋅fg(Minputk[i])+(1−fg(Minputf[i]))⋅(1−fg(Minputk[i]))- 仅当像素i在帧f和帧k中同为前景或背景时,才允许跨帧注意力交互。
-
-
作用:
- 前景物体(如狗)的运动轨迹仅受自身历史位置影响,不受背景变化干扰。
- 背景区域(如天空)保持静态或渐变,避免闪烁。
-
3.3 Zero-training Pipeline
-
核心思想:掩码注意力(Masked Attention)
-
PEEKABOO 的核心创新在于修改扩散模型的注意力机制,使其在去噪过程中仅关注用户指定的区域(如前景物体),而忽略无关背景。这一过程分为两个阶段:
-
约束生成阶段(前 t 步):强制前景和背景像素互不干扰,确保物体位置和运动轨迹严格遵循用户输入。
-
自由生成阶段(t 步后):解除掩码限制,让模型自然融合全局信息,使前景和背景无缝衔接。
-
-
这一机制类似于“躲猫猫”游戏(PEEKABOO):
-
早期阶段:前景和背景“互相看不见”,确保物体生成位置准确。
-
后期阶段:解除限制,让它们“互相看见”,实现自然融合。
-
-
-
技术实现
-
PEEKABOO 直接修改 3D UNet 的注意力层(包括空间、时间和交叉注意力),无需额外训练:
-
输入:用户提供的二值掩码(binary mask),标记前景(1)和背景(0)。
-
掩码计算:
- 在空间注意力(Spatial Attention)中,前景像素仅关注其他前景像素,背景同理。
- 在时间注意力(Temporal Attention)中,物体的运动轨迹仅参考自身在其他帧的位置。
- 在交叉注意力(Cross-Attention)中,文本描述仅影响对应的生成区域(如“狗”的文本仅作用于前景掩码区域)。
-
分阶段去噪
-
约束阶段(前 t 步):
- 使用掩码强制前景和背景独立生成,避免错误融合(如背景纹理污染前景物体)。
- 确保物体位置、大小和运动轨迹严格遵循用户输入。
-
自由阶段(t 步后):
- 移除掩码限制,让模型全局优化,使前景和背景自然融合。
- 避免生成结果过于僵硬(如物体边缘不自然)。
-
-
-
低计算开销
-
无需额外扩散步数:PEEKABOO 仅需少量约束步数(实验显示 t ≤ 5 步即可),不增加总推理时间。
-
即插即用:直接应用于现有扩散模型(如 Stable Diffusion Video),无需微调或额外训练数据。
-
4. Experiment
-
实验目标
-
验证时空控制能力:评估 PEEKABOO 能否精确生成用户指定位置和运动的物体。
-
对比生成质量:与基线模型比较,证明掩码控制能提升视频质量。
-
消融实验:分析各组件(如掩码注意力、分阶段生成)的影响。
-
-
数据集
-
SSv2-ST(Something-Something v2-Spatio-Temporal)
- 来源:真实动作视频,包含 295 个(提示词,掩码)对。
- 用途:测试模型在真实场景下的时空控制能力。
-
IMC(Interactive Motion Control)
-
人工标注的 102 个(提示词,边界框)对,覆盖不同物体类型、大小和运动模式。
-
模拟用户交互输入,测试生成灵活性。
-
-
LaSOT(Large-scale Single Object Tracking)
-
从目标跟踪数据集中提取 450 个视频片段,覆盖 70 类物体。
-
评估模型对复杂运动的控制能力。
-
-
DAVIS-16
-
视频分割数据集,提供 40 个(提示词,掩码)对。
-
测试模型对精细边缘和动态背景的处理能力。
-
-
-
实验设置
-
基线模型:ZeroScope 和 ModelScope(默认参数,无额外微调)。
-
评估方法:
- 覆盖率(Coverage):检测生成视频中物体出现的帧比例(>50% 帧有物体视为有效)。
- mIoU(平均交并比):比较生成物体与输入掩码的重合度。
- AP@50(平均精度):检测边界框与输入掩码的匹配精度。
- 质心距离(CD):生成物体中心与目标中心的偏移距离(归一化到 0-1)。
-
-
主要结果
-
时空控制能力
- PEEKABOO 在 mIoU 上比基线模型提升 2.5倍,证明其能精确匹配用户指定的物体位置和形状。
- AP@50 显著提高,表明生成物体的边界框更接近输入掩码。
- 质心距离(CD) 更低,说明物体位置控制更准确。
-
生成质量
-
覆盖率 高于基线模型,表明 PEEKABOO 能生成更多有效视频(避免物体丢失)。
-
定性实验显示,掩码控制能减少背景干扰,提升前景物体的清晰度。
-
-
效率对比
- PEEKABOO 不增加推理时间(与基线模型相同),而其他方法(如 LLM-VD)会导致 2.2 倍延迟。
-
-
消融实验
-
掩码步数(t)的影响:实验表明,仅需 5 步掩码约束 即可实现最佳控制,后续自由生成阶段保证自然融合。
-
注意力模块的作用:移除任一掩码注意力(空间/时间/交叉)均会导致 mIoU 下降,验证了三者协同的必要性。
-
结论
-
PEEKABOO 通过掩码注意力机制和分阶段生成策略,在 无需训练 的前提下实现了:
-
像素级时空控制(mIoU 提升 2.5 倍)。
-
高质量生成(覆盖率更高,物体更清晰)。
-
零计算开销(推理速度与原始模型一致)。
-
-
-