当前位置：首页 > news >正文

【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion

news 2025/7/3 21:10:56

PEEKABOO: Interactive Video Generation via Masked-Diffusion

原文摘要
- 研究背景与问题
  - 现状：现代视频生成模型（如 Sora）已能生成高质量视频，但缺乏用户交互控制能力。
  - 问题：交互控制是未来应用和创意表达的关键功能，但现有模型无法支持对生成视频的时空（spatio-temporal）内容进行灵活控制。
- 核心贡献
  1. PEEKABOO 方法
    - 一种新型的掩码注意力模块（masked attention module），可直接嵌入现有扩散模型（如 Sora 的底层架构），无需额外训练或增加计算开销。
    - 功能：通过掩码机制实现对生成视频的空间（如物体位置）和时间（如运动时序）的精确控制。
  2. 交互式视频生成基准测试
    - 提出首个标准化评测框架，用于评估交互控制视频生成模型的性能，推动领域研究。
  3. 性能优势
    - 实验表明，PEEKABOO 在保持生成速度（延迟不变）的同时，mIoU（交并比均值，衡量控制精度）提升 3.8 倍，显著优于基线模型。
- 技术亮点
  - 无需微调/额外计算：直接兼容现有模型，降低部署成本。
  - 掩码注意力机制：通过动态掩码约束生成内容，实现用户指定的时空控制（例如：让物体在特定帧出现在特定位置）。

1. Introduction

1.1研究背景与现状

文本到视频生成的进展：近年来，基于生成模型（如 LDMs）的文本到视频（T2V）技术取得显著突破，能生成高质量、多样化的视频，为创意应用（如教育、广告）提供了新可能。
当前局限：现有模型虽能生成时序连贯的视频，但缺乏用户交互控制能力（如物体位置、运动轨迹的精确控制），且可能遗漏关键对象。

1.2 研究问题与挑战

核心问题：如何在不重新训练大规模预训练模型的前提下，实现视频生成的时空控制（spatio-temporal control）？ –training-free
现有方法的不足：传统方法需微调模型或训练专用适配器，计算成本高，难以普及。

1.3 解决方案：PEEKABOO

即插即用设计：通过改进 UNet 中的空间/交叉/时序注意力机制，直接嵌入现有 T2V 模型，无需额外训练或显著增加推理开销。
局部上下文控制：利用局部而非全局上下文，实现对单个物体生成的精确控制（如通过掩码指定物体位置）。

1.4 贡献总结

方法创新：
- 首次实现零训练的交互式视频生成，支持时空与运动控制。
- 保持生成质量的同时，mIoU 提升 2.9×–3.8×（优于 ZeroScope 和 ModelScope）。
资源开放：
- 发布评测基准 SSv2-ST 和数据集 IMC
广泛验证：
- 在多个模型（T2V/T2I）和指标上验证普适性，并解决现有模型的失败案例（如漏生成主体对象）。

2. Related Work

2.1 视频生成（Video Generation）

1. 基于扩散模型的文本到视频生成

核心架构：
- 以 3D UNet 为基础，分解注意力层为 空间（spatial）、交叉（cross）和时序（temporal）注意力（如 Make-a-video ）。
- 后续工作（延续了这一架构，但缺乏对生成内容的 时空控制（如物体位置、运动轨迹）。
局限性：现有模型依赖文本输入生成视频，但无法精确控制每一帧的空间布局或时间动态。

2. 时空控制方法的尝试

基于外部引导的方法：
- 使用 深度图（depth maps）、目标运动轨迹或多模态组合控制生成。
- 缺点：需重新训练基础模型或适配器，计算成本高且依赖对齐的时空标注数据。
零训练（Zero-training）方法：
- Text2Video-Zero：结合光流引导和图像模型生成时序连贯帧。
- ControlVideo：通过序列控制帧（如深度图、骨架图）调控视频运动。
- Free-Bloom：结合 LLM 和文生图模型生成连贯视频。
- 局限性：依赖特定图像模型，无法直接用于现成视频生成模型。

3. 与本文工作的对比

最接近的方法：利用 LLM 生成物体边界框坐标，结合现成视频模型和额外引导模块。
- 缺点：引入额外推理延迟，而本文方法（PEEKABOO）无需此开销。

2.2 可控文本到图像生成（Controllable Text-to-Image Generation）

1. 方法分类

基于训练的方法：需大量计算资源和标注数据，训练成本高。
无需训练的方法：通过能量函数引导扩散或掩码调整注意力图。
- 优势：避免微调，直接适配预训练模型。

2. 注意力引导技术

Agarwal：最小化不同提示词的注意力图重叠，保持物体信息跨扩散步骤。
Epstein：设计能量函数调控交叉注意力图，实现空间属性控制。
Phung：优化噪声和分段注意力，确保注意力图准确表征物体。
- 缺点：基于优化的方法增加推理时间。
Cao：阈值化交叉注意力图作为自注意力掩码，限制前景像素交互。
- 局限性：需多次扩散推理或输入源图像，仅支持姿态/动作控制。

3. 扩展到视频的挑战

视频的 时空复杂性 使得直接迁移图像控制方法困难。本文方法通过 掩码注意力模块 解决这一问题，实现高效时空控制。

3. Method

时空条件化（Spatio-temporal Conditioning）
- 问题：传统扩散模型将整个潜在变量 $z_t$ 与全局条件（即文本条件） $c$ 绑定，而交互式生成需要局部条件化（如物体位置、运动轨迹）。
- 解决方案：
  - 将用户指定的时空条件（如掩码区域、文本描述）编码为 grounding pairs（时空体积 + 文本嵌入），作为交叉注意力层的上下文token。
  - 受图像方法 GLIGEN 和 Flamingo 启发，但避免重新训练模型，直接利用冻结的扩散模型 $f_\theta$ 。

3.1 Masked Diffusion

灵感来源：借鉴分割任务（如 MaskFormer 和 Mask2Former）的掩码分类思想，将视频生成视为逆分割问题。
关键步骤：
1. 局部上下文生成：将视频分解为 $N$ 个区域，每个区域用二值掩码表示，独立生成物体。
2. 掩码注意力机制：修改扩散模型中 Transformer 块的注意力计算，引入掩码自注意力（类似），限制注意力仅在掩码区域内生效。
3. 全局合成：将局部生成的物体通过叠加或加权融合为完整视频帧

3.2 Masked spatio-temporal mixed attention

核心目标
- 通过用户提供的边界框（Bounding Box）生成二值掩码，在扩散模型的潜在空间中引导注意力计算，从而精确控制视频中物体的位置、大小和运动。
关键步骤
1. 二值掩码生成与下采样
  - 输入：用户指定视频中前景物体的边界框（如“狗的移动轨迹”）。
  - 操作：
    - 根据边界框创建二值掩码（Binary Mask），前景区域为1，背景为0。
    - 将掩码下采样至扩散模型潜在空间（latent space）的尺寸，与模型内部特征图对齐。
2. 块稀疏注意力掩码（Block Sparse Attention Mask）
  - 设计原理：
    - 通过**加性掩码（Additive Masking）**修改注意力分数，公式如下：
      $\text{MaskedAttention}(Q,K,V,M) = \text{softmax}(QK^T + M)V$
    - 掩码矩阵 ( M ) 的定义：
      $\begin{cases} -\infty & \text{if } M[i,j]=1 \ (\text{需屏蔽的区域}) \\ 0 & \text{otherwise} \end{cases}$
    - 作用：在需屏蔽的区域（如背景）施加极大负值（ $-\infty$ ），使这些位置的注意力分数趋近于0，强制模型仅关注掩码指定的前景区域。
3. 符号定义与约束
  - 关键符号：
    - $l_{\text{text}}$ ：文本提示长度。
    - $l_{\text{video}}$ ：视频帧数。
    - $\text{mask}_f$ ：第 $f$ 帧的输入掩码。
    - $\text{fg}(\cdot)$ ：判断函数，输入像素或文本token，返回1（前景）或0（背景）。
  - 注意力约束：
    - 引导前景token仅关注每帧中指定位置的像素，实现物体运动控制。
4. 跨层注意力约束的不足
  - 问题：仅约束交叉注意力层（Cross-Attention）无法完全控制空间生成，因为：
    - 前景与背景像素在自注意力层（Self-Attention）中仍会交互。
    - 需同时约束时空注意力（Spatio-Temporal Attention）以阻断无关区域的信息流动。
3.2.1 Masked Cross-Attention
- 功能
  - 对齐文本描述与视频帧的局部区域，确保潜在变量（latents）仅关注与当前生成目标相关的文本标记。
- 实现细节
  - 输入：
    - 每帧的输入掩码 $M_{input}$ （二值矩阵，前景=1，背景=0）。
    - 文本标记的类别标识 $fg(T_j)$ （判断第j个文本token是否描述前景物体）。
  - 掩码公式：
    $M^{CA}_f[i,j] = fg(M_{input}[i]) \cdot fg(T_j) + (1-fg(M_{input}[i])) \cdot (1-fg(T_j))$
    - 当像素i和文本tokenj同为前景或背景时，掩码值为1，否则无效。
- 作用：
  - 强制潜在变量仅从相关文本token获取信息（如前景物体仅关注描述它的文本）。
- 示例
  - 若文本提示为“狗在草地上”，掩码会确保“狗”区域的潜在变量只关注“狗”的文本嵌入，而“草地”区域关注“草地”的文本。
3.2.2 Masked Spatial Attention
- 功能
  - 控制同一帧内不同空间区域的生成过程，避免前景与背景的相互干扰。
- 实现细节
  - 输入：每帧的输入掩码 $M_{input}$ 。
  - 掩码公式：
    $M^{SA}_f[i,j] = fg(M_{input}[i]) \cdot fg(M_{input}[j]) + (1-fg(M_{input}[i])) \cdot (1-fg(M_{input}[j]))$
    - 仅当像素i和j同属前景或背景时，才允许计算注意力。
  - 作用：
    - 初期生成阶段，隔离前景与背景的注意力交互，避免错误融合（如狗的身体混入草地纹理）。
    - 后期逐步放松约束，实现自然过渡。
3.2.3 Masked Temporal Attention
- 功能
  - 维持视频帧间的时间一致性，确保物体运动轨迹连贯。
- 实现细节
  - 输入：所有帧对同一像素位置i的掩码状态。
  - 掩码公式：
    $M^{TA}_i[f,k] = fg(M_{input}^f[i]) \cdot fg(M_{input}^k[i]) + (1-fg(M_{input}^f[i])) \cdot (1-fg(M_{input}^k[i]))$
    - 仅当像素i在帧f和帧k中同为前景或背景时，才允许跨帧注意力交互。
- 作用：
  - 前景物体（如狗）的运动轨迹仅受自身历史位置影响，不受背景变化干扰。
  - 背景区域（如天空）保持静态或渐变，避免闪烁。

3.3 Zero-training Pipeline

核心思想：掩码注意力（Masked Attention）
- PEEKABOO 的核心创新在于修改扩散模型的注意力机制，使其在去噪过程中仅关注用户指定的区域（如前景物体），而忽略无关背景。这一过程分为两个阶段：
  1. 约束生成阶段（前 t 步）：强制前景和背景像素互不干扰，确保物体位置和运动轨迹严格遵循用户输入。
  2. 自由生成阶段（t 步后）：解除掩码限制，让模型自然融合全局信息，使前景和背景无缝衔接。
- 这一机制类似于“躲猫猫”游戏（PEEKABOO）：
  - 早期阶段：前景和背景“互相看不见”，确保物体生成位置准确。
  - 后期阶段：解除限制，让它们“互相看见”，实现自然融合。
技术实现
- PEEKABOO 直接修改 3D UNet 的注意力层（包括空间、时间和交叉注意力），无需额外训练：
- 输入：用户提供的二值掩码（binary mask），标记前景（1）和背景（0）。
- 掩码计算：
  - 在空间注意力（Spatial Attention）中，前景像素仅关注其他前景像素，背景同理。
  - 在时间注意力（Temporal Attention）中，物体的运动轨迹仅参考自身在其他帧的位置。
  - 在交叉注意力（Cross-Attention）中，文本描述仅影响对应的生成区域（如“狗”的文本仅作用于前景掩码区域）。
- 分阶段去噪
  - 约束阶段（前 t 步）：
    - 使用掩码强制前景和背景独立生成，避免错误融合（如背景纹理污染前景物体）。
    - 确保物体位置、大小和运动轨迹严格遵循用户输入。
  - 自由阶段（t 步后）：
    - 移除掩码限制，让模型全局优化，使前景和背景自然融合。
    - 避免生成结果过于僵硬（如物体边缘不自然）。
低计算开销
- 无需额外扩散步数：PEEKABOO 仅需少量约束步数（实验显示 t ≤ 5 步即可），不增加总推理时间。
- 即插即用：直接应用于现有扩散模型（如 Stable Diffusion Video），无需微调或额外训练数据。

4. Experiment

实验目标
1. 验证时空控制能力：评估 PEEKABOO 能否精确生成用户指定位置和运动的物体。
2. 对比生成质量：与基线模型比较，证明掩码控制能提升视频质量。
3. 消融实验：分析各组件（如掩码注意力、分阶段生成）的影响。
数据集
1. SSv2-ST（Something-Something v2-Spatio-Temporal）
  - 来源：真实动作视频，包含 295 个（提示词，掩码）对。
  - 用途：测试模型在真实场景下的时空控制能力。
2. IMC（Interactive Motion Control）
  - 人工标注的 102 个（提示词，边界框）对，覆盖不同物体类型、大小和运动模式。
  - 模拟用户交互输入，测试生成灵活性。
3. LaSOT（Large-scale Single Object Tracking）
  - 从目标跟踪数据集中提取 450 个视频片段，覆盖 70 类物体。
  - 评估模型对复杂运动的控制能力。
4. DAVIS-16
  - 视频分割数据集，提供 40 个（提示词，掩码）对。
  - 测试模型对精细边缘和动态背景的处理能力。
实验设置
- 基线模型：ZeroScope 和 ModelScope（默认参数，无额外微调）。
- 评估方法：
  1. 覆盖率（Coverage）：检测生成视频中物体出现的帧比例（>50% 帧有物体视为有效）。
  2. mIoU（平均交并比）：比较生成物体与输入掩码的重合度。
  3. AP@50（平均精度）：检测边界框与输入掩码的匹配精度。
  4. 质心距离（CD）：生成物体中心与目标中心的偏移距离（归一化到 0-1）。
主要结果
1. 时空控制能力
  - PEEKABOO 在 mIoU 上比基线模型提升 2.5倍，证明其能精确匹配用户指定的物体位置和形状。
  - AP@50 显著提高，表明生成物体的边界框更接近输入掩码。
  - 质心距离（CD） 更低，说明物体位置控制更准确。
2. 生成质量
  - 覆盖率 高于基线模型，表明 PEEKABOO 能生成更多有效视频（避免物体丢失）。
  - 定性实验显示，掩码控制能减少背景干扰，提升前景物体的清晰度。
3. 效率对比
  - PEEKABOO 不增加推理时间（与基线模型相同），而其他方法（如 LLM-VD）会导致 2.2 倍延迟。
消融实验
- 掩码步数（t）的影响：实验表明，仅需 5 步掩码约束 即可实现最佳控制，后续自由生成阶段保证自然融合。
- 注意力模块的作用：移除任一掩码注意力（空间/时间/交叉）均会导致 mIoU 下降，验证了三者协同的必要性。
- 结论
  - PEEKABOO 通过掩码注意力机制和分阶段生成策略，在 无需训练 的前提下实现了：
    1. 像素级时空控制（mIoU 提升 2.5 倍）。
    2. 高质量生成（覆盖率更高，物体更清晰）。
    3. 零计算开销（推理速度与原始模型一致）。