当前位置: 首页 > news >正文

【论文阅读】PEEKABOO: Interactive Video Generation via Masked-Diffusion

PEEKABOO: Interactive Video Generation via Masked-Diffusion

  • 原文摘要

    • 研究背景与问题

      • 现状:现代视频生成模型(如 Sora)已能生成高质量视频,但缺乏用户交互控制能力。

      • 问题:交互控制是未来应用和创意表达的关键功能,但现有模型无法支持对生成视频的时空(spatio-temporal)内容进行灵活控制。

    • 核心贡献

      1. PEEKABOO 方法

        • 一种新型的掩码注意力模块(masked attention module),可直接嵌入现有扩散模型(如 Sora 的底层架构),无需额外训练或增加计算开销。

        • 功能:通过掩码机制实现对生成视频的空间(如物体位置)和时间(如运动时序)的精确控制

      2. 交互式视频生成基准测试

        • 提出首个标准化评测框架,用于评估交互控制视频生成模型的性能,推动领域研究。
      3. 性能优势

        • 实验表明,PEEKABOO 在保持生成速度(延迟不变)的同时,mIoU(交并比均值,衡量控制精度)提升 3.8 倍,显著优于基线模型。
    • 技术亮点

      • 无需微调/额外计算:直接兼容现有模型,降低部署成本。

      • 掩码注意力机制:通过动态掩码约束生成内容,实现用户指定的时空控制(例如:让物体在特定帧出现在特定位置)。

1. Introduction

1.1研究背景与现状

  • 文本到视频生成的进展:近年来,基于生成模型(如 LDMs)的文本到视频(T2V)技术取得显著突破,能生成高质量、多样化的视频,为创意应用(如教育、广告)提供了新可能。
  • 当前局限:现有模型虽能生成时序连贯的视频,但缺乏用户交互控制能力(如物体位置、运动轨迹的精确控制),且可能遗漏关键对象。

1.2 研究问题与挑战

  • 核心问题:如何在不重新训练大规模预训练模型的前提下,实现视频生成的时空控制(spatio-temporal control)? –training-free
  • 现有方法的不足:传统方法需微调模型或训练专用适配器,计算成本高,难以普及。

1.3 解决方案:PEEKABOO

  • 即插即用设计:通过改进 UNet 中的空间/交叉/时序注意力机制,直接嵌入现有 T2V 模型,无需额外训练或显著增加推理开销。
  • 局部上下文控制:利用局部而非全局上下文,实现对单个物体生成的精确控制(如通过掩码指定物体位置)。

1.4 贡献总结

  1. 方法创新
    • 首次实现零训练的交互式视频生成,支持时空与运动控制。
    • 保持生成质量的同时,mIoU 提升 2.9×–3.8×(优于 ZeroScope 和 ModelScope)。
  2. 资源开放
    • 发布评测基准 SSv2-ST 和数据集 IMC
  3. 广泛验证
    • 在多个模型(T2V/T2I)和指标上验证普适性,并解决现有模型的失败案例(如漏生成主体对象)。

2. Related Work

2.1 视频生成(Video Generation)

1. 基于扩散模型的文本到视频生成
  • 核心架构

    • 3D UNet 为基础,分解注意力层为 空间(spatial)、交叉(cross)和时序(temporal)注意力(如 Make-a-video )。
    • 后续工作(延续了这一架构,但缺乏对生成内容的 时空控制(如物体位置、运动轨迹)。
  • 局限性:现有模型依赖文本输入生成视频,但无法精确控制每一帧的空间布局或时间动态。

2. 时空控制方法的尝试
  • 基于外部引导的方法
    • 使用 深度图(depth maps)目标运动轨迹或多模态组合控制生成。
    • 缺点:需重新训练基础模型或适配器,计算成本高且依赖对齐的时空标注数据。
  • 零训练(Zero-training)方法
    • Text2Video-Zero:结合光流引导和图像模型生成时序连贯帧。
    • ControlVideo:通过序列控制帧(如深度图、骨架图)调控视频运动。
    • Free-Bloom:结合 LLM 和文生图模型生成连贯视频。
    • 局限性:依赖特定图像模型,无法直接用于现成视频生成模型。
3. 与本文工作的对比
  • 最接近的方法:利用 LLM 生成物体边界框坐标,结合现成视频模型和额外引导模块。
    • 缺点:引入额外推理延迟,而本文方法(PEEKABOO)无需此开销。

2.2 可控文本到图像生成(Controllable Text-to-Image Generation)

1. 方法分类
  • 基于训练的方法:需大量计算资源和标注数据,训练成本高。
  • 无需训练的方法:通过能量函数引导扩散或掩码调整注意力图。
    • 优势:避免微调,直接适配预训练模型。
2. 注意力引导技术
  • Agarwal:最小化不同提示词的注意力图重叠,保持物体信息跨扩散步骤。
  • Epstein:设计能量函数调控交叉注意力图,实现空间属性控制。
  • Phung:优化噪声和分段注意力,确保注意力图准确表征物体。
    • 缺点:基于优化的方法增加推理时间。
  • Cao:阈值化交叉注意力图作为自注意力掩码,限制前景像素交互。
    • 局限性:需多次扩散推理或输入源图像,仅支持姿态/动作控制。
3. 扩展到视频的挑战
  • 视频的 时空复杂性 使得直接迁移图像控制方法困难。本文方法通过 掩码注意力模块 解决这一问题,实现高效时空控制。

3. Method

  • 时空条件化(Spatio-temporal Conditioning)

    • 问题:传统扩散模型将整个潜在变量 z t z_t zt 与全局条件(即文本条件) c c c 绑定,而交互式生成需要局部条件化(如物体位置、运动轨迹)。

    • 解决方案

      • 将用户指定的时空条件(如掩码区域、文本描述)编码为 grounding pairs(时空体积 + 文本嵌入),作为交叉注意力层的上下文token。
      • 受图像方法 GLIGENFlamingo 启发,但避免重新训练模型,直接利用冻结的扩散模型 f θ f_\theta fθ

3.1 Masked Diffusion

  • 灵感来源:借鉴分割任务(如 MaskFormerMask2Former)的掩码分类思想,将视频生成视为逆分割问题
  • 关键步骤
    1. 局部上下文生成:将视频分解为 N N N 个区域,每个区域用二值掩码表示,独立生成物体。
    2. 掩码注意力机制:修改扩散模型中 Transformer 块的注意力计算,引入掩码自注意力(类似 ),限制注意力仅在掩码区域内生效。
    3. 全局合成:将局部生成的物体通过叠加或加权融合为完整视频帧

WechatIMG658.jpg

3.2 Masked spatio-temporal mixed attention

  • 核心目标

    • 通过用户提供的边界框(Bounding Box)生成二值掩码,在扩散模型的潜在空间中引导注意力计算,从而精确控制视频中物体的位置、大小和运动
  • 关键步骤

    1. 二值掩码生成与下采样

      • 输入:用户指定视频中前景物体的边界框(如“狗的移动轨迹”)。

      • 操作

        • 根据边界框创建二值掩码(Binary Mask),前景区域为1,背景为0。
        • 将掩码下采样至扩散模型潜在空间(latent space)的尺寸,与模型内部特征图对齐。
    2. 块稀疏注意力掩码(Block Sparse Attention Mask)

      • 设计原理

        • 通过**加性掩码(Additive Masking)**修改注意力分数,公式如下:
          MaskedAttention ( Q , K , V , M ) = softmax ( Q K T + M ) V \text{MaskedAttention}(Q,K,V,M) = \text{softmax}(QK^T + M)V MaskedAttention(Q,K,V,M)=softmax(QKT+M)V

        • 掩码矩阵 ( M ) 的定义:
          M [ i , j ] = { − ∞ if  M [ i , j ] = 1 ( 需屏蔽的区域 ) 0 otherwise M[i,j] = \begin{cases} -\infty & \text{if } M[i,j]=1 \ (\text{需屏蔽的区域}) \\ 0 & \text{otherwise} \end{cases} M[i,j]={0if M[i,j]=1 (需屏蔽的区域)otherwise

        • 作用:在需屏蔽的区域(如背景)施加极大负值( − ∞ -\infty ),使这些位置的注意力分数趋近于0,强制模型仅关注掩码指定的前景区域。

    3. 符号定义与约束

      • 关键符号

        • l text l_{\text{text}} ltext:文本提示长度。
        • l video l_{\text{video}} lvideo:视频帧数。
        • mask f \text{mask}_f maskf:第 f f f 帧的输入掩码。
        • fg ( ⋅ ) \text{fg}(\cdot) fg():判断函数,输入像素或文本token,返回1(前景)或0(背景)。
      • 注意力约束

        • 引导前景token仅关注每帧中指定位置的像素,实现物体运动控制。
    4. 跨层注意力约束的不足

      • 问题:仅约束交叉注意力层(Cross-Attention)无法完全控制空间生成,因为:
        • 前景与背景像素在自注意力层(Self-Attention)中仍会交互。
        • 需同时约束时空注意力(Spatio-Temporal Attention)以阻断无关区域的信息流动。
    3.2.1 Masked Cross-Attention
    • 功能

      • 对齐文本描述与视频帧的局部区域,确保潜在变量(latents)仅关注与当前生成目标相关的文本标记。
    • 实现细节

      • 输入

        • 每帧的输入掩码 M i n p u t M_{input} Minput(二值矩阵,前景=1,背景=0)。
        • 文本标记的类别标识 f g ( T j ) fg(T_j) fg(Tj)(判断第j个文本token是否描述前景物体)。
      • 掩码公式
        M f C A [ i , j ] = f g ( M i n p u t [ i ] ) ⋅ f g ( T j ) + ( 1 − f g ( M i n p u t [ i ] ) ) ⋅ ( 1 − f g ( T j ) ) M^{CA}_f[i,j] = fg(M_{input}[i]) \cdot fg(T_j) + (1-fg(M_{input}[i])) \cdot (1-fg(T_j)) MfCA[i,j]=fg(Minput[i])fg(Tj)+(1fg(Minput[i]))(1fg(Tj))

        • 当像素i和文本tokenj同为前景或背景时,掩码值为1,否则无效。
    • 作用

      • 强制潜在变量仅从相关文本token获取信息(如前景物体仅关注描述它的文本)。
    • 示例

      • 若文本提示为“狗在草地上”,掩码会确保“狗”区域的潜在变量只关注“狗”的文本嵌入,而“草地”区域关注“草地”的文本。
    3.2.2 Masked Spatial Attention
    • 功能

      • 控制同一帧内不同空间区域的生成过程,避免前景与背景的相互干扰。
    • 实现细节

      • 输入:每帧的输入掩码 M i n p u t M_{input} Minput

      • 掩码公式
        M f S A [ i , j ] = f g ( M i n p u t [ i ] ) ⋅ f g ( M i n p u t [ j ] ) + ( 1 − f g ( M i n p u t [ i ] ) ) ⋅ ( 1 − f g ( M i n p u t [ j ] ) ) M^{SA}_f[i,j] = fg(M_{input}[i]) \cdot fg(M_{input}[j]) + (1-fg(M_{input}[i])) \cdot (1-fg(M_{input}[j])) MfSA[i,j]=fg(Minput[i])fg(Minput[j])+(1fg(Minput[i]))(1fg(Minput[j]))

        • 仅当像素i和j同属前景或背景时,才允许计算注意力。
      • 作用

        • 初期生成阶段,隔离前景与背景的注意力交互,避免错误融合(如狗的身体混入草地纹理)。
        • 后期逐步放松约束,实现自然过渡。
    3.2.3 Masked Temporal Attention
    • 功能

      • 维持视频帧间的时间一致性,确保物体运动轨迹连贯。
    • 实现细节

      • 输入:所有帧对同一像素位置i的掩码状态。

      • 掩码公式
        M i T A [ f , k ] = f g ( M i n p u t f [ i ] ) ⋅ f g ( M i n p u t k [ i ] ) + ( 1 − f g ( M i n p u t f [ i ] ) ) ⋅ ( 1 − f g ( M i n p u t k [ i ] ) ) M^{TA}_i[f,k] = fg(M_{input}^f[i]) \cdot fg(M_{input}^k[i]) + (1-fg(M_{input}^f[i])) \cdot (1-fg(M_{input}^k[i])) MiTA[f,k]=fg(Minputf[i])fg(Minputk[i])+(1fg(Minputf[i]))(1fg(Minputk[i]))

        • 仅当像素i在帧f和帧k中同为前景或背景时,才允许跨帧注意力交互。
    • 作用

      • 前景物体(如狗)的运动轨迹仅受自身历史位置影响,不受背景变化干扰。
      • 背景区域(如天空)保持静态或渐变,避免闪烁。

3.3 Zero-training Pipeline

  • 核心思想:掩码注意力(Masked Attention)

    • PEEKABOO 的核心创新在于修改扩散模型的注意力机制,使其在去噪过程中仅关注用户指定的区域(如前景物体),而忽略无关背景。这一过程分为两个阶段:

      1. 约束生成阶段(前 t 步):强制前景和背景像素互不干扰,确保物体位置和运动轨迹严格遵循用户输入。

      2. 自由生成阶段(t 步后):解除掩码限制,让模型自然融合全局信息,使前景和背景无缝衔接。

    • 这一机制类似于“躲猫猫”游戏(PEEKABOO):

      • 早期阶段:前景和背景“互相看不见”,确保物体生成位置准确。

      • 后期阶段:解除限制,让它们“互相看见”,实现自然融合。

  • 技术实现

    • PEEKABOO 直接修改 3D UNet 的注意力层(包括空间、时间和交叉注意力),无需额外训练:

    • 输入:用户提供的二值掩码(binary mask),标记前景(1)和背景(0)。

    • 掩码计算

      • 空间注意力(Spatial Attention)中,前景像素仅关注其他前景像素,背景同理。
      • 时间注意力(Temporal Attention)中,物体的运动轨迹仅参考自身在其他帧的位置。
      • 交叉注意力(Cross-Attention)中,文本描述仅影响对应的生成区域(如“狗”的文本仅作用于前景掩码区域)。
    • 分阶段去噪

      • 约束阶段(前 t 步)

        • 使用掩码强制前景和背景独立生成,避免错误融合(如背景纹理污染前景物体)。
        • 确保物体位置、大小和运动轨迹严格遵循用户输入。
      • 自由阶段(t 步后)

        • 移除掩码限制,让模型全局优化,使前景和背景自然融合。
        • 避免生成结果过于僵硬(如物体边缘不自然)。
  • 低计算开销

    • 无需额外扩散步数:PEEKABOO 仅需少量约束步数(实验显示 t ≤ 5 步即可),不增加总推理时间。

    • 即插即用:直接应用于现有扩散模型(如 Stable Diffusion Video),无需微调或额外训练数据。

4. Experiment

  • 实验目标

    1. 验证时空控制能力:评估 PEEKABOO 能否精确生成用户指定位置和运动的物体。

    2. 对比生成质量:与基线模型比较,证明掩码控制能提升视频质量。

    3. 消融实验:分析各组件(如掩码注意力、分阶段生成)的影响。

  • 数据集

    1. SSv2-ST(Something-Something v2-Spatio-Temporal)

      • 来源:真实动作视频,包含 295 个(提示词,掩码)对。
      • 用途:测试模型在真实场景下的时空控制能力。
    2. IMC(Interactive Motion Control)

      • 人工标注的 102 个(提示词,边界框)对,覆盖不同物体类型、大小和运动模式。

      • 模拟用户交互输入,测试生成灵活性。

    3. LaSOT(Large-scale Single Object Tracking)

      • 从目标跟踪数据集中提取 450 个视频片段,覆盖 70 类物体。

      • 评估模型对复杂运动的控制能力。

    4. DAVIS-16

      • 视频分割数据集,提供 40 个(提示词,掩码)对。

      • 测试模型对精细边缘和动态背景的处理能力。

  • 实验设置

    • 基线模型:ZeroScope 和 ModelScope(默认参数,无额外微调)。

    • 评估方法

      1. 覆盖率(Coverage):检测生成视频中物体出现的帧比例(>50% 帧有物体视为有效)。
      2. mIoU(平均交并比):比较生成物体与输入掩码的重合度。
      3. AP@50(平均精度):检测边界框与输入掩码的匹配精度。
      4. 质心距离(CD):生成物体中心与目标中心的偏移距离(归一化到 0-1)。
  • 主要结果

    1. 时空控制能力

      • PEEKABOO 在 mIoU 上比基线模型提升 2.5倍,证明其能精确匹配用户指定的物体位置和形状。
      • AP@50 显著提高,表明生成物体的边界框更接近输入掩码。
      • 质心距离(CD) 更低,说明物体位置控制更准确。
    2. 生成质量

      • 覆盖率 高于基线模型,表明 PEEKABOO 能生成更多有效视频(避免物体丢失)。

      • 定性实验显示,掩码控制能减少背景干扰,提升前景物体的清晰度。

    3. 效率对比

      • PEEKABOO 不增加推理时间(与基线模型相同),而其他方法(如 LLM-VD)会导致 2.2 倍延迟。
  • 消融实验

    • 掩码步数(t)的影响:实验表明,仅需 5 步掩码约束 即可实现最佳控制,后续自由生成阶段保证自然融合。

    • 注意力模块的作用:移除任一掩码注意力(空间/时间/交叉)均会导致 mIoU 下降,验证了三者协同的必要性。

    • 结论

      • PEEKABOO 通过掩码注意力机制分阶段生成策略,在 无需训练 的前提下实现了:

        1. 像素级时空控制(mIoU 提升 2.5 倍)。

        2. 高质量生成(覆盖率更高,物体更清晰)。

        3. 零计算开销(推理速度与原始模型一致)。

相关文章:

  • Educational Codeforces Round 178 (Rated for Div. 2)
  • 在yolo中Ultralytics是什么意思呢?超越分析的智能
  • 【专题五】位运算(1):常见位运算操作总结
  • 【Java学习】Java的CGLIB动态代理:通俗解释与使用指南
  • 短视频矩阵批量剪辑与场景剪辑功能 OEM 定制开发
  • deepseek_ai_ida_plugin开源插件,用于使用 DeepSeekAI 将函数反编译并重命名为人类可读的视图。该插件仅在 ida9 上进行了测试
  • 【开源项目】基于sherpa-onnx的实时语音识别系统 - LiveASR
  • 从Windows开发迁移到信创开发的指南:国产替代背景下的技术路径与实践
  • swagger2升级至openapi3的利器--swagger2openapi
  • 跨平台项目部署全攻略:Windows后端+Mac前端在服务器的协同实战
  • 基于Spring Boot+Vue 网上书城管理系统设计与实现(源码+文档+部署讲解)
  • jupyter已经安装但是无法通过命令行启动
  • AI编程工具“幻觉”风险与飞算JavaAl的破局之道
  • 万界星空科技QMS质量管理系统几大核心功能详解
  • Webug4.0通关笔记03- 第4关POST注入和第5关过滤注入
  • DeepSeek破界而来:重构大规模深度检索的算力与边界
  • GTC Taipei 2025 医疗域前瞻:从AI代理到主权生态,解码医疗健康与生命科学的未来图景
  • BT136-ASEMI无人机专用功率器件BT136
  • acwing背包问题求方案数
  • Android Studio中OpenCV应用详解:图像处理、颜色对比与OCR识别
  • 80后共青团云南省委副书记许思思已任迪庆州委副书记
  • 昆明破获一起算命破灾诈骗案,民警:大师算不到自己的未来
  • 对话|贝聿铭设计的不只是建筑,更是生活空间
  • 北汽蓝谷一季度净亏损9.5亿元,拟定增募资不超60亿元
  • 葡萄牙、西班牙突发大范围停电,交通和通信服务受到严重影响
  • 伊朗内政部长:港口爆炸由于“疏忽”和未遵守安全规定造成