当前位置: 首页 > news >正文

【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式

标题:Matten: Video Generation with Mamba-Attention

作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)

单位:Meituan Inc.(美团公司)

发表:arXiv preprint arXiv:2405.03025v2 [cs.CV]

论文链接:https://arxiv.org/pdf/2405.03025

代码链接:暂无

关键词:视频生成(Video Generation)、 latent diffusion 模型(Latent Diffusion Model)、Mamba 架构(Mamba Architecture)、注意力机制(Attention Mechanism)、状态空间模型(State Space Model)、计算效率(Computational Efficiency)、时空建模(Spatio-Temporal Modeling)


在视频生成领域,如何在保证生成质量的前提下提升模型效率、捕捉全局与局部时空关联,一直是研究者们面临的核心挑战。美团团队提出的 Matten 模型,创新性地将 Mamba 架构与 Attention 机制结合,构建了一种高效的 latent diffusion 模型,为解决这一挑战提供了新思路。

一、研究背景与动机

1.1 视频生成技术的发展现状

近年来,扩散模型在视频生成领域展现出卓越能力,当前主流技术路线主要分为两类:

  • CNN-based U-Net 架构:如 LVDM 等模型,依托卷积操作处理空间信息,但在捕捉长序列时空依赖时存在局限。
  • Transformer-based 框架:如 Latte 等模型,通过自注意力机制建模全局关联,然而自注意力的二次复杂度(\mathcal{O}(J^2D),其中J为序列长度,D为隐藏层维度)导致计算成本高昂,难以高效处理长视频序列。

此外,早期的 GAN-based 方法易出现模式崩溃问题,生成视频的多样性和真实性受限;autoregressive 模型虽能生成高质量视频,但同样面临计算量大的困境。因此,寻找兼顾效率与质量、能同时处理局部与全局时空信息的架构,成为视频生成技术突破的关键方向。

1.2 Mamba 架构的潜力与挑战

State Space Models(SSMs,状态空间模型)凭借对长序列数据的高效建模能力,在 NLP、计算机视觉等领域逐渐兴起。其中,Mamba 作为 SSM 的代表性模型,通过动态参数设计和硬件友好型算法,实现了线性复杂度(\mathcal{O}(JN),N为 SSM 维度)的序列建模,在长文本处理、图像生成等任务中表现出色。

然而,Mamba 在视频生成领域的应用面临两大挑战:

  1. 局部模式捕捉能力弱:Mamba 的扫描操作本质上不直接计算 token 间的依赖关系,难以有效捕捉视频中的局部时空细节,这与 Attention 机制在局部建模上的优势形成互补。
  2. 时空建模适配性:原始 Mamba 为 1D 序列设计,直接应用于 3D 视频数据(帧序列 + 空间维度)时,需解决时空维度的适配问题,如何合理组织视频的时空 token 序列,成为发挥 Mamba 优势的关键。

1.3 研究动机

基于上述现状,Matten 的核心研究动机可概括为三点:

  1. 融合优势:结合 Mamba 的全局长序列高效建模能力与 Attention 的局部细节捕捉能力,构建 “全局 - 局部” 协同的时空建模架构。
  2. 降低成本:通过 Mamba 的线性复杂度替代部分 Transformer 的自注意力模块,在保证生成质量的前提下,降低模型的计算量与参数规模。
  3. 验证扩展性:探索模型复杂度与视频生成质量的关系,验证融合架构的可扩展性,为后续更大规模模型的设计提供依据。

1.4 传统时空建模方法的局限与对比

为更直观理解视频时空建模的核心痛点,文中展示了四种主流的时空建模方式(图1),清晰揭示了现有方法的优势与短板,也为 Matten 的 “Mamba-Attention 融合架构” 提供了设计依据。

  • (a) Spatial-Attention(空间注意力)仅计算 “单帧内图像 token 间的自注意力”,例如同一帧中不同 (H,W) 位置的 token 交互。这种方式能有效捕捉帧内局部空间细节(如人脸的五官关联),是 CNN-based U-Net 与 Transformer-based 模型的基础组件,但完全无法捕捉跨帧的时间依赖(如第 1 帧与第 2 帧的动作连贯性),不适用于动态视频建模。

  • (b) Local Temporal-Attention(局部时间注意力)仅计算 “不同帧间相同空间位置 token 的注意力”,例如第 1 帧 (H_1,W_1) 与第 2 帧 (H_2,W_2) 的 token 交互。这种方式虽能捕捉部分时间依赖(如同一位置的亮度变化),但局限于固定空间位置,无法处理跨空间位置的帧间关联(如第 1 帧 (H_1,W_1) 的手部与第 2 帧 (H_2,W_2) 的物体交互),导致视频动态连贯性不足。

  • (c) Global-Attention(全局注意力)计算 “所有时空位置 token 间的注意力”,既覆盖帧内跨空间位置,也覆盖跨帧关联,理论上能完整建模全局时空依赖。但由于自注意力的二次复杂度,当视频帧数(F)或分辨率(H \times W)增加时,计算量会急剧上升(如 16 帧 256×256 视频的 token 数超过 10 万,二次复杂度会导致算力需求不可承受),难以应用于实际长视频或高分辨率场景

  • (d) Global-Mamba(全局 Mamba)采用 Mamba 的扫描操作建模全局关联,通过 “空间优先扫描”(先按 (H,W) 排列 token,再按帧堆叠)覆盖所有时空位置。其线性复杂度大幅降低计算成本,且能捕捉长序列的全局依赖(如 16 帧视频的完整动作轨迹),但原文指出其核心局限 ——Mamba 扫描不直接计算 token 间的依赖关系,难以有效检测局部数据模式(如帧内小范围的细节变化),需与 Attention 机制互补。

二、核心方法:Matten 模型设计

Matten 的整体框架基于 latent diffusion 模型,核心创新在于将 Mamba 与 Attention 机制以多种方式融合,形成不同的模型变体,并通过自适应归一化等技术优化条件信息注入。

2.1 背景知识:Latent Diffusion 与 Mamba 基础

在深入模型设计前,需先明确两个核心基础组件:

2.1.1 Latent Diffusion Model(LDM)

LDM 通过预训练 VAE/VQ-VAE 将视频数据映射到低维 latent 空间,在 latent 空间中进行扩散与去噪过程,有效降低计算成本。其核心流程包括:

  1. 编码阶段:输入视频 x 经编码器E转换为 latent 表示z=E(x)
  2. 扩散阶段:向z中逐步添加噪声,生成含噪 latent 序列z_tt为时间步);
  3. 去噪阶段:训练去噪网络\epsilon_\theta(Matten 中为 Mamba-Attention 架构)预测z_t中的噪声,目标函数为:\mathcal{L}_{simple }=\mathbb{E}_{z \sim p(z), \epsilon \sim \mathcal{N}(0, I), t}\left[\left\| \epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\| _{2}^{2}\right],同时,引入学习的反向协方差\sum_\theta,通过\mathcal{L}_{vlb}优化模型性能。
2.1.2 Mamba 的离散化与双向扩展

原始 Mamba 为 1D 连续时间 SSM,需通过离散化适配深度学习任务。其核心公式如下:

  • 连续时间 SSM

\begin{array}{rlrl} h^{\prime}(t) & =A(t)h(t)+B(t)x(t), \\ y(t) & =C(t)h(t)+D(t)x(t), \end{array}

其中h(t)为 latent 状态,A,B,C,D为状态转移参数。

  • 离散化(零阶保持法,ZOH):通过时间尺度参数\Delta将连续参数转换为离散形式:\begin{array}{rlr} \overline{A} & =exp(\Delta A), \\ \overline{B} & =(\Delta A)^{-1}(exp(A)-I)\cdot \Delta B. \end{array}离散化后的状态更新公式为:\begin{array}{rlrl} h_{k} & =\overline{A}h_{k-1}+\overline{B}x_{k}, \\ y_{k} & =Ch_{k}+Dx_{k}. \end{array}

为适配视频的空间建模需求,Matten借鉴Vision Mamba的设计,采用双向Mamba块:通过同时执行前向与后向SSM扫描,捕捉空间维度上的双向依赖关系,解决了原始1D Mamba空间感知能力弱的问题,结构如下图(图2)所示。

2.2 视频Latent表示与Token化

Matten首先对视频的 latent 表示进行处理,将其转换为适合Mamba与Attention处理的token序列:

  1. Latent 输入:视频的 latent 表示为V_L \in \mathbb{R}^{F \times H \times W \times C},其中F为帧数,H/W为帧高/宽,C为通道数;
  2. Token化:将V_L分割并重塑为token序列\hat{z} \in \mathbb{R}^{(n_f \times n_h \times n_w) \times d},其中n_f=Fn_h=H/2n_w=W/2(借鉴Latte的分割策略),d为token维度;
  3. 位置嵌入:添加时空位置嵌入p,最终模型输入为z=\hat{z}+p,确保模型捕捉时空位置信息。

2.3 四种Matten模型变体

为探索Mamba与Attention的最优融合方式,Matten设计了四种模型变体,每种变体针对不同的时空建模需求,具体结构如图3所示:

变体1:Global-Sequence Mamba Block(全局序列Mamba块)
  • 核心设计:对整个时空token序列执行3D Mamba扫描,采用“空间优先”(Spatial-First)的扫描顺序(先按空间位置排列token,再按帧堆叠);
  • 输入处理:将z重塑为z_{full} \in \mathbb{R}^{1 \times n_f * n_h * n_w \times d},输入双向Mamba层;
  • 特点:专注于捕捉全局时空依赖,但缺乏局部细节建模能力,易忽略帧内或相邻帧的局部关联。
变体2:Spatial and Temporal Mamba Blocks Interleaved(时空Mamba块交错)
  • 核心设计:用Mamba块替代Transformer中的Attention模块,分为空间Mamba块与时间Mamba块两类;
  • 空间Mamba块:处理相同时间索引的token(即单帧内的空间token),输入重塑为z_s \in \mathbb{R}^{n_f \times s \times d}s=n_h \times n_w为单帧token数);
  • 时间Mamba块:处理相同空间坐标的token(即跨帧的同一空间位置),输入重塑为z_t \in \mathbb{R}^{s \times n_f \times d}
  • 特点:分别建模空间与时间维度的依赖,但未引入Attention机制,局部细节捕捉能力仍受限。
变体3:Global-Sequence Mamba + Spatial-Temporal Attention Interleaved(全局Mamba+时空Attention交错)
  • 核心设计:每个块按“空间Attention→时间Attention→全局Mamba扫描”的顺序串联,同时利用Attention的局部建模与Mamba的全局建模优势;
  • 空间Attention:计算单帧内token的自注意力,捕捉帧内局部空间关联;
  • 时间Attention:计算相同空间位置跨帧token的自注意力,捕捉局部时间关联;
  • 全局Mamba扫描:对整个序列执行Mamba扫描,捕捉全局时空依赖;
  • 特点:兼顾局部细节与全局关联,是Matten最终验证的最优变体,在实验中表现出最佳性能。
变体4:Global-Sequence Mamba + Temporal Attention Interleaved(全局Mamba+时间Attention交错)
  • 核心设计:在变体3的基础上去除空间Attention模块,仅保留时间Attention与全局Mamba扫描;
  • 动机:考虑到Mamba的空间优先扫描已能部分捕捉空间依赖,尝试通过移除空间Attention降低计算成本;
  • 特点:计算量低于变体3,但空间局部细节建模能力减弱,在空间复杂度高的场景(如人脸视频)中表现不佳。

2.4 条件信息注入:M-AdaN(Mamba Adaptive Normalization)

视频生成常需引入时间步(timestep)或类别(class)等条件信息,Matten对比了两种注入方式,并提出M-AdaN优化条件融合效果:

两种基础注入方式
  1. 条件Token(Conditional Tokens):将条件信息转换为token,直接添加到输入token序列中(借鉴DiS模型);
    • 缺点:易导致Mamba扫描中的“空间脱节”,条件信息无法均匀传递到所有视频token。
  2. 自适应归一化(AdaN):通过MLP层从条件信息C中计算归一化参数\gamma_c\beta_c,对Mamba块的特征图进行归一化(借鉴StyleGAN的AdaIN):AdaN(f, c)=\gamma_c \cdot Norm(f) + \beta_c,其中f为Mamba块的特征图,Norm为归一化操作。
M-AdaN的优化设计

Matten在AdaN的基础上,结合Mamba块的残差连接,提出M-AdaN:

RCs(f, c)=\alpha_c \cdot f + MambaScans(AdaN(f, c))

其中\alpha_c为残差权重,MambaScans为双向Mamba扫描操作。M-AdaN将条件信息通过归一化与残差连接深度融入Mamba块,确保条件信息均匀传递到所有token,实验证明其效果显著优于条件Token方式(图8b)。

2.5 理论分析:Mamba与Attention的复杂度对比

为量化验证Mamba的效率优势,论文对自注意力(SA)、前馈网络(FFN)与Mamba(SSM)的计算复杂度进行了理论分析,假设序列长度为J,隐藏层维度为D,SSM维度为N(固定为16),扩展维度为E=2:

模块计算复杂度公式复杂度类型关键结论
自注意力(SA)\mathcal{O}(SA)=2J^2D二次复杂度序列长度J增大时,计算量急剧上升,不适用于长序列
前馈网络(FFN)\mathcal{O}(FFN)=4JD^2线性复杂度计算量随J线性增长,但受D^2影响较大
Mamba(SSM)\mathcal{O}(SSM)=3J(2D)N + J(2D)N^2线性复杂度J \gg N^2N=16 时,N^2=256),复杂度远低于SA,适合长序列

理论分析表明:

  • 对于长序列(如视频的全局时空序列,J通常远大于256),Mamba的计算效率显著高于自注意力;
  • 对于短序列(如单帧的空间token序列,J较小),Attention的计算成本更低,更适合局部建模。

这一结论为Matten的“局部Attention+全局Mamba”融合设计提供了理论支撑,也解释了为何变体3能在效率与质量间取得平衡。

三、实验验证与结果分析

为全面评估Matten的性能,论文在4个主流视频生成数据集上进行了大量实验,包括无条件/条件生成任务、消融实验与SOTA对比实验。

3.1 实验设置

3.1.1 数据集与预处理

实验采用4个常用视频生成数据集,统一预处理为16帧、256×256分辨率,采样间隔为3:

  • FaceForensics:人脸视频数据集,专注于面部表情与动作生成;
  • SkyTimelapse:天空延时视频数据集,包含云、日出日落等缓慢动态场景;
  • UCF101:人类动作视频数据集,包含跑步、跳舞等复杂动作;
  • Taichi-HD:太极动作视频数据集,需捕捉连贯的肢体动作。
3.1.2 评估指标

采用Fréchet Video Distance(FVD) 作为核心指标,FVD值越低,表明生成视频与真实视频的分布差异越小,质量越高。此外,通过FLOPs(浮点运算次数)评估模型效率。

3.1.3 基线模型

对比当前主流视频生成模型,涵盖GAN-based、Transformer-based、Diffusion-based等类型:

  • GAN-based:MoCoGAN、MoCoGAN-HD、DIGAN、StyleGAN-V、MoStGAN-V;
  • Transformer-based:VideoGPT、Latte;
  • Diffusion-based:PVDM、LVDM。

除非明确重新说明,所有相关数据均来自最新相关研究:Latte、StyleGAN-V、PVDM 或原始论文。

3.1.4 模型配置

Matten设计了4种不同规模的模型(遵循ViT/DiT的配置策略),用于验证扩展性:

模型规模层数L隐藏层维度DSSM维度N参数数量(M)
Matten-S123841635
Matten-B1276816164
Matten-L24102416579
Matten-XL28115216853

训练细节:采用AdamW优化器(学习率1e-4),仅使用水平翻转作为数据增强,前50k步与后100步分别采用0.99衰减率的EMA(指数移动平均),VAE编码器采用Stable Diffusion v1-4的预训练模型。

3.2 消融实验:关键设计的有效性验证

消融实验在SkyTimelapse数据集上进行,重点验证模型变体、条件注入方式与模型规模的影响。

3.2.1 模型变体对比(图8a)

实验保持各变体参数数量一致,对比FVD随训练迭代的变化:

  • 变体3表现最优:由于同时结合了Attention的局部建模与Mamba的全局建模,FVD值最低且收敛稳定;
  • 变体1/2表现较差:变体1仅依赖全局Mamba,忽略局部细节;变体2仅用Mamba替代Attention,缺乏全局关联捕捉;
  • 变体4略逊于变体3:移除空间Attention后,空间局部细节建模能力下降,导致FVD值上升。

这一结果验证了“局部Attention+全局Mamba”融合设计的必要性,也确定了变体3为后续实验的基准模型。

3.2.2 条件注入方式对比(图8b)

对比“条件Token”与“M-AdaN”两种条件注入方式:

  • M-AdaN显著更优:FVD值低于条件Token方式,且收敛速度更快;
  • 原因分析:M-AdaN通过归一化与残差连接,将条件信息均匀融入Mamba块,避免了条件Token导致的“空间脱节”问题,确保条件信息有效传递到所有时空token。
3.2.3 模型规模对性能的影响(图9)

对比4种规模模型的FVD变化:

  • 规模越大,性能越好:Matten-XL(853M参数)的FVD值最低,Matten-S(35M参数)最高,且随着训练迭代增加,差距逐渐扩大;
  • 扩展性验证:模型复杂度与生成质量呈直接正相关,证明Matten具有优秀的扩展性,为后续更大规模模型的设计提供了依据。

3.3 SOTA对比实验:性能与效率双优

3.3.1 定量结果

在4个数据集上,Matten(变体3,Matten-XL)与SOTA模型的FVD及FLOPs对比如下(FVD值越低越好,FLOPs越低越高效):

关键结论:

  1. 性能竞争力

    • 在SkyTimelapse(53.56 vs 59.82)、UCF101(210.61 vs 477.97)、Taichi-HD(158.56 vs 159.60)数据集上,Matten的FVD值优于或接近Transformer-based的Latte;
    • 在FaceForensics数据集上,Matten(45.01)略逊于Latte(34.00),但需注意Latte使用了图像预训练权重,而Matten因缺乏Mamba-based图像预训练模型,需从头训练(论文指出,若有预训练模型,性能可进一步提升)。
  2. 效率优势

    • Matten的FLOPs为4008G,较Latte(5572G)降低约25%,较LVDM(5718G)降低约30%;
    • 在同等性能下,Matten的计算成本显著低于Transformer-based模型,验证了Mamba架构的效率优势。
3.3.2 定性结果(图4-7,因图片较多,这里仅放了图4,其他图片可以去原文中查看)

定性结果展示了Matten与其他模型在4个数据集上的生成视频质量:

  • FaceForensics:Matten能准确捕捉面部表情变化(如微笑、眨眼),生成的人脸轮廓清晰,无明显模糊或变形;
  • SkyTimelapse:Matten生成的云层运动连贯自然,日出日落的光线变化平滑,无帧间跳跃;
  • UCF101:在跑步、跳舞等复杂动作场景中,Matten能保持人体姿态的连贯性,避免肢体扭曲或动作断裂;
  • Taichi-HD:Matten生成的太极动作舒展连贯,招式过渡自然,优于多数基线模型。

特别值得注意的是,在UCF101数据集上,Matten的FVD值(210.61)远低于Latte(477.97),定性结果也显示其在复杂动作建模上的优势,这得益于Mamba对长序列全局依赖的高效捕捉。

四、研究结论与未来展望

4.1 核心结论

  1. 架构有效性:融合Mamba与Attention的“局部-全局”协同架构(变体3)能有效平衡视频生成的质量与效率,Mamba负责全局时空依赖建模,Attention负责局部细节捕捉,二者互补提升性能。
  2. 效率优势:Matten在保证SOTA级生成质量的前提下,计算成本(FLOPs)较Transformer-based模型降低约25%,验证了Mamba架构在视频生成领域的效率潜力。
  3. 扩展性优秀:模型复杂度与生成质量呈直接正相关,更大规模的Matten模型(如Matten-XL)表现出更优性能,为后续模型缩放提供了明确方向。
  4. 条件注入优化:M-AdaN通过深度融合条件信息与Mamba块,显著提升条件生成性能,优于传统的条件Token方式。

4.2 局限性与未来方向

  1. 缺乏预训练模型:当前无公开的Mamba-based图像预训练模型,Matten需从头训练;未来若能利用Mamba图像预训练权重,可进一步提升视频生成质量与训练效率。
  2. 高分辨率扩展:实验主要集中在256×256分辨率,如何将Matten扩展到更高分辨率(如512×512)仍需探索,可能需要结合分层扩散或多尺度建模策略。
  3. 文本条件生成:论文未涉及文本到视频的生成任务;未来可将M-AdaN扩展为文本条件注入,结合CLIP等文本-图像对齐模型,实现文本驱动的视频生成。
  4. Mamba扫描策略优化:当前采用“空间优先”的扫描顺序,未来可探索更优的时空扫描策略(如“时间优先”或动态扫描顺序),进一步提升时空依赖建模能力。

五、总结

Matten作为融合Mamba与Attention的视频生成模型,创新性地解决了传统Transformer-based模型计算成本高、Mamba局部建模能力弱的问题。通过四种模型变体的探索,确定了“局部Attention+全局Mamba”的最优架构,并提出M-AdaN优化条件信息注入。实验结果表明,Matten在4个主流数据集上表现出SOTA级的生成质量,同时计算效率提升约25%,为视频生成领域提供了一种高效且可扩展的新范式。

未来,随着Mamba-based预训练模型的发展、高分辨率建模技术的突破以及文本条件生成的扩展,Matten架构有望在更广泛的视频生成场景中发挥作用,推动视频生成技术向更高质量、更高效率、更多样化的方向发展。

http://www.dtcms.com/a/524518.html

相关文章:

  • HTB Networked writeup(network-scripts提权)
  • 如何入门python机器学习?金融从业人员如何快速学习Python、机器学习?机器学习、数据科学如何进阶成为大神?
  • 网站开发技术交流中国国家培训网
  • 网站无法做301重定向网站查询域名入口
  • 国产数据库MongoDB兼容性技术分析与实践对比
  • 350做网站深圳零基础网站建设入门到精通视频教程
  • 冒泡排序代码实现详解
  • 金仓多模数据库平替MongoDB的电子证照国产化实践——从2TB数据迁移到1600+并发支撑
  • 【优先级队列(堆)】3.前 K 个⾼频单词 (medium)
  • 苏州建站公司 诚找苏州聚尚网络设计图案用什么软件
  • 数据结构——快速排序
  • IntelliJ IDEA新版下载、安装、创建项目及Maven配置的教程(附安装包等)
  • C++特性详解:extern、缺省参数、函数模板与名字空间
  • VUE+Electron从0开始搭建开发环境
  • MongoDB 平替新方案:金仓多模数据库驱动电子证照国产化落地
  • 项目(一)
  • SaaS多租户架构实践:字段隔离方案(共享数据库+共享Schema)
  • 企业网站网页设计的步骤房地产网站建设需求说明书
  • 中国专门做生鲜的网站著名品牌展厅设计
  • 开发避坑指南(66):IDEA 2025 Gradle构建安全协议警告:Maven仓库HTTPS切换或允许HTTP的配置方法
  • 前端新手入门-HBuilder工具安装
  • AceContainer::Initialize()函数的分析
  • 石家庄网站建设方案咨询涉县住房与城乡建设厅网站
  • 鸿蒙Next媒体开发全攻略(ArkTS):播放、录制、查询与转码
  • vs2015网站开发基础样式福田庆三下巴
  • Hugging Face介绍
  • 要建立网站和账号违法违规行为数据库和什么黑名单企业所得税优惠税率
  • 大模型训练中的关键技术与挑战:数据采集、微调与资源优化
  • 【文献笔记】arXiv 2018 | PointSIFT
  • 如何检测和解决I2C通信死锁