当前位置：首页 > news >正文

论文阅读：MGMAE : Motion Guided Masking for Video Masked Autoencoding

news 2025/11/2 18:12:15

MGMAE:Motion Guided Masking for Video Masked Autoencoding

Abstract

MGMAE旨在通过引入运动引导掩码策略，进一步提升视频掩码编码器的性能。MGMAE所提出的运动引导掩码明确的结合了运动信息，构建了时间一致的掩码体积。通过构建掩码体积，能够追踪到时间维度的未掩码标记(token),并从视频中采样一组时间一致性的立方体(可见token)，这些基于时间对齐的未掩码的标记将进一步的缓解信息泄露的问题，并鼓励MGMAE学习更多更有用的结构信息。MGMAE由在线高效光流估计器和反向掩码图扭曲策略实现。

1. Introduction

近年来，掩蔽自编码（MAE）[35, 14, 41]由于其简洁性以及在图像领域的良好表现[17]，已被探索用于video Transformer的预训练。然而，与图像不同，视频数据具有额外的时间维度，并展现出时间冗余性和相关性的独特特性。

基于上述分析，本文提出了一种新的掩蔽策略，旨在通过显式利用运动信息来减少时间上的信息泄漏，从而改善视频掩蔽自编码器的预训练。具体而言，我们在视频掩蔽编码器处理中设计了运动引导掩蔽（Motion Guided Masking），并将所得到的掩蔽自编码器命名为MGMAE。运动是视频中普遍存在的先验信息。光流表示法明确地编码了每个像素从当前帧到下一帧的运动信息(动机)。我们提出利用这种光流信息来对相邻帧之间的掩蔽图进行对齐，从而在时间上构建一致的掩蔽体积（方法）。通过构建一致的掩蔽体积，可以通过仅让编码器看到一个小的立方体轨迹集合，构建更具挑战性的重建任务（结果）。希望这种运动引导掩蔽能够进一步减轻时间上的信息泄漏风险，并促使学习到更有意义的视觉表示。

更具体地，我们使用了一种在线且轻量的光流估计器（RAFT [34]）来捕捉运动信息，该估计器可以无缝集成到现有的VideoMAE框架中。为了构建时间一致的掩蔽体积，我们首先在基准帧上随机生成一个初始掩蔽图。然后，我们使用估算的光流将初始掩蔽图扭曲到相邻帧。通过多次扭曲操作，我们为视频中的所有帧构建了时间一致的掩蔽体积。最后，基于该掩蔽体积，我们使用基于帧（每帧图像上进行top-k选择方法）的top-k选择方法从中采样一组可见标记供MAE编码器处理。对这些采样标记应用与原始VideoMAE相同的自编码过程进行视频预训练。通过这种简单的运动引导掩蔽，我们能够进一步增加视频预训练任务的难度，从而得到一个更好的预训练模型，供后续微调使用。

图 1：不同掩蔽策略的比较。掩蔽自动编码 [11, 17] 已在视频领域进行了探索，用于自我监督预训练，采用不同的掩蔽策略：随机掩蔽 [14] 和管掩蔽 [35]。我们建议在运动信息的指导下跟踪掩蔽图（称为运动引导掩蔽）。我们得到的 MGMAE 可以为视频预训练构建更具挑战性和意义的任务。

2. Related Work

运动引导建模。

运动信息，如光流，是视频中的一种通用先验信息，代表了与图像不同的独特特性。光流已广泛应用于为视频中的低层次和高层次视觉任务提供强大的先验信息。对于低层次的视频任务，运动通常用于对齐辅助帧的信息与目标帧的对应区域。在视频超分辨率任务中，BasicVSR++[6]利用光流通过从邻近帧传递特征来增强低分辨率帧的外观。对于视频修复，Zhang等[56]利用光流提取的运动差异来指导Transformer中的注意力检索，以实现高保真度的视频修复。对于高层次视频任务，光流直接作为数据模态输入到网络中进行动作识别[44, 31]。AdaMAE[2]引入了一种端到端可训练的自适应掩蔽策略，利用辅助采样网络优先选择来自高时空信息区域的标记。Yang等[51]利用分层运动信息改进提取的视频特征。MotionFormer[28]在视频Transformer中采用轨迹进行注意力计算。TEA[22]和TDN[43]使用RGB差异近似运动信息，并将其融入视频CNN骨干网设计中。MGSampler[58]探索了运动信息，用于选择一组代表性帧以提高视频动作识别的效率。本文的MGMAE与这些运动引导建模的工作具有相同的精神。专注于利用运动信息作为提示，生成掩蔽图进行视频预训练。

图 2: MGMAE 的流程

我们的 MGMAE 遵循简单的掩码和重建流程进行视频自监督预训练。我们的核心设计是提出一种运动引导的掩码策略，用于生成时间一致性的掩码体积。通过这个掩码体积，我们追踪可见的块并确保掩码图的时间一致性。最终，这使得我们能够构建一个更具挑战性的重建任务，并在掩码自监督预训练过程中鼓励提取更有效的表示。

3. Method

在本节中，我们首先回顾了 VideoMAE 的预训练范式，以在 3.1 节中清楚地介绍我们的 MGMAE。然后在 3.2 节中详细说明了运动引导的遮罩映射生成的细节。最后，在 3.3 节中描述了在时间一致的遮罩映射下的 MGMAE 预训练方法。

3.1. VideoMAE 回顾

VideoMAE 是一种简单的遮罩视频自动编码器，具有一个非对称的编码器-解码器架构，并通过立方体嵌入来处理输入的采样帧。接下来，我们简要回顾其实现细节。

立方体嵌入

VideoMAE 将输入视频片段 III（大小为 T×3×H×W）划分为不重叠的立方体 C={Ci∣Ci∈R2×16×16×3}i=1N，其中 N=2×H/16×W/16是立方体的数量。然后，对这些立方体进行嵌入生成视频标记 T={Ti∣Ti∈RD}i=1N，其中 Ti表示带有位置编码的立方体嵌入，D 是通道数。

遮罩策略

VideoMAE 使用管状遮罩策略，并设置极高的遮罩比率 ρ（即 90%），在输入视频片段的所有帧中采样相同的空间位置。具体而言，VideoMAE 首先生成一个二值遮罩映射 M′（大小为 H/16×W/16，0 表示未遮罩，1 表示遮罩），然后在时间维度上复制它，并展平成令输入视频片段的标记级遮罩映射 M 的大小为 N。

编码器

编码器是一个采用联合时空注意力机制的标准 ViT 模型。为了提高计算效率，仅将未遮罩的可见标记 Tv={Ti∣i∉M}（加上固定的位置编码）输入编码器，从而获得大小为 Nv×D的潜在特征Z，其中 Nv=⌊(1−ρ)N⌋ 是未遮罩的可见标记总数。

解码器

解码器比编码器更窄、更浅。它将由潜在特征 Z 与带有固定位置编码的可学习 [MASK] 标记连接形成的标记序列作为输入，以重建归一化的视频立方体 C^={C^i∣C^i∈R2×16×16×3}i=1N。

损失

预训练目标是在遮罩位置上最小化归一化 C 和 C^之间的均方误差损失：

完成预训练后，编码器将作为主干网络用于下游任务的微调以获得专门模型。

3.2. 运动引导遮罩图 (Motion Guided Masking Map)

VideoMAE[35]和MAE-ST[14]通过将掩蔽比率增加到90%，大大增加了重建任务的难度。此外，VideoMAE做出了小运动假设，并采用了管道掩蔽策略，该策略在所有帧中掩蔽相同的空间位置。然而，这种小运动先验并不总是适用于以运动为主的视频。一个更合理的方法是确保视频片段中的每个物体在所有帧中始终可见或不可见。为实现这一目标，我们提出了运动引导掩蔽策略，用以替代VideoMAE中的管道掩蔽策略。该策略包含两个过程：首先，我们使用光流作为指导，生成输入视频片段的时间一致的掩蔽体积；然后，基于时间一致的掩蔽体积采样未掩蔽的可见标记。我们将在第3.2节和第3.3节中详细介绍这两个过程。

一般而言，生成时间一致掩蔽体积的过程分为以下四个步骤：

步骤1：确定基准帧 Ib，其中 b 是基准帧的索引。
步骤2：随机生成一个像素级的初始掩蔽图 Mb ，大小为 H×W，作为基准帧 Ib的掩蔽图。
步骤3：从基准帧 Ib 中双向提取密集光流 F。
步骤4：在密集光流 F 的指导下，扭曲初始掩蔽图 Mb，并逐步构建时间一致的掩蔽体积 M，大小为 T×H×W。

确定基准帧

默认情况下，我们选择中间帧作为基准帧。在运动引导掩蔽中，我们需要确保基准帧中的所有物体在输入片段的所有帧中始终保持一致的可见性或不可见性。需要注意的是，物体可能由于物体或相机的运动而在时间上（不）出现，通过光流来扭曲掩蔽图可能会导致一些“孔洞”，因为某些像素可能会被映射到边界外。因此，基准帧的选择可能会影响信息泄漏的抑制效果。我们将在第4.2节中探讨基准帧选择的影响，结果表明，中间帧是最优选择。

生成初始掩蔽图

我们为基准帧初始化一个像素级的掩蔽图，使用高斯混合模型（GMM）来分布这些掩蔽区域。掩蔽图用来指示基准帧中块的可见或不可见状态。以往的掩蔽策略通常使用基于标记级的二进制初始化，即每个大小为 2×16×16 的标记要么全为0，要么全为1，这种做法实际上打破了物体表面纹理的连续性。

具体而言，我们首先随机选择 N^v=⌊(1−ρ)×H/16×W/16⌋ 个标记，其中心坐标为 c={c⃗i:(ci1,ci2)}iN^v。然后，我们在每个标记的中点生成二维高斯分布 Ni(ci,σ2)，其中 σ是标准差，取为块大小(16,16)。由此,我们会得到与基准帧对应的混合高斯分布，并使用混合高斯分布的概率密度函数来指示基准帧中块（标记）的可见性。

提取光流

我们使用在线和离线两种方法提取光流。在线方法使用RAFT[34]（小版本）来估计输入视频片段的光流；离线方法则应用传统的TVL1[53]算法提前提取所有相邻帧之间的密集光流。在读取光流时，我们执行一致的裁剪、缩放操作。在线和离线方法的结果相似，更多细节请参见第4.2节。

在实践中，我们仅从基准帧 Ib 提取前向和后向光流 F，即：

其中，光流 νi→j表示从帧 Ii到帧 Ij的光流。

使用光流扭曲掩蔽图

我们使用反向扭曲方法逐步生成视频片段的时间一致掩蔽图。前向扭曲 ϕF 和反向扭曲 ϕB是两种相对的扭曲模式，都可以有效地用于从初始掩蔽图构建掩蔽体积。遗憾的是，前向扭曲会遇到“孔洞”或遮挡问题，即某些像素可能无法接收到光流，或者可能有多个光流指向同一像素。相比之下，反向扭曲将给定图像的像素逐一映射到各自的目标位置。值得注意的是，尽管反向扭曲并不能避免因光流映射超出边界而产生的孔洞，但这些孔洞通常比前向扭曲少，并且大多发生在图像的边界，因此对信息分布的影响较小。对于反向扭曲造成的孔洞，我们用基准帧中相应位置的值填充这些孔洞，从而模拟管道掩蔽策略。

形式化地，给定光流 F 和基准帧掩蔽体积 Mb，可以通过反向扭曲构建视频帧 Ii的掩蔽图 Mi：

随后，整个掩蔽体积 M={Mi}i=1T可以通过双向反向扭曲光流 F，从基准帧掩蔽图 Mb开始逐步构建。

3.3 运动引导的掩蔽自编码器 (MGMAE)

我们基于上述的运动引导掩蔽图构建了MGMAE。时间一致的掩蔽体积表示在光流追踪下，邻近帧中对应位置的可见性概率。为了尽可能抑制信息泄漏，我们沿时间维度采样具有最高可见概率的视频标记。具体来说，我们首先对掩蔽体积 M 执行大小为 2×16×16的平均池化操作，以获得大小为 T/2×H/16×W/16 的标记级掩蔽体积 M′。然后，我们在时间维度上选择前 N^v 个掩蔽图位置，并从中采样相应的视频标记作为未掩蔽的可见标记。

根据我们得到的时间一致掩蔽体积，这些采样的标记被输入到非对称的编码器-解码器中进行自编码器式的预训练。通过我们MGMAE预训练得到的模型与原始的VideoMAE模型在微调下游任务时采用相同的方法。

4. Experiments

4. 实验

4.1 数据集

与原始的VideoMAE相同，我们在Kinetics-400 (K400) [20] 和 Something-Something V2 (SSV2) [16] 数据集上评估我们的MGMAE。

4.2 消融实验

在本小节中，我们对运动引导掩蔽策略中每个步骤的选择进行了深入的消融实验。我们使用16台80G-A100 GPU在SSV2数据集上训练ViT-base模型800个epoch，然后在SSV2数据集上微调编码器进行动作识别。所有模型共享相同的训练计划，并报告2个剪辑×3个裁剪的准确性。

基帧选择

在本研究中，我们探讨了基帧选择对初始掩蔽生成过程的影响。我们将中间帧作为基帧与第一帧或随机帧进行比较，结果如表1a所示。结果表明，中间帧是最佳选择。

使用光流的扭曲方法

我们比较了两种用于对齐帧间掩蔽图的扭曲方法，如第3.2节所述。正如之前提到的，前向扭曲往往会导致掩蔽扭曲过程中更严重的遮挡和孔洞问题。相反，反向扭曲可以有效缓解这一问题，并确保更加平滑的掩蔽扭曲。表1b的结果表明，反向扭曲有助于更好的性能。

顶部k个可见标记的采样策略

我们检查并比较了两种采样策略，基于我们的时间一致掩蔽体积选择可见标记。帧级策略为每帧独立采样前k个位置，而剪辑级策略为整个视频联合采样前k个位置。正如表1c所示，帧级前k采样策略的性能略优。

基帧的掩蔽初始化

我们消融了在基帧生成初始掩蔽图的选择，如表1d所示。标记级初始化方法将掩蔽图划分为大小为 H/16×W/16的16×16标记，并随机将90%的标记设置为0（表示被掩蔽）和10%的标记设置为1（表示未掩蔽）。像素级初始化方法随机将90%的像素设置为0，10%的像素设置为1。混合高斯方法的初始化过程在第3.2节中有详细描述。结果表明，混合高斯初始化方法效果最好。

孔洞填充方法

我们研究了在反向扭曲中通过映射出界产生的孔洞问题的不同处理方法，如表1e所示。为了确定反向扭曲所造成的真实孔洞，我们将初始掩蔽图中的0值设置为1e−8，然后将新掩蔽图中等于0的位置视为孔洞。我们试验了五种填充孔洞的方法：

不可见方法：将所有孔洞填充为0；
可见方法：将所有孔洞填充为1；
随机方法：根据掩蔽率ρ以随机概率将孔洞填充为0或1；
先前图方法：使用与上一个生成的掩蔽图相同位置的值填充孔洞；
管道方法：根据初始掩蔽图中对应位置的值填充孔洞，符合管道掩蔽的原则。

我们发现，管道方法在所有方法中表现最好。

光流估计方法

我们评估了不同光流估计方法的效果，如表1f所示。对于离线方法，我们使用TVL1算法提前提取光流，其准确性与在线的RAFT光流相当。尽管VideoMAE在使用RAFT-small（设为6次测试迭代）估计光流时训练速度比MGMAE快1.3倍，但MGMAE在性能和减少过拟合风险方面有明显优势。我们发现，离线方法的训练速度并不比在线方法快，因为读取光流（IO操作）会成为训练速度的瓶颈。值得注意的是，我们的默认设置并不是最优的，但其他消融实验中得出的结论应该不受影响。

掩蔽率

MGMAE的表现突出了即使在高掩蔽率下（例如90%），改进掩蔽策略的重要性。然而，在应用MGMAE之后，仍然有一个问题是是否仍然需要这么高的掩蔽率。正如[35, 14]所指出的，盲目提高掩蔽率可能会降低模型的性能。我们的消融实验如图3所示，表明即使在MGMAE的情况下，维持80%以上的高掩蔽率也是至关重要的。我们认为，视频背景和大物体主要驱动了高掩蔽率的需求。视频背景通常宽广且简单。如果掩蔽率不够高，模型仍然可以从其他背景部分重建像素，即使邻近帧掩蔽了相似的区域。对于大物体，较低的掩蔽率可能会让模型使用不同部分的纹理来重建被掩蔽的部分。从实验中也可以观察到，MGMAE在85%的掩蔽率下表现最佳，但90%仍然是一个不错的选择，考虑到训练效率和性能之间的折衷。

掩蔽对象的暴露

另一个值得考虑的建议是，偶尔暴露被掩蔽的对象是否有助于掩蔽视频建模的预训练。我们进行了一个补充实验。具体而言，在构建掩蔽体积之后，我们向一个随机选择的帧的掩蔽图上添加了高斯噪声。这种修改可能会提供一个机会，让被掩蔽的对象暴露出来。结果显示，准确率为71.2%，略高于默认设置的71.0%。

表1：在Something-Something V2数据集上的部分消融实验结果。
我们的MGMAE预训练采用16帧的基础ViT-B骨干网络实现。所有模型均在掩码比例ρ=90%的条件下进行800个周期的预训练。推理协议采用2片段×3裁剪的方式报告微调动作识别的准确率。
默认设置在表中以灰色标出。尽管在光流估计方法上默认设置可能不是最优的，但我们认为这并不影响消融实验的结论。

预训练损失表明任务更具挑战性

MGMAE 的核心设计是借助光流动态采样被遮掩 token 的位置，从而增加重建任务的难度。如表 2 所示，MGMAE 的预训练损失始终比 VideoMAE 高出 0.05 以上。此损失差距表明运动引导遮掩进一步抑制了信息泄露，并构建了更具挑战性的遮掩-重建预训练任务。这一更困难的任务有助于学习更有效的表示。

表3：MG MAE与VideoMAE的准确度比较。

MGMAE：更有效的视频表示学习器

MGMAE 因运动引导遮掩策略构建的更困难任务而受益匪浅。一方面，模型必须更加努力地编码可见 token 与不可见 token 之间的关系，从而更好地指导模型训练。另一方面，信息泄露的抑制可能有效降低预训练的过拟合风险，使得模型可以进行更长时间的预训练。如表 3 所示，在以动作为中心的 SSV2 数据集上，MGMAE 的微调性能相较 VideoMAE 一直保持明显优势（800 轮时提升 1.4%，2400 轮时提升 1.5%）。在以场景为中心的 Kinetics-400 数据集上也有一定提升（800 轮时提升 1.2%，1600 轮时提升 0.3%）。

图5：SSV2验证集视频的可视化。
我们展示了运动引导掩码图以及重建图像。从上到下依次为：原始图像、x方向的光流、y方向的光流、运动引导掩码图、掩码后的图像以及重建的图像。

可视化分析

我们随机选取了 SSV2 验证集中的一个视频片段，并在图 5 中展示了其重建示例。可以看到，遮掩图随着物体运动而变化，使得模型更难以重建原始视频。

表 4：Something-Something V2 数据集上的比较。我们仅列出使用类似主干获得的结果。

表 5：Kinetics-400 数据集上的比较。我们仅列出使用相似主链获得的结果。

5. Conclusion

本文提出了运动引导的掩码自动编码器 (MGMAE)，它通过运动引导的掩码策略，在光流的指导下动态采样未掩码的可见 Token，从而抑制信息泄露，为掩码视频预训练构建了一个更具挑战性的任务。实验结果表明，MGMAE 性能良好，并在公平比较的条件下始终保持对现有方法的显著性能优势。此外，该策略还降低了预训练过程中过拟合的风险，使得模型能够从更长时间的预训练中受益。

查看全文

http://www.dtcms.com/a/27286.html