当前位置：首页 > news >正文

VideoMAE论文笔记

news 2025/7/8 18:53:45

原文笔记

What

对比NLP里的Bert提出了视频掩码的自编码器 Video Mask Auto Encoder，目的为了未视频人物提出更有效的视频表示。

Why

1、通常需要在超大规模数据集上预训练视频Transformer，以在相对较小的数据集上实现最佳性能。(这是因为需要大量数据集才能使用于视频的Transformer掌握视频中的高级语义，叫好像人类要先理解语言，参能理解表达的含义），如果直接在小数据集上训练，可能会使模型掌握不到不到高级语义特征。

2、现有的视频数据集与图像数据集相比相对较小，这进一步增加了从头开始训练视频变换器的难度。

3、对于视频转换器[3，6]，它们通常来自基于图像的转换器，并且严重依赖于来自大规模图像数据的预训练模型（例如ImageNet [58]），因此，学习的视频变换器自然会受到基于图像的模型的影响。

Challenge

视频的额外时间维度使其不同于掩模建模中的图像。

维度	Temporal Redundancy（时间冗余）	Temporal Correlation（时间相关性）
本质	相邻帧内容的重复性（信息冗余），源于高密度采样和缓慢的语义变化。	帧间内容的对应关系（如物体运动轨迹、外观演化），源于时间序列的连续性。
表现形式	相邻帧的像素级信息高度相似（如静态场景的连续帧）。	帧间存在语义层面的关联（如同一物体在不同帧的位置、姿态变化）。
对模型的影响	模型可能利用冗余信息直接 “复制” 像素级内容，跳过高层语义理解，导致学习不充分。	模型可能通过帧间对应关系找到被掩码内容的 “副本”，依赖 “捷径” 而非真正的时空推理能力。
解决目标	需设计掩码策略避免模型依赖像素级复制，推动其学习语义层面的内容。	需通过掩码策略打破帧间内容的直接对应，防止信息泄露，强制模型学习跨帧关联。

How

一、针对时间冗余的策略：高比例掩码与下采样剪辑

极端高比例掩码
- 操作：从下采样后的视频剪辑中以极高比例丢弃时空立方体（Tube Masking），迫使模型无法依赖相邻帧的像素级冗余信息（如直接复制未掩码区域的内容），转而学习高层语义关联（如动作的时间演化模式）。
- 效果：提升预训练性能，同时因掩码比例高，需重建的内容减少，降低计算量。
下采样剪辑预处理
- 目的：通过降低视频帧的时间采样密度（如减少帧率），缓解原始视频中高密度采样带来的冗余问题，使掩码操作更聚焦于关键时间点的语义信息。

二、针对时间相关性的策略：管道掩码（Tube Masking）策略

管道掩码的设计逻辑
- 定义：将视频视为由时空管道（Tube，即空间区域在时间维度上的延伸）组成，对连续时间维度的空间块进行整体掩码，形成 “时空立方体” 掩码单元。
- 作用：通过掩码连续的时间帧区域，打破帧间内容的直接对应关系（如同一物体在相邻帧的位置关联），减少重建时的信息泄露（避免模型通过相邻未掩码帧直接找到被掩码内容的 “副本”）。
缓解无运动或低运动场景的信息泄露
- 针对场景：当视频中物体运动较少（如静态场景或缓慢动作）时，帧间内容高度相关，普通掩码易导致信息泄露。
- 策略效果：管道掩码强制模型在无运动或低运动区域中学习跨帧的语义依赖，而非依赖像素级复制，提升模型泛化能力。

三、架构优化：非对称编码器 - 解码器设计

架构特点
- 编码器仅处理未掩码的视频块，解码器负责重建掩码内容。
与掩码策略的结合
- 高比例掩码下，编码器输入数据量减少，计算成本降低；解码器仅需重建少量掩码区域，进一步优化计算效率，同时不影响模型学习能力。

原文翻译

Abstract

通常需要在超大规模数据集上预训练视频Transformer，以在相对较小的数据集上实现最佳性能。我们表明，视频掩蔽自动编码器（VideoMAE）是自监督视频预训练（SSVP）的数据高效学习器。我们受到最近ImageMAE的启发[31]并提出了定制的使用极高比率的视频管掩蔽(video tube masking with an extremely high ratio)。这种简单的设计使视频重建更具有挑战性和有意义的自我监督任务，从而鼓励在预训练过程中提取更有效的视频表示。我们通过VideoMAE获得了三个重要发现：(1)视频MAE的掩蔽比即使在90%~ 95%的范围内也能获得良好的性能，视频内容的时间冗余使得掩蔽比率高于图像。(2)VideoMAE在非常小的数据集（即大约3 k-4k视频）上取得了令人印象深刻的结果，而无需使用任何额外的数据。这部分归因于视频重建的挑战性任务，以执行高级结构学习。(3)VideoMAE表明，对于SSVP，数据质量比数据量更重要。预训练和目标数据集之间的域转换是一个重要因素。值得注意的是，我们的VideoMAE与vanilla ViT骨干可以在Kinects-400上实现87.4%，在SomethingSomething V2上实现75.4%，在UCF 101上实现91.3%，在HMDB 51上实现62.6%，而无需使用任何额外的数据。代码可在https://github.com/MCG-NJU/VideoMAE上获得。

Introduction

Transformer [71]在自然语言处理[18，7，55]方面带来了重大进展。视觉Transformer [21]还改进了一系列计算机视觉任务，包括图像分类[67，89]，对象检测[8，38]，语义分割[81]，对象跟踪[14，17]和视频识别[6，3].线性投影图像/视频标记上的多头自注意能够在空间或时间上建模视觉内容之间的全局依赖性。通过这种灵活的注意机制，有效地减少了归纳偏差。

训练有效的视觉转换器（ViTs）通常需要大规模的监督数据集。最初，预训练的ViT通过使用数亿个标记图像来实现良好的性能[21]。对于视频转换器[3，6]，它们通常来自基于图像的转换器，并且严重依赖于来自大规模图像数据的预训练模型（例如ImageNet [58]）。以前从头开始训练视频变换器的试验[3，6]产生了不令人满意的结果（除了具有强归纳偏差的MViT [22]）。因此，学习的视频变换器自然会受到基于图像的模型的影响，并且如何在不使用任何预训练模型或者额外图像数据的情况下有效地和高效地在视频数据集本身上训练普通视觉Transformer仍然是一个挑战。此外，现有的视频数据集与图像数据集相比相对较小，这进一步增加了从头开始训练视频变换器的难度。同时，自监督学习在使用大规模图像数据集时表现出了显著的性能[15，9]。当转移到下游任务时，学习的表示优于通过监督学习的表示。预计这种自监督学习范式可以为解决训练视频转换器的挑战提供有前途的解决方案。

随着掩码自动编码在NLP和图像中的成功[31,4]，我们提出了一种新的自监督视频预训练（SSVP）方法，称为视频掩码自动编码器（VideoMAE）。我们的VideoMAE继承了屏蔽随机立方体和重建缺失立方体的简单管道。然而，视频的额外时间维度使其不同于掩模建模中的图像。首先，视频帧通常被密集捕获，其语义随时间变化缓慢[88]。这种时间冗余性会增加在缺乏高层次理解的情况下从时空邻域恢复缺失像素的风险。视频可以看作是静态外观的时间演化，帧与帧之间存在对应关系。除非考虑特定的掩蔽策略，否则这种时间相关性可能导致重建过程中的信息泄漏（即被掩蔽的时空内容再次出现）。从这个意义上说，对于每个被屏蔽的立方体，很容易在相邻的帧中找到一个相应的和未被屏蔽的副本。这个属性将使学习模型识别出一些“捷径”特征，这些特征很难推广到新的场景中。

为了使视频掩蔽建模更有效，在本文中，我们在 VideoMAE 中提出了一种具有极高比率的管掩蔽定制设计。首先，由于时间冗余，我们使用极高的掩蔽率从下采样的片段中删除立方体。这种简单的策略不仅有效地提高了预训练性能，而且由于编码器-解码器架构不对称，大大降低了计算成本。其次，为了考虑时间相关性，我们设计了一种简单而有效的管掩蔽策略，事实证明，这有助于缓解重建过程中没有或可以忽略运动的立方体信息泄漏的风险。在我们的VideoMAE中，通过这种简单而有效的设计，我们能够在相对较小的视频数据集(如Something-Something[26]、UCF101[61]和HMDB51[35])上成功训练香草ViT骨干，在没有额外数据的情况下，显著优于之前的技术水平。总之，本文的主要贡献有三个方面：

我们提出了一个简单但有效的视频掩码自动编码器，它释放了普通视觉转换器在视频识别方面的潜力。据我们所知，这是第一个仅使用普通 ViT 主干的掩码视频预训练框架。为了缓解蒙面视频建模中的信息泄漏问题，我们提出了比例极高的管掩蔽，提高了VideoMAE的性能。
与 NLP 和图像在掩码建模上的结果一致，我们的 VideoMAE 表明这种简单的掩码和重建策略为自监督视频预训练提供了良好的解决方案。使用 VideoMAE 预训练的模型明显优于从头开始训练或使用对比学习方法进行预训练的模型。
我们获得了关于掩蔽建模的额外重要发现，这在 NLP 和 Images 的先前研究中可能被忽略。(1)我们证明了VideoMAE是一个数据高效的学习器，可以用3.5k的视频成功训练。(2) 当源数据集和目标数据集之间存在域转移时，数据质量比 SSVP 的数量更重要。

2 Related Work

Video representation learning.学习好的视频表示在文献中得到了广泛的研究。监督学习方法[59,76,70,10,6]通常依赖于图像主干。视频编码器主干首先使用监督形式的图像数据进行预训练。然后，这些主干在视频数据集上进行微调，用于对人类行为进行分类。同时，一些方法 [68]、23、22] 以有监督的方式直接从视频中训练视频主干。除了监督学习之外，还研究了半监督视频表示学习[60]。标记训练样本的表示用于为未标记的训练样本生成监督信号。监督或半监督表示学习主要使用自上而下的训练范式，这在探索固有的视频数据结构本身方面并不有效。同时，已经开发了一些多模态对比学习方法[37、43、63]来从嘈杂的文本监督中学习视频表示。

对于自监督学习，时间信息的先验知识已被广泛用于设计SSVP的借口任务[79,45,83,5]。最近，对比学习[29,46,30,53,25,28]很受欢迎，以学习更好的视觉表征。然而，这些方法严重依赖于强数据增强和大批处理大小[24]。通过使用CNN或LSTM主干[49,62]，或使用自回归GPT进行视频生成[84]，研究了在像素空间中使用自编码器预测视频片段。相反，我们的VideoMAE的目标是使用简单的掩码自动编码器和最新的ViT主干来执行数据高效的SSVP。

Masked visual modeling.掩码视觉建模已经被提出来，他基于掩码和重建的简单管道学习有效的视觉表示。这些工作主要集中在图像域。早期的工作[73]将掩蔽作为去噪自动编码器中的噪声类型[72]或通过使用卷积来修复缺失区域[48]。iGPT [11]跟随GPT [7]的成功，56]在NLP中并操作一系列像素进行预测。原始的ViT [21]研究了用于自监督预训练的掩码标记预测。最近，视觉Transformer的成功导致了对用于掩码视觉建模的基于transformer的架构的研究[4，20，31，80，82，90]。BEiT [4]，BEVT [77]和VIMPAC [65]遵循BERT [18]，并提出通过预测离散tokens[57]从图像和视频中学习视觉表示。MAE [31]引入了用于掩码图像建模的非对称编码器-解码器架构。MaskFeat [80]提出重建掩码令牌的HOG特征以执行自监督预处理。视频中的训练。VideoMAE受到ImageMAE的启发，并在SSVP的实现中引入了特定的设计。特别是，与以前的掩码视频建模[31，77，65]相比，我们通过直接重建像素来提供更简单但更有效的视频掩码自动编码器。我们的VideoMAE是第一个简单使用普通ViT骨干的掩码视频预训练框架。

3 Proposed Method

在本节中，我们首先回顾ImageMAE [31]，然后分析视频数据的特性。最后，我们展示了如何通过展示我们的VideoMAE来探索视频数据中的MAE。

3.1 Revisiting Image Masked Autoencoders

ImageMAE [31]使用非对称编码器-解码器架构执行掩码和重建任务。首先将输入图像I ∈ R^(3×H×W)划分为大小为16 ×16的规则非重叠补丁，并使用token embedding表示每个补丁。然后以高掩蔽比（75%）随机掩蔽令牌子集，并且只有剩余的被馈送到Transformer编码器Φenc。最后，将浅解码器Φdec放置在来自编码器的可见令牌和可学习掩码令牌的顶部以重建图像。损失函数是在像素空间中归一化的掩码标记和重建的标记之间的均方误差（MSE）损失：

3.2 Characteristics of Video Data

与静态图像相比，视频数据包含时间关系，本文通过分析视频数据的特点，说明了VideoMAE的动机。

Temporal redundancy.视频中的帧都是连续频繁采样的。语义在时间维度上变化缓慢[88]。我们观察到连续帧是高度冗余的，如图2所示。此属性导致掩码视频自动编码中的两个关键问题。首先，保持原始时间帧速率用于预训练是不太有效的。这将促使我们在掩蔽建模中更多地关注静态或慢动作。第二，时间冗余极大地稀释了运动表示。这将使重建丢失像素的任务在正常掩蔽比下并不困难编码器主干在捕获运动表示方面不是有效的。

Temporal correlation.视频可以被视为静态外观的时间延伸，因此相邻帧之间存在固有的对应关系。这种时间相关性可能会增加掩蔽和重建管道中的信息泄漏风险。在这个意义上，如图2所示，我们可以通过在普通随机掩蔽(或者帧掩蔽）下在相邻帧中找到时空对应的未掩蔽块来重建掩蔽块，在这种情况下，它可能会引导VideoMAE学习低级别的时间对应关系，而不是高级别的信息，如内容的时空推理。为了减轻这种行为，我们需要提出一种新的掩蔽策略，使重建更具挑战性，并鼓励时空结构表示的有效学习。

图2:慢度是(a)视频数据[88]中的一般先验。这导致时间的两个重要特征：时间冗余和时间相关性。时间冗余使得在极高的掩蔽率下恢复像素成为可能。时间相关性通过在普通 (b) 帧掩蔽或 (c) 随机掩蔽下找到相邻帧中的相应补丁来轻松重建丢失的像素。为了避免这个简单的任务并鼓励学习代表性表示，我们提出了一种 (d) 管掩码，其中所有帧的掩码图都是相同的。

3.3 VideoMAE

为了缓解视频掩码建模中的上述问题，我们在我们的VideoMAE中进行了定制设计，整体流水线如图1所示。我们的VideoMAE以下采样帧为输入，使用立方体嵌入来获得视频token。然后，我们提出了一种简单的高比率管掩蔽设计以非对称encoderdecoder结构来进行MAE预训练，我们的骨干使用vanilla ViT与联合时空注意力机制。

Temporal downsampling. 根据上述对连续帧上时间冗余的分析，我们提出使用跨时间采样策略来执行更有效的视频预训练。形式上，首先从原始视频V中随机采样一个由t个连续帧组成的视频片段。然后使用时间采样将片段压缩为T帧，每个帧包含H × W × 3个像素。在实验中，步幅τ在Kinetics和Something-Something上分别设置为4和2。

Cube embedding.我们在我们的VideoMAE中采用联合时空立方体嵌入[3，22，39]，其中我们将每个大小为2 × 16 × 16的立方体视为一个令牌嵌入。因此，立方体嵌入层获得T/2 × H/16 × W/16个3D令牌并将每个令牌映射到通道维度D。这种设计可以减少输入的空间和时间维度，这有助于减轻视频中的时空冗余。

Tube masking with extremely high ratios. 首先，时间冗余是影响VideoMAE设计的一个因素，我们发现VideoMAE有利于极高的掩蔽比（例如90%至95%）与ImageMAE相比。视频信息密度远低于图像，高的掩蔽比有助于减少掩蔽建模过程中的信息泄漏，重建是一个有意义的自我监督的预训练任务。

其次，时间相关性是我们VideoMAE设计中的另一个因素。我们发现，即使在极高的掩蔽比下，我们仍然可以通过提出时间管掩蔽机制来提高掩蔽效率。时间管掩蔽强制掩蔽在整个时间轴上扩展，即不同的帧共享相同的掩蔽图。数学上，管掩蔽机制可以表示为I[px;y;· 2 <$$>]<$Bernoulli（ρmask）与不同时刻t共享相同的值。利用这种机制，掩蔽立方体的时间邻居总是被掩蔽。因此，对于一些没有运动或运动很小的立方体，（例如，图2（d）的第4行中的手指立方体），我们不能在所有帧中找到时空对应内容。这将鼓励我们的VideoMAE通过高级语义推理来恢复这些完全丢失的立方体。这种简单的策略可以减轻没有运动或运动可以忽略的立方体的信息泄漏，并且在实际中被证明是有效的。

Backbone: joint space-time attention. 由于上面提到的高比例的掩蔽比，只有少数令牌被留下作为编码器的输入。为了更好地捕获剩余令牌中的高级时空信息，我们使用vanilla ViT骨干[21]并采用联合时空注意力[3，39]。因此，所有对令牌都可以在多头自注意层中相互作用[71]。编码器和解码器的具体架构设计在补充材料中显示。联合空间的二次复杂度-时间注意机制是计算瓶颈，而我们的极高掩蔽比的设计通过在预训练阶段期间仅将未掩蔽的令牌（例如，10%）放入编码器中来解决该问题。