当前位置：首页 > news >正文

读VJEPA 2

news 2025/7/3 18:42:28

论文：Self-Supervised Video Models Enable Understanding, Prediction and Planning

作者：Meta FAIR Yann LeCun 领衔

摘要

当前人工智能领域面临的一个核心挑战是如何通过观察来学习对世界的理解与行为策略（LeCun, 2022）。本文提出了一种结合互联网级视频数据与少量机器人交互数据（轨迹信息）的自监督学习方法，旨在构建能够在物理环境中实现感知、预测与规划能力的智能模型。

首先，我们在包含超过100万小时互联网视频的图像与视频数据集上预训练了一个无动作输入的联合嵌入-预测架构——V-JEPA 2。实验结果表明，该模型在运动理解任务中表现出色，在** Something-Something v2** 数据集上取得了77.3%的Top-1准确率；同时在人类动作预测任务中也达到了当前最优性能，在 Epic-Kitchens-100 数据集上的Recall@5指标为39.7%，优于以往基于特定任务设计的模型。

进一步地，我们将 V-JEPA 2 与大规模语言模型进行跨模态对齐，并在多个视频问答任务中验证其泛化能力。在参数规模约为80亿的情况下，模型在 **PerceptionTest 和 TempCompass **任务上分别取得了84.0和76.9的优异成绩，体现了其在多模态理解和推理方面的优势。

最后，我们探索了该自监督框架在机器人规划任务中的应用潜力。通过对来自 Droid 数据集的不足62小时未标注机器人视频进行后训练，构建了一个潜在动作条件的世界模型——V-JEPA 2-AC。在无需目标环境数据采集、也不依赖任务特定训练或奖励函数的前提下，我们将该模型零样本部署于两个不同实验室中的 Franka 机械臂平台上，成功实现了基于图像目标的物体抓取与放置操作。

引言

人类在面对新任务或在不熟悉的环境中操作时具备适应和泛化的能力。多种认知学习理论指出，人类通过整合low-level的传感输入来构建内部世界模型，以此表示并预测未来状态（Craik, 1967; Rao and Ballard, 1999），并且进一步（posit）假定这个世界模型塑造了我们在任一时刻的感知，在任何时间点上对我们理解现实起着关键作用。此外，我们预测自身行为对未来世界状态影响的能力对于目标导向的规划也至关重要（Sutton and Barto, 1981, 1998; Ha and Schmidhuber, 2018; Wolpert and Ghahramani, 2000）。构建能够从感觉数据（如视频）中学习世界模型的人工智能体，可以使它们理解物理世界、预测未来状态，并有效地——如同人类一样——在新情境中进行规划。这将导致系统能够处理未曾遇到过的任务。

已有研究通常基于状态-动作序列的交互数据来构建具有预测能力的世界模型，并常依赖于环境中提供的显式奖励反馈以推断任务目标。然而，真实世界交互数据的获取受限，限制了这些方法的可扩展性。

为应对这一局限，近期一些研究尝试结合互联网规模的视频数据与交互数据，训练动作条件下的视频生成模型以用于机器人控制。然而，在基于模型的控制策略下，其在机器人执行任务方面的效果仍较为有限。

特别地，这类研究往往更关注预测结果的真实性与视觉质量的评估，而非模型在规划能力方面的表现，这可能是因为通过视频生成进行规划所需计算成本较高所致。

在本研究中，我们基于自监督学习的假设，旨在通过大量观察数据来学习能够捕捉世界背景知识的世界模型。具体而言，我们采用联合嵌入预测架构（Joint-Embedding Predictive Architecture，JEPA）（LeCun, 2022），该架构通过在一个学习得到的表示空间中进行预测来实现模型训练。

与完全依赖交互数据进行学习的方法不同，自监督学习使我们能够利用互联网规模的视频数据——这些视频展示了状态序列，但未直接包含动作信息——从而同时学习视频观测的表示形式，并在该表示空间中建立对世界动态的预测模型。

此外，相较于基于视频生成的方法，JEPA 更侧重于学习场景中可预测部分（例如运动物体的轨迹）的表示，而忽略那些生成式目标所强调的不可预测细节（如场域中每根草的位置或每片树叶的具体形态），因为后者通常要求进行像素级的预测。

通过扩大 JEPA 的预训练规模，我们验证了其可以产生具有当前最优性能的视频表示，在理解与预测能力方面表现突出。更重要的是，这类表示可进一步作为构建动作条件预测模型的基础，并支持零样本规划能力的实现。

我们的方法 V-JEPA 2 采用一种分阶段的训练流程，首先在互联网规模的视频数据上进行无动作的预训练，随后使用少量的交互数据进行后续训练（见图1）。

在第一阶段，我们采用了掩码-去噪特征预测目标，模型在所学习的表示空间中预测视频中被掩码遮蔽的部分。我们训练了一个参数量高达 10亿的 V-JEPA 2 编码器，并使用了超过 100万小时的视频数据。实验表明，扩大自监督视频预训练的规模可以增强编码器实现视觉理解的能力，包括广泛的运动和外观识别能力。我们通过基于探针的评估方式，并将编码器与语言模型对齐用于视频问答任务，验证了这一结论。

在完成互联网视频的大规模预训练之后，我们在少量的交互数据上训练一个动作条件化世界模型 V-JEPA 2-AC，该模型使用的是第一阶段所学到的表示。我们的动作条件化世界模型是一个拥有 3亿参数的 Transformer 网络，采用了块因果注意力机制（block-causal attention），能够根据动作和先前状态自回归地预测下一帧视频的表示。

仅使用来自 Droid 数据集（Khazatsky 等，2024）的 62小时未标注交互数据，我们就展示了训练一个潜在空间世界模型的可行性：该模型在给定子目标的情况下，可用于指导 Franka 机械臂进行规划，并能通过单目 RGB 摄像头，在新环境中零样本执行抓取操作等操控任务。

综上所述，我们展示了基于视频数据训练的联合嵌入预测架构可用于构建一个具备理解物理世界、预测未来状态以及在新情境中进行有效规划能力的世界模型。该模型通过利用互联网规模的视频数据与少量交互数据得以实现。具体而言，本文的主要贡献包括以下几个方面：

理解 ——基于探针的分类任务：扩大自监督视频预训练的规模能够生成适用于多种任务的视频表示。V-JEPA 2 在编码细粒度运动信息方面表现出色，在诸如 Something-Something v2 等需要运动理解的任务上取得了 Top-1 准确率 77.3 的优异成绩，使用注意力机制探针进行评估。
理解 —— 视频问答任务：V-JEPA 2 编码器可用于训练多模态大语言模型，以解决视频问答任务。我们在多个需要物理世界理解和时序推理的基准测试中观察到了当前最优性能（80亿参数级别），例如 MVP（44.5 配对准确率）、PerceptionTest（84.0 测试集准确率）、TempCompass（76.9 多选题准确率）、TemporalBench（36.7 多二分类短问答准确率）和 TOMATO（40.3 准确率）。尤其值得注意的是，我们展示了在完全没有语言监督的情况下预训练的视频编码器也可以与语言模型对齐，并达到先进水平，这与传统认知不同（Yuan et al., 2025；Wang et al., 2024b）。
预测：大规模的自监督视频预训练显著增强了模型的预测能力。V-JEPA 2 在 Epic-Kitchens-100 数据集的人类动作预测任务中表现突出，使用注意力探针取得 Recall@5 为 39.7 的成绩，较之前最佳模型提升了 44%。
规划：我们展示了通过在流行的 Droid 数据集中仅使用 62 小时的未标注机器人操作数据对 V-JEPA 2 进行后训练所得到的动作条件世界模型 V-JEPA 2-AC，可以在新的环境中部署并使用图像目标规划完成抓取类操作任务。在未使用实验室中任何额外机器人数据、也无需特定任务训练或奖励函数的前提下，该模型成功完成了如 Grasp 和 Pick-and-Place 等操作任务，即使面对新对象和新环境也能保持良好性能。
本文其余部分组织如下：第2节介绍 V-JEPA 2 的预训练过程，包括使其超越 Bardes 等人（2024）提出的原始 V-JEPA 方案的关键技术改进；第3节提出一种任务无关的动作条件世界模型 V-JEPA 2-AC 的构建方法，依托于预训练的 V-JEPA 2 模型；第4节展示如何通过基于模型的规划方法将 V-JEPA 2-AC 应用于机器人控制；由于 V-JEPA 2-AC 是在学习到的表示空间中建模世界动态，其能力本质上依赖于 V-JEPA 2 所捕获的信息，因此第5节进一步探讨其在视频理解任务中的表现，第6节分析其在预测任务中的性能；第7节展示如何将 V-JEPA 2 与语言模型对齐，以实现视频问答功能；第8节讨论相关工作；最后在第9节总结全文

Overview of V-JEPA 2
我们利用100万小时的互联网规模视频数据及100万张图像，基于视觉掩码去噪目标（Bardes 等，2024；Assran 等，2023）对 V-JEPA 2 视频模型进行预训练，并通过将该模型与大语言模型（LLM）主干网络对齐，将其应用于动作分类、物体识别、动作预测以及视频问答等下游任务。在完成预训练后，我们可以冻结视频编码器，并在其所学习到的表示基础上，仅使用少量机器人交互数据训练一个新的动作条件预测模块。我们将这一具备动作条件建模能力的模型命名为 V-JEPA 2-AC，并将其用于基于模型预测控制框架内的规划，以完成下游的机器人操作任务
多阶段训练和条件predictor的训练
我们首先基于互联网规模的图像与视频数据，使用视觉掩码去噪目标（Bardes 等，2024；Assran 等，2023）对 V-JEPA 2 的视频编码器进行预训练。具体而言，一段视频被划分为若干图像块（token），并通过随机移除其中一部分图像块的方式施加掩码。随后，编码器处理该被掩码的视频序列，并为每个输入图像块生成对应的嵌入向量。
接下来，编码器的输出将与一组可学习的掩码标记（mask tokens）进行拼接，这些标记用于指示被掩码图像块的空间位置信息，并由预测器进一步处理。预测器的输出通过 L1 损失函数被回归至相应的预测目标。这些预测目标由一个 EMA 编码器（ema-encoder）生成，其权重是原始编码器权重的指数移动平均（Exponential Moving Average, EMA）。
如右图所示，在完成预训练后，我们冻结视频编码器的参数，并在其所学习到的表示基础上，训练一个新的动作条件化预测器 V-JEPA 2-AC。我们采用自回归特征预测目标，即根据历史视频帧、动作指令以及末端执行器的状态，逐步预测未来帧的表示。
该动作条件化预测器采用了块因果注意力机制（block-causal attention pattern），确保在任意给定时间步中，每个图像块特征都能够关注当前及之前时间步中的图像块特征、动作指令以及末端执行器状态，从而实现对动态场景的有效建模。

2 V-JEPA 2：扩展自监督视频预训练

我们在一个包含超过100万小时视频数据的视觉数据集上对 V-JEPA 2 进行预训练。该自监督训练任务基于在表示空间中进行掩码去噪，其设计建立在 V-JEPA 框架基础之上（Bardes 等，2024）。本文在原有框架基础上进行了多项扩展：探索更大规模的模型结构、增加预训练数据量，并引入一种时空渐进式分辨率训练策略，使得模型能够高效地处理超出传统短片段（如16帧）视频的预训练任务。

2.1 掩码去噪在表示空间中的实现

V-JEPA 的训练目标是从一段被掩码处理的视频视图 $x$ 中，预测该视频在表示空间中的完整表示 $y$ 。
其中，视图 $x$ 是通过对原始视频随机丢弃部分图像块（patch）得到的（见图左侧）。整个任务的元架构由两部分组成：一个用于提取视频表示的编码器 $E_\theta(\cdot)$ ，以及一个用于预测被掩码区域表示的预测器 $P_\phi(\cdot)$ 。编码器与预测器通过如下目标函数联合训练：

$\min_{\theta, \phi, \Delta_y} \| P_\phi(\Delta_y, E_\theta(x)) - \text{sg}(E_\theta(y)) \|_1$

其中， $\Delta_y$ 为可学习的掩码标记（mask token），用于指示被丢弃图像块的位置。损失函数中引入了停止梯度操作 $\text{sg}(\cdot)$ ，以及编码器参数 $\theta$ 的指数滑动平均 $\bar{\theta}$ ，以防止表示空间发生坍塌（representation collapse）。该损失仅作用于被掩码区域的预测结果上。

编码器 $E_\theta(\cdot)$ 与预测器 $P_\phi(\cdot)$ 均采用视觉Transformer（Vision Transformer，ViT）结构进行参数化（Dosovitskiy 等，2020）。为了在视觉Transformer中建模相对位置信息，我们采用旋转位置嵌入（Rotary Position Embedding，RoPE），而非 Bardes 等（2024）工作中使用的绝对位置编码 sincos。

我们使用了对传统1D-RoPE 的三维扩展形式（Su 等，2024），具体做法是将特征维度划分为三个大致相等的部分，分别对应时间轴、高度轴和宽度轴，并在每个轴上独立应用一维旋转操作。实验表明，在最大规模的模型训练中，相较于绝对位置编码（Vaswani 等，2017），使用3D-RoPE有助于提升训练稳定性。

在使用Transformer编码器处理视频输入时，首先将视频切分为一系列大小为 $\times 16 \times 16$ （时间 × 高度 × 宽度）的 tubelet 序列，并采用与 Bardes 等（2024）相同的多块掩码策略进行掩码采样。

关键扩展要素
在本节中，我们介绍并分析了四项关键的技术改进要素，这些要素使得 V-JEPA 的预训练机制能够有效扩展，从而获得性能更优的 V-JEPA 2 模型。具体包括：

数据扩展：通过引入和整理更多数据源，我们将训练所用的视频数量从原有的 200 万条扩展至 2200 万条。
模型扩展：我们将编码器结构的参数量从 3 亿扩展至超过 10 亿，即由 ViT-L 扩展至 ViT-g（Zhai 等，2022）。
延长训练周期：我们采用“预热-常数-衰减”形式的学习率调度策略，简化了超参数调优过程，并将训练迭代次数从 90,000 步提升至 252,000 步，从而更充分地利用新增数据。
分辨率提升：借助上述学习率调度策略，我们在训练过程中实现了对更高分辨率视频和更长视频片段的有效扩展。具体而言，在预热阶段和常数阶段使用较短且低分辨率的视频片段进行训练，随后在最终的衰减阶段逐步提升视频分辨率和/或片段长度。
本节后续内容将对上述每一项扩展要素进行详细描述，并基于下一节所述评估协议，量化每项要素对整体性能的具体影响。

评估协议
我们进行模型预训练的目标是将通用的视觉理解能力注入编码器中。因此，为了评估模型及其数据设计的选择，我们在六个涉及运动与外观分类的任务上对模型所学习到的表示质量进行了测试，这些任务包括：Something-Something v2（Goyal 等，2017）、Diving-48（Li 等，2018）、Jester（Materzynska 等，2019）、Kinetics（Kay 等，2017）、COIN（Tang 等，2019）以及 ImageNet（Deng 等，2009）。

我们采用“冻结评估”（frozen evaluation）协议：即固定编码器参数不变，在其输出的表示之上训练一个任务特定的四层注意力探针（attentive probe），用于预测类别标签。
在本节中，我们主要关注模型在这六项理解任务上的平均准确率表现。关于各项任务的具体细节、评估协议及完整结果，请参见第5节的相关内容。

效果图

2.2 扩展自监督视频学习

我们首先对扩展性分析中的关键发现进行总结，重点考察上述四项关键技术要素对下游任务平均性能的影响。图3展示了这些扩展策略在六个分类任务上的平均准确率提升效果，实验以基于 ViT-L/16 结构、使用 V-JEPA 目标函数、在200万条视频上预训练得到的模型作为基线。
将训练数据从200万条扩展至2200万条（VM22M），平均准确率提升了1.0个百分点；将模型参数量从3亿扩展至10亿（即由 ViT-L 扩展至 ViT-g/16），进一步带来了1.5个百分点的提升；将训练迭代次数从90,000步增加到252,000步，又贡献了0.8个百分点的增益；最后，在预训练和评估阶段同时提升视频的空间分辨率（从256提升至384）和时间长度（从16帧扩展至64帧），使整体性能达到88.2%，相较基线 ViT-L/16 提升了累计4.0个百分点。
每一项改进均对模型性能产生了积极影响，验证了在视频自监督学习（SSL）中通过系统性扩展提升模型能力的有效性和潜力。

预训练数据集

2.3 预训练数据集
接下来，我们介绍用于模型预训练的视频与图像数据来源，并说明我们的数据集构建与筛选方法。

数据集规模扩展
我们通过整合多个公开可用的数据源构建了一个大规模的视频预训练数据集。本研究中使用公开数据源的目的在于便于其他研究人员复现相关结果。该数据集主要包括以下几类内容：

来自 Goyal 等（2017）提出的 Something-Something v2 数据集（SSv2）的第一视角视频；
来自 Kinetics 400、600 和 700（Kay 等，2017；Carreira 等，2018, 2019）的第三人称动作视频；
来自 HowTo100M（Miech 等，2019）的 YouTube 教程视频；
来自 YT-Temporal-1B（Zellers 等，2022）的通用 YouTube 视频（记为 YT1B）；
此外，我们还引入了 ImageNet（Deng 等，2009）中的图像数据，以提升预训练阶段的视觉覆盖范围。
为了支持图像与视频的联合训练，我们将每张图像在时间维度上复制为一个包含16帧的视频片段，所有帧内容一致。在训练过程中，我们对各个数据源按经验设定采样权重进行采样。最终构建的数据集被命名为 VideoMix22M（简称 VM22M），共包含2200万个样本。表1列出了各数据源及其对应的采样权重。

图4（左）展示了基于 ViT-L/16 结构、在 VM22M 上预训练的模型与 Bardes 等（2024）所使用的较小规模数据集（VideoMix2M，仅含200万样本）训练模型之间的性能对比。实验结果显示，在视觉理解任务上的平均准确率提升了1个百分点。尤其在外观相关任务（如 Kinetics-400、COIN 和 ImageNet）中，性能提升更为显著，表明扩大视觉覆盖范围对这些任务具有重要意义。

数据筛选策略
YT1B 是一个包含140万小时视频的大规模数据集，相较于 Kinetics 或 Something-Something v2 等小规模数据集，其缺乏系统性筛选和过滤机制。研究表明，未经筛选且分布不均衡的数据可能影响模型性能（Assran 等，2022；Oquab 等，2023）。因此，我们借鉴已有检索式筛选流程，设计了一套针对视频数据的筛选机制。

具体而言，我们从 YT1B 中提取视频场景，为每个场景生成嵌入向量，并采用基于聚类的检索方法（Oquab 等，2023）根据目标分布选择视频片段。目标分布由 Kinetics、Something-Something v2、COIN 和 EpicKitchen 的训练集构成。数据集构建的具体细节见附录A.2。与 Oquab 等（2023）类似，我们确保目标验证集中涉及的视频未被包含在原始未筛选的数据池中。
数据尺度和预训练的影响

图4（右）展示了基于 ViT-L 结构、分别在原始 YT1B 数据和经筛选后的 Curated-YT-1B 数据上预训练模型的平均性能对比。实验结果显示，使用筛选后的数据训练可使平均性能提升1.4个百分点。值得注意的是，在 ViT-L 规模下，Curated-YT-1B 模型的表现已接近完整 VM22M 数据集的效果。然而，在更大规模模型上，VM22M 的优势更为明显（见附录 A.2），表明将 Curated-YT-1B 与其他数据源结合有助于进一步提升模型的扩展能力。

2.4 预训练方案
模型规模扩展
为了探究模型在不同参数量下的扩展行为，我们训练了一系列编码器模型，其参数量从3亿（ViT-L）到10亿（ViT-g）不等。所有编码器结构的详细配置见附录表12。需要注意的是，所有编码器均采用相同的预测器结构，其规模接近 ViT-small。

图5（左）展示了这些编码器在视觉理解任务上的平均性能表现。将模型参数量从3亿（ViT-L）扩展至10亿（ViT-g），平均性能提升了1.5个百分点。运动理解和外观理解任务均从中受益，其中 Something-Something v2（SSv2）提升1.6个百分点，Kinetics 提升1.5个百分点（参见表4）。这些结果表明，自监督视频预训练能够有效利用更大容量的模型，直至达到10亿参数级别的 ViT-g 结构。

训练调度策略
V-JEPA 2 的训练采用了“预热-常数-衰减”形式的学习率调度策略（Zhai 等，2022；Hägele 等，2024）。类似于 Hägele 等（2024）的研究发现，该调度策略在性能上与半余弦调度（half-cosine schedule）（Loshchilov 和 Hutter，2016）相当；但该策略在长周期训练中更具成本效益，因为可以在常数阶段的不同检查点上启动多个衰减阶段的训练。

我们在 Bardes 等（2024）的基础上简化了训练方案：固定教师模型的指数移动平均（EMA）系数和权重衰减系数，而非使用逐步增加的 ramp-up 调度，因为后者对下游任务的影响较小。如图3所示，在 ViT-g 模型上，将训练迭代次数从90,000步延长至252,000步后，平均性能提升了0.8个百分点，验证了延长训练周期的有效性。此外，这种调度策略也便于在衰减阶段逐步提升视频的分辨率。

高效的渐进式分辨率训练
尽管大多数现有视频编码器主要关注16帧左右的短片段（约几秒长度）（Bardes 等，2024；Wang 等，2024b, 2023），我们在本工作中探索了更高空间分辨率下长达64帧（约16秒）的视频训练。然而，随着视频长度和分辨率的增加，训练成本显著上升——若直接在64×384×384输入上训练我们的 ViT-g 模型，预计需要约60 GPU年（见图5 中间部分）。

为缓解这一问题，我们引入了一种渐进式分辨率训练策略（Touvron 等，2019；Oquab 等，2023），在保持下游任务性能的同时大幅提升训练效率。具体而言，训练过程分为三个阶段：

预热阶段：首先使用16帧、256×256分辨率的视频进行训练，持续12,000步，并采用线性学习率增长；
主训练阶段：随后进入恒定学习率阶段，持续228,000步；
衰减阶段：最后在12,000步内线性降低学习率，同时逐步提升视频的时间长度和空间分辨率。
通过上述策略，我们在不牺牲性能的前提下显著降低了训练资源消耗，实现了高效的大规模视频表示学习。

模型消融

3 V-JEPA 2-AC：学习一个动作条件化世界模型
在完成预训练后，V-JEPA 2 模型能够对视频中缺失的部分进行预测。然而，这些预测并未直接考虑智能体可能执行动作所带来的因果影响。在本节所描述的下一阶段训练中，我们重点在于通过利用少量交互数据，使模型具备用于规划任务的能力。

具体而言，我们在冻结的 V-JEPA 2 视频编码器基础上，训练一个帧因果（frame-causal）的动作条件化预测模块（如图2右侧所示）。我们使用来自 Droid 数据集（Khazatsky 等，2024）的数据进行训练，该数据集包含通过遥操作采集的桌面 Franka Panda 机械臂实验数据。我们将由此获得的动作条件化模型命名为 V-JEPA 2-AC，并在第4节中展示该模型可被嵌入基于模型预测控制（Model Predictive Control, MPC）的规划框架中，在新环境中实现动作规划。

3.1 动作条件化世界模型训练
我们的目标是将预训练后的 V-JEPA 2 模型进一步拓展，获得一个可用于具身智能系统控制的潜在世界模型，并通过闭环模型预测控制实现其应用。为此，我们训练了 V-JEPA 2-AC，这是一个自回归模型，能够在给定控制动作和本体感知观测的前提下，预测未来视频观测的表示。

本节中，我们以固定外视角摄像头下的桌面机械臂为背景，介绍该框架的一个具体实现形式，其中控制动作对应于末端执行器的指令信号。模型训练使用了约62小时的 Droid 原始数据集中未标注的视频片段，这些视频通常持续3–4秒，来源于配备双指夹爪的7自由度 Franka Emika Panda 机械臂的操作过程。

此处“未标注”是指我们不使用额外元数据来指示任务奖励、演示任务类型或任务是否成功完成。我们仅使用原始视频数据以及数据集附带的末端执行器状态信号（每段视频均配有元数据，记录每一帧中末端执行器的状态：包括三维位置、三维方向及一个夹爪状态）。

模型输入
在每次训练迭代中，我们从 Droid 数据集中随机采样长度为4秒的视频片段作为小批量样本。为了简化处理，我们舍弃所有短于4秒的视频片段，最终保留的数据总量略少于62小时。

所采样的视频分辨率为
256×256，帧率为每秒4帧（fps），每个视频片段共包含16帧，记作 $x_k)_{k∈[16]}$ ，其中 $x_k$ 表示单帧图像。机械臂在每一帧中的末端执行器状态记作 $s_k)_{k∈[16]}$ ，其中 sk 是一个相对于机器人基座的7维实数向量。前三个维度表示末端执行器在笛卡尔空间中的位置，接下来的三个维度表示其以外部欧拉角形式表示的方向，最后一个维度表示夹爪状态。我们通过计算相邻帧之间的末端执行器状态变化，构造动作序列 $a_k)_{k∈[15]}$ 。具体地，每个动作 $a_k$ 是一个7维实数向量，表示从第 $k$ 帧到第 $k + 1$ 帧之间末端执行器状态的变化。
此外，我们对采样得到的视频片段进行了随机缩放裁剪增强（random resize crop），其中裁剪区域的宽高比在区间 (0.75,1.35)中随机选取。

损失函数
我们使用 V-JEPA 2 编码器 $E(\cdot)$ 作为图像编码器，并对视频片段中的每一帧独立编码，从而获得特征图序列 $(z_k)_{k\in[16]}$ ，其中 $z_k := E(x_k) \in \mathbb{R}^{H \times W \times D}$ ，$ H \times W $ 表示特征图的空间分辨率， $D$ 为其嵌入维度。在实际实现中，特征图由 ViT-g 编码器生成，其形状为 $16 \times 16 \times 1408$ 。需要注意的是，在该后训练阶段，编码器参数保持冻结状态。

特征图序列、末端执行器状态以及动作信号按时间顺序交错排列为 $(a_k, s_k, z_k)_{k\in[15]}$ ，并输入至 Transformer 预测网络 $ P_\phi(\cdot) $ 中，以生成下一时刻状态表示的预测结果 $(\hat{z}_{k+1})_{k\in[15]}$ 。

最终的标量值教师强制（teacher forcing）损失函数定义如下：

$\mathcal{L}_{\text{teacher-forcing}}(\phi) := \frac{1}{T} \sum_{k=1}^{T} \left\| P_\phi\left( (a_t, s_t, E(x_t))_{t \leq k} \right) - E(x_{k+1}) \right\|_1,$

其中 $T = 15$ 。

此外，我们还引入了一个两步展开（rollout）损失，以提升模型在推理阶段的自回归展开能力。为了表述简洁，并略微重载符号表示，设 $P_\phi(\hat{a}_{1:T}; s_k, z_k) \in \mathbb{R}^{H \times W \times D}$ 表示从初始状态 $s_k, z_k)$ 出发，并依次施加动作序列 $(\hat{a}_i)_{i\in[T]}$ 后，通过 V-JEPA 2-AC 自回归运行所得到的最终预测状态表示。则展开损失可表示为：

$\mathcal{L}_{\text{rollout}}(\phi) := \| P_\phi(a_{1:T}, s_1, z_1) - z_{T+1} \|_1.$

在实际训练中，我们设置 $ T = 2 $，即仅通过一个递归步骤对预测器进行梯度回传。

因此，整体训练目标为：

$\mathcal{L}(\phi) := \mathcal{L}_{\text{teacher-forcing}}(\phi) + \mathcal{L}_{\text{rollout}}(\phi),$

该目标函数对预测器参数 $\phi$ 进行最小化优化。

为了便于理解，图6展示了整个训练流程，其中教师强制和展开损失均以 $T = 4$ 的形式进行说明。
train process
\subsection{模型架构}

预测器网络 $ P_\phi(\cdot) $ 是一个参数量约为 3 亿的 Transformer 网络，包含 24 层、16 个注意力头、隐藏层维度为 1024，并使用 GELU 激活函数。输入到预测器的动作、末端执行器状态以及展平后的特征图分别通过可学习的仿射变换映射至预测器的隐藏空间。

类似地，预测器最后一层注意力块的输出也通过一个可学习的仿射变换映射回编码器的嵌入维度。

为了表示视频块在时空中的位置信息，我们采用 3D-RoPE 实现对展平特征图中每个视频块的位置编码，但仅将时间旋转变换位置编码（temporal rotary positional embeddings）应用于动作和姿态标记（token）。预测器中使用了块因果（block-causal）注意力模式，使得在任意给定时间步中，每个图像块特征可以关注当前时间步的动作、末端执行器状态以及其他图像块特征，同时也能访问之前时间步的信息。

\subsection{通过规划推断动作}

能量最小化

在获得目标状态图像后，我们通过规划方式利用 V-JEPA 2-AC 完成下游任务。具体而言，在每一个时间步，我们在固定时间范围内通过最小化一个目标条件化的能量函数来规划动作序列，然后执行第一个动作，观察新状态后重复该过程。

设 $s_k$ 表示当前末端执行器状态， $x_k$ 和 $x_g$ 分别表示当前观测帧和目标图像，它们通过视频编码器独立编码得到特征图 $z_k$ 和 $z_g$ 。对于给定的规划范围 $T$ ，我们通过最小化如下目标条件能量函数优化动作序列 $(\hat{a}_i)_{i \in [T]}$ ：

$E(\hat{a}_{1:T}; z_k, s_k, z_g) := \| P(\hat{a}_{1:T}; s_k, z_k) - z_g \|_1,$

其中最优动作为：
$(a^\star_i)_{i \in [T]} := \arg\min_{\hat{a}_{1:T}} E(\hat{a}_{1:T}; z_k, s_k, z_g).$

如图7所示，模型通过选择一条轨迹，使世界模型对未来 $T$ 步状态表示的“想象”与目标状态表示之间的 L1 距离最小，从而推断出动作序列 $(a^\star_i)_{i \in [T]}$ 。

在实际实现中，我们使用交叉熵方法（Cross-Entropy Method, CEM）（Rubinstein, 1997）在每一步规划中最小化式~\eqref{eq:energy_minimization}，并在机器人上执行第一个动作后重新进行规划，类似于滚动时域控制（receding horizon control）策略。

基于交叉熵方法的动作规划

在每一步规划中，我们使用交叉熵方法（Cross-Entropy Method, CEM）（Rubinstein, 1997）来最小化目标条件能量函数，并仅在机器人上执行第一个动作后重新进行规划，这一策略类似于滚动时域控制（receding horizon control）。尽管已有研究提出将世界模型用于规划或模型预测控制作为未来应用方向，但据我们所知，这是首次尝试使用 Cosmos 类模型进行机器人控制的实际报告。

机器人部署
所有模型均以零样本方式（zero-shot）部署在配备 RobotiQ 夹爪的 Franka Emika Panda 机械臂上，这些设备分别位于两个未出现在 Droid 数据集中的实验室环境中。视觉输入由一个未经校准的低分辨率单目 RGB 摄像头提供。所有机器人使用完全相同的模型权重和推理代码，并采用基于操作空间控制（operational space control）的相似底层控制器。
对于 V-JEPA 2-AC 和 Cosmos 世界模型，我们采用阻塞式控制（blocking control），即系统在向控制器发送新动作之前会等待上一动作完成；而对于 Octo 模型，我们同时实验了阻塞与非阻塞控制两种方式，并报告其中最佳性能结果。
在使用 V-JEPA 2-AC 和 Cosmos 进行动作规划时，我们将每个采样动作限制在一个以原点为中心、半径为 0.075 的 L1 球内。这对应于每次动作末端执行器最大位移约为 13 厘米。由于大范围动作对模型而言属于分布外数据（out-of-distribution），因此该约束有助于提升控制稳定性与预测准确性。

\section{4.2 实验结果}

\subsection{单目标到达任务}

我们首先在“单目标到达”（single-goal reaching）任务上进行评估，该任务要求机械臂末端执行器根据一张目标图像移动至空间中的指定位置。此任务用于衡量模型对动作的基本理解能力，以及通过单目 RGB 摄像头对场景的三维空间（包括深度信息）感知能力。

图8展示了三个不同单目标到达任务中，在机器人执行过程中末端执行器与其目标位置之间的欧几里得距离变化。结果显示，所有情况下模型均能将末端执行器移动至距离目标位置小于4厘米的范围内，并选择使误差单调递减的动作序列。这可以被视为一种视觉伺服控制（visual servoing）（Hill, 1979）——即利用摄像头提供的视觉反馈来控制机器人运动。然而，与传统的视觉伺服方法不同，V-JEPA 2-AC 是通过无标注的真实世界视频数据训练得到的。

图9可视化了针对 $\Delta y$ 到达任务的 V-JEPA 2-AC 能量函数（公式~\eqref{eq:energy_minimization}），其中仅改变笛卡尔控制动作中的 $\Delta x$ 和 $\Delta y$ ，固定 $\Delta z = 0$ 。能量函数在真实动作附近取得最小值，进一步说明模型能够在无需高精度传感器的情况下合理推断动作效果。值得注意的是，V-JEPA 2-AC 所诱导的能量景观相对平滑且局部凸性良好，有助于规划过程的稳定性。

能量示意图

V-JEPA 2-AC 的能量景观示意图。横纵轴分别为 $\Delta x$ 和 $\Delta y$ ，颜色表示能量大小。真实动作位于 $(\Delta x, \Delta y) = (0, -0.1)$ ，能量最小值出现在 $(0, - 0.05)$ 附近，表明模型已学习到动作的效果。

可抓取操作任务

接下来，我们在更具挑战性的可抓取物体操作任务上评估所有模型的表现，包括抓取（grasp）、带物到达（reach with object）和拾取放置（pick-and-place）。成功率统计见表2与表3，并基于10次试验的多种任务排列组合（如物体位置、初始姿态等）进行平均。

对于抓取任务和带物到达任务，模型仅接收一张目标图像作为输入；而在拾取放置任务中，除最终目标外，我们还向模型提供两张子目标图像：第一张显示待抓取物体，第二张显示物体靠近目标位置的状态。模型首先针对第一个子目标优化动作4个时间步，随后自动切换至第二个子目标10个时间步，最后针对最终目标再执行4个时间步。图10展示了拾取放置任务中机器人执行的示例。实验室1中所有任务的起始帧与目标帧详见附录B.2。

抓取任务需要模型通过视觉反馈实现精确控制以正确夹持物体；带物到达任务则要求模型在手持物体时进行导航，这需要其具备基本的物理直觉以避免掉落；而拾取放置任务则测试了模型对这些基础技能的组合能力。

尽管所有模型在到达任务中表现优异，但在涉及物体交互的任务中性能差异更为明显。我们发现，所有模型的成功率均受到操作对象类型的显著影响。

例如，在杯子抓取任务中，最有效的方式是将一根手指插入杯内并围绕杯口夹持。若模型生成的动作不够准确，则容易错过杯口导致抓取失败。而对于盒子操作任务，可行的抓取方式更多，但模型需要更精细地控制夹爪开合幅度以确保成功夹持。

总体而言，所有模型在不同物体上的成功率差异源于动作次优与各物体操作难度的综合作用。然而，V-JEPA 2-AC 在所有任务中均取得最高成功率，验证了潜在空间规划在机器人操作任务中的可行性。

————————————————————————————————————————————————

任务的论文链接：
[1] something-something
[2] Diving-48
[3] Jester
[4] kinetics
[5] COIN
[6] ImageNet

数据集地址
[1] something-somethingv2 dataset
[2] Diving-48
[3] Jester-0-7W 、 Jester-7W+
[4] kinetics
[5] (ImageNet)(https://image-net.org/download.php)

借鉴链接
感谢 https://blog.csdn.net/weixin_43838639/article/details/109454375

查看全文

http://www.dtcms.com/a/265301.html