当前位置：首页 > news >正文

Meta发布V-JEPA 2世界模型及物理推理新基准，推动AI在物理世界中的认知与规划能力

news 2025/9/16 14:46:41

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

Meta正式发布了其最新一代世界模型——V-JEPA 2（Video Joint Embedding Predictive Architecture 2）。这是一个在物理世界视觉理解和预测方面实现最先进性能的大型模型，具备零样本环境下的机器人规划能力，可以让AI代理与陌生物体和未知环境交互，完成复杂任务。此次发布不仅标志着Meta向“高级机器智能（AMI）”目标迈出的关键一步，也带来了三个全新物理推理评测基准，用于全面评估视频模型的物理直觉与因果理解能力。

什么是“世界模型”？

人类拥有与生俱来的物理直觉——比如把网球抛向空中，自然会期待它因重力落下，而不会莫名其妙漂浮、变向或变成苹果。即使在学会完整说话之前，儿童已开始通过观察积累这种“世界如何运行”的基本认知。

这种对世界状态和行为结果的预测能力，是人类在面对新环境、新任务时作出决策的基础。例如在拥挤的人群中行走、在冰球场上滑向未来的球点、或烹饪过程中控制火候，背后都依赖内心的“世界模型”。

对于人工智能来说，构建这样的世界模型意味着系统能够：

理解观察到的世界状态（识别视频中的物体、动作和运动模式）；
预测世界状态的演变，及在特定行动下会如何变化；
规划一系列行动以达成某一目标。

V-JEPA 2：从视频中学习世界如何运行

V-JEPA 2是一个拥有12亿参数的模型，建立在Meta自研的**Joint Embedding Predictive Architecture（JEPA）**架构上。它由两个关键组件构成：

编码器：接收原始视频，提取语义嵌入特征，理解当前世界状态；
预测器：根据嵌入特征与上下文信息，输出对未来状态的预测嵌入。

V-JEPA 2通过自监督学习训练而成，无需人工标注，主要分两个阶段：

阶段一：无动作预训练

模型在超过100万小时视频和100万张图像上进行训练，涵盖人类行为、物体运动及物体交互等视觉知识。仅在此阶段，V-JEPA 2就已展现强大的理解与预测能力：

在动作识别任务Something-Something v2上实现新纪录；
在Epic-Kitchens-100动作预判任务上超越前沿模型；
与语言模型对齐后，在视频问答任务如Perception Test与TempCompass上刷新SOTA表现。

阶段二：引入机器人控制数据

通过接入仅62小时的机器人控制数据，模型进一步学习将具体行动映射至未来状态预测。这使得模型不仅能预测“世界可能如何变化”，还具备了动作条件下的控制能力，实现规划执行。

零样本机器人控制能力

V-JEPA 2可直接在未见过的新环境、新物体中进行零样本规划与机器人控制。不同于其他机器人基础模型需在部署环境中采集训练数据，V-JEPA 2仅使用公开DROID数据集训练，即可部署至实际机器人系统，实现如“抓取并放置物体”这类基础任务。

对于短期任务（如抓取物体），用户提供目标图像，模型通过编码当前状态和目标状态进行比对并规划行为。在每一步中，机器人都会重新评估行动方案，并通过模型预测控制（Model Predictive Control）执行最佳动作。

对于长期任务（如将物体放置至指定位置），V-JEPA 2支持多阶段目标规划（Visual Subgoal Planning），仿似人类模仿学习。这使得机器人在未见物体/环境下的任务完成率达到65%至80%。

三项全新开放评测基准：衡量视频模型的“物理世界智慧”

Meta还同步发布三项评测数据集，用于测试当前视频模型是否真正具备“物理直觉”和“因果推理”能力。这些基准覆盖人类在生活中本能掌握的基本物理规律与推理方式。

1. IntPhys 2

衡量模型判断物理可能性与不可能性的能力。通过成对视频对比：两个视频前半段完全一致，后半段其中一个发生违反物理规律的事件（如穿墙、漂浮），模型需判断哪一个不合常理。人类准确率可达95%，但当前模型仍接近随机水平。

2. MVPBench（Minimal Video Pairs）

使用微差视频对测试模型在视觉-语言问答中的物理理解。每组题目含两条几乎相同视频，但正确答案相反。只有同时答对主视频与“微差版本”问题，才算通过，避免模型依赖表面特征作弊。

3. CausalVQA

考查模型是否能回答物理因果关系相关问题。包括：

“如果发生某事，会如何？”
“接下来可能会发生什么？”
“为达成目标，下一个动作应是什么？”

这类问题比“视频中发生了什么”更具挑战性，测试模型是否真正理解动态因果链条。目前模型在这些问题上与人类表现仍有显著差距。

未来展望：通向高级机器智能的下一步

V-JEPA 2已具备单一时间尺度上的理解与预测能力。但现实任务通常需跨越多个时间尺度（如烘焙蛋糕、组装家具）。下一阶段，Meta将探索多层次、分层式JEPA模型，让AI能处理长期目标与中短期子任务之间的协调。

此外，Meta还计划发展多模态世界模型，引入视觉、音频、触觉等多感知维度，以进一步贴近人类认知方式。

资源获取与社区开放：

Meta已开源如下内容：

模型代码与检查点（Checkpoints）：可用于研究与商用部署
三项评测数据集（IntPhys 2、MVPBench、CausalVQA）
模型排行榜：可在 Hugging Face 上查看模型表现
技术论文与实验报告

欢迎研究社区下载使用，共同推动世界模型的发展：

GitHub：V-JEPA 2 (https://github.com/facebookresearch/vjepa2)、IntPhys 2 (https://github.com/facebookresearch/IntPhys2)、MVPBench (https://github.com/facebookresearch/minimal_video_pairs)、CausalVQA (https://github.com/facebookresearch/CausalVQA)

结语

V-JEPA 2不仅是一个强大的视频预测模型，更是Meta在构建“能理解、能预测、能规划”的智能体道路上的关键里程碑。随着世界模型能力的增强，AI将更接近人类的认知机制，在物理世界中实现安全、灵活、可靠的智能交互。这不仅是技术上的突破，更可能彻底重塑机器人、自动驾驶、家庭助手等AI实际应用的能力边界。