当前位置：首页 > news >正文

EVO-0：具有隐空间理解的视觉-语言-动作模型

news 2025/7/14 5:30:09

25年6月来自上海交大、EvoMind Tech 和上海算法创新研究院（IAAR-Shanghai）的论文“EVO-0: Vision-Language-Action Model with Implicit Spatial Understanding”。

视觉-语言-动作 (VLA) 模型已成为一种有前途的框架，可使通用机器人能够在现实世界中感知、推理和行动。这些模型通常建立在预训练的视觉-语言模型 (VLM) 之上，由于大规模文本预训练，VLM 在语义理解方面表现出色。然而，VLM 通常缺乏精确的空间理解能力，因为它们主要针对 2D 图像-文本对进行调整，而没有 3D 监督。为了解决这一限制，最近的方法已经加入显式的 3D 输入，例如点云或深度图，但这需要额外的深度传感器或有缺陷的估计。相比之下，本文引入一个即插即用模块，该模块利用现成的视觉几何基础模型，将 3D 几何特征隐式注入 VLA 模型中。其设计五个需要精确空间理解能力的空间挑战性任务来验证方法的有效性。

EVO-0 是一种 VLA 架构，它探索一种以隐式方式增强 VLA 模型空间理解的替代策略。具体而言，利用视觉几何落地 transformer (VGGT) (Wang 2025) 强大的 3D 感知能力，该 transformer 在大规模 2D-3D 配对数据集上进行训练。这些 3D 特征可以通过使用 VGGT 从机器人数据的原始视频输入中获得，可用于补充 VLM，而无需依赖显式深度输入或估计。为此，设计一个轻量级融合模块，将 VGGT 中基于几何的特征与 VLM 中的视觉 tokens 相结合，使模型能够感知物体布局并更有效地推理空间关系。

初步知识

形式化地讲，在每个时间步 t，VLA 模型接收多视角视觉观测 {I_tⁱ} 和语言指令 L，它们由 VLM 联合编码，生成上下文嵌入 z_t。然后，该嵌入与机器人特定状态 S_t（例如关节角度、夹持器状态或末端执行器位姿）连接，并传递给动作专家以生成低级控制命令 A_t。因此，整个流程定义一个条件分布 p(A_t | I_tⁱ, L, S_t)。

与通常针对特定任务进行训练的标准模仿学习策略相比，VLA 框架提升语义基础、模态融合和泛化能力。这使得机器人不仅能够遵循多样化且抽象的语言指令，还能以最少的微调适应新任务和视觉场景。

与依赖精细调整的模块和传感器的传统 SLAM 或深度估计流程不同，视觉几何基础模型 (VGFM)（Leroy 2024；Wang 2024/2025；Li 2025c）是一类经过训练的视觉模型，用于从二维视觉输入重建三维结构信息。由于 VGFM 是在几何监督下训练的，因此它们能够从多视角单目输入中恢复细粒度的空间结构。这些模型为空间理解等下游任务提供了强大的结构先验，尤其是在缺乏显式三维传感器的情况下。

EVO-0 模型

近期基于 3D 的 VLA 模型，例如 PointVLA （Li 2025a) 和 SpatialVLA （Qu 2025)，通常采用显式 3D 输入（例如点云或深度图）来增强空间理解。这些方法虽然有效，但通常需要额外的传感器和预处理，并且通常对摄像机视点的变化较为敏感。相比之下，VGGT 则提供一种隐引入空间感知的有前景的替代方案，得益于其多样化的训练数据和优雅的前馈架构。近期研究已成功将 VGGT 应用于 VLM 架构（Wu 2025)和 SLAM 系统（Maggio， 2025)），证明了基于几何的视觉 token 可以提升多模态学习和经典机器人感知中的空间理解能力。

基于这些发现，假设将 VGGT 中几何感知的视觉表征引入动作预测流程，可以丰富空间上下文，从而实现更精准、更泛化的策略学习，而无需显式的点云或深度输入。为了验证这一假设，基于 π0 （Black 2024)（一个最先进的开源 VLA 模型）构模型，并将 VGGT 中的几何-觉察特征融入其视觉嵌入流中。该架构如图所示。具体而言，用 VGGT 作为空间编码器，并从其最后一层提取 tokens。

请添加图片描述

为了将 VGGT 衍生的 token 特征集成到视觉语言流水线中，引入一个轻量级的融合器模块，该模块融合 Dosovitskiy (2020) 的 Vision Transformer 和 VGGT 编码器的嵌入。具体来说，该融合器由一个交叉注意层组成，其中二维视觉 token t_2D 用作查询，VGGT 衍生的 token t_3D 用作键和值。其中，M_2D 和 M_3D 分别表示来自 Vision Transformer 和 VGGT 编码器的 token 数量。

融合后的 token 随后被转发至（PaliGemma Beyer 2024) 的视觉-语言模型，该模型会同时关注几何增强的视觉输入和语言 token，以预测动作。为了保持计算效率并最大程度地减少对预训练 VLM 主干网络的干扰，冻结核心 VLM 参数，并插入了轻量级低秩自适应 (LoRA) (2022) 层。在训练期间，仅对融合模块、LoRA 层和流匹配动作专家进行微调，从而以最小的开销实现有效的自适应。

下面详细描述了这五项任务，并附有下图所示的直观图：

将圆柱体置于目标中心。机器人需要将圆柱形物体精确地对准桌面上标记目标区域的中心。这项任务类似于射击：目标上有同心环，得分取决于圆柱体的中心落入哪个环。越靠近中心，得分越高。
钉孔插入。这项任务要求机器人将圆柱形钉子插入木板上三个紧密贴合的孔中的一个。这需要在三维空间中精确对准，因为微小的倾斜或偏移都可能导致任务失败。
抓取中间的瓶子。三个瓶子紧密地排成一排，机器人被指示抓取中间的瓶子。这个设置模拟了杂货店的场景，商品密集地摆放在货架上。成功的定义是拿起中间的瓶子，并且不碰到或撞倒相邻的瓶子。
能够拾取和放置。在这个任务中，机器人必须拾取一个标准罐子并将其放置在架子上的指定位置。放置的位置在不同的试验中会有所不同，包括位置和高度，这要求模型将空间理解推广到不同的配置。
透明物体拾取和放置。该任务设置与上一个任务类似，但涉及玻璃瓶等透明物体。这带来了额外的挑战，因为透明材料通常难以被 RGB 传感器捕捉，而且容易产生眩光，使其难以感知和定位。

请添加图片描述