当前位置：首页 > news >正文

【具身智能】Spatial Forcing 论文笔记如何隐式地为 VLA 注入 3D 空间感知能力

news 2025/11/5 7:12:09

Spatial Forcing

Implicit Spatial Representation Alignment For Vision-Language-Action Model

在这里插入图片描述

🧠 摘要（Abstract）

✅ 研究背景

视觉-语言-动作模型（VLA）能让机器人根据语言指令执行动作，展现出巨大潜力。

⚠️ 核心问题

大多数 VLA 模型基于仅在 2D 图像 上预训练的视觉-语言模型（VLM），缺乏对 3D 空间结构 的理解，难以在物理世界中精确操作。

🔍 现有方法及其局限

显式引入 3D 输入（如深度图、点云）：
- 问题：传感器噪声大、硬件差异大、数据不完整。
从 2D 图像估计 3D 信息：
- 问题：深度估计器性能有限，导致策略次优。

🌟 本文方法：Spatial Forcing（SF）

在这里插入图片描述

核心思想：隐式地 迫使 VLA 模型发展空间理解能力，不依赖 显式 3D 输入或深度估计器。
实现方式：将 VLA 的 中间视觉嵌入 与 预训练 3D 基础模型（如 VGGT）生成的几何表征进行对齐。
效果：
- 提升动作精度；
- 训练速度提升 3.8 倍；
- 数据效率更高；
- 在模拟与真实环境中均达到 SOTA 性能。

📖 第一章：引言（Introduction）

🔁 问题重述

VLA 模型通常基于 VLM 构建，继承其语义理解能力；
但 VLM 仅在 2D 数据上训练，缺乏 3D 空间感知能力；
导致机器人在 3D 环境中难以完成精确操作。

🧪 动机实验：深度探测（Depth Probing）

做法：冻结 VLA 模型的视觉编码器，仅训练一个 DPT 头部来预测深度图；
结果：预测出的深度图无意义，说明 VLA 的视觉嵌入中缺乏空间信息；
结论：VLA 模型在没有外部空间监督的情况下，无法有效编码 3D 结构。

在这里插入图片描述

🌟 提出方法：Spatial Forcing（SF）

目标：让 VLA 模型隐式地获得 3D 感知能力；
方法：将 VLA 的中间视觉嵌入与 VGGT（3D 基础模型）输出的空间表征对齐；
优势：
- 不增加推理开销；
- 不依赖 3D 传感器；
- 可提升动作精度与训练效率。

🧪 第二章：方法（Method）

2.1 预备知识（Preliminaries）

🧠 VLA 模型结构

VLA 模型基于 VLM，处理三种模态：

视觉模态：多视角图像 → 编码为视觉 token：
${x_i^V\}_{i=1}^N$
语言模态：任务指令 → 编码为语言 token：
${x_j^L\}_{j=1}^M$
动作模态：基于视觉和语言 token，自回归地生成动作 token：
${x_k^A\}_{k=1}^K$

🔢 动作生成公式（公式 1）：

$x_t^A \sim p_\theta\left(x_t^A \mid \{x_i^V\}_{i=1}^N, \{x_j^L\}_{j=1}^M, x_{<t}^A\right)$

$x_t^A$ ：第 $t$ 个动作 token；
$pθp_\theta$ ：参数为 $θ\theta$ 的条件概率模型；
$x_{<t}^A$ ：之前生成的动作 token。

📉 动作损失函数（公式 2）：

$\mathcal{L}_{\text{action}} = \mathcal{L}\left[\mathcal{G}(\{x_k^A\}), A_{\text{gt}}\right]$

$G\mathcal{G}$ ：动作专家（如 MLP），将动作 token 解码为实际动作；
$AgtA_{\text{gt}}$ ：真实动作标签；
$L\mathcal{L}$ ：损失函数（如 L1、L2）。

🧠 VGGT 模型

输入：2D 图像；
输出：3D 属性（深度图、点云、相机参数等）；
本文中用于提供 空间监督信号。

2.2 动机（Motivation）

2D VLA 模型缺乏 3D 理解；
显式引入 3D 数据存在噪声、异构、缺失等问题；
从 2D 估计 3D 又不准确；
结论：需要一种 不依赖显式 3D 输入 的方法来增强 VLA 的空间理解能力。

2.3 Spatial Forcing（SF）

🎯 目标

通过外部 3D 模型（VGGT）提供的空间表征，监督 VLA 的视觉嵌入，使其 隐式地 具备 3D 感知能力。

🧮 对齐损失函数（公式 3）：

$\mathcal{L}_{\text{align}} = -\frac{1}{N} \sum_{i=1}^N \mathcal{S}\left[\text{MLP} \cdot \Gamma(x_i^V), f_i^{3D}(I) + E\right]$

$x_i^V$ ：VLA 的视觉 token；
$Γ\Gamma$ ：BatchNorm；
MLP：两层感知机，用于维度对齐；
$f_i^{3D}(I)$ ：VGGT 输出的空间表征；
$E$ ：位置编码，保留 token 的位置信息；
$S\mathcal{S}$ ：余弦相似度；
目标：最大化 VLA 视觉 token 与 3D 表征之间的相似性。

🧠 监督哪一层？

实验发现：第 24 层（共 32 层）效果最好；
太浅：表征未充分提取；
太深：视觉特征已融合语言信息，不适合空间监督。

📦 总损失函数（公式 4）：

$\mathcal{L}_{\text{SF}} = \mathcal{L}_{\text{action}} + \alpha \cdot \mathcal{L}_{\text{align}}$

$α\alpha$ ：权重因子，实验中设为 0.5；
平衡动作预测与空间对齐两个目标。

✅ 推理阶段

VGGT 和对齐损失被完全移除；
VLA 模型结构与标准模型完全一致；
不增加任何推理开销。

📊 第三章：仿真实验（Simulation Experiments）

3.1 实验设置

平台：LIBERO（4 个任务套件）、RoboTwin（双臂任务）；
基础模型：
- LIBERO：OpenVLA-OFT；
- RoboTwin： $π0\pi_0$ ；
指标：任务成功率（SR）。

3.2 与 SOTA 方法对比

LIBERO：SF 平均成功率 98.5%，超过所有 2D 和 3D 方法；
RoboTwin：SF 在所有任务中均表现最佳，尤其在困难设置中提升显著。

3.3 消融实验（Ablation Study）

实验项	结论
目标表征	使用 VGGT + 位置编码最佳（96.9%）
对齐层数	第 24 层最佳
训练效率	SF 实现 3.8 倍加速
数据效率	仅用 5% 数据达到 75.8% 成功率，5.9 倍数据效率提升
t-SNE 可视化	VLA 特征与目标结构一致，但未发生表征崩溃