当前位置：首页 > news >正文

【具身智能】MolmoAct深度解析：在空间中推理的开放式机器人动作模型

news 2025/10/22 0:26:59

MolmoAct深度解析：首个在空间中推理的开放式机器人动作模型

MolmoAct: Action Reasoning Models that can Reason in Space

在这里插入图片描述

📘 一、摘要解析

研究背景：
传统机器人模型将感知（如图像）和语言指令直接映射为动作，缺乏“思考”过程，导致泛化能力差、适应性弱、不可解释。

核心贡献：

提出动作推理模型（ARMs），通过三阶段结构化流程整合感知、规划与控制。
实现模型 MolmoAct，具备以下能力：
- 编码图像与指令为深度感知Token；
- 生成**视觉轨迹（轨迹点）**作为中间规划；
- 预测动作Token控制机器人；
性能表现：
- 零样本任务成功率达 70.5%（SimplerEnv）；
- LIBERO 平均成功率 86.6%；
- 真实世界中微调后任务完成率提升 10%（单臂） 和 22.7%（双臂）；
开源贡献：
- 发布 MolmoAct 数据集（10,000+ 轨迹）；
- 开源模型权重、训练代码、动作推理数据。

🧠 二、引言解析

核心思想：

“思考是具身的、空间的、发生在你头脑之外的。”
机器人要像人类一样“先想后做”，必须引入空间推理机制。

问题指出现状：

VLA（视觉-语言-动作）模型虽多，但普遍：
- 泛化能力差（跨任务/场景/机器人）；
- 不可解释（无法说明为何选择某个动作）；
- 数据饥渴（依赖大量昂贵真机数据）；

MolmoAct 的解决方案：

引入结构化推理流程：
1. 感知阶段：生成深度Token（3D理解）；
2. 规划阶段：生成视觉轨迹（2D路径）；
3. 控制阶段：生成动作Token（控制命令）；
所有中间表示均可视化、可编辑、可解释；
支持语言指令与视觉轨迹草图双重控制方式。

⚙️ 三、MolmoAct 方法详解

3.1 基础架构：视觉语言模型（VLM）

在这里插入图片描述

三部分组成：

视觉编码器：如 ViT（SigLIP2 / CLIP）；
视觉-语言连接器：MLP，将图像特征映射到语言空间；
大语言模型（LLM）：如 Qwen2.5-7B / OLMo2-7B；

两个模型版本：

MolmoAct-7B-D：SigLIP2 + Qwen2.5（性能最佳）；
MolmoAct-7B-O：CLIP + OLMo2（最开放）；

3.2 动作建模：动作Token化

动作表示：

每个动作维度（如x, y, z, 旋转、夹爪）被归一化后；
离散化为 256个bin（0~255）；
每个bin映射为一个动作Token；

创新点：

不使用随机语言Token，而是：
- 选取 Qwen2 分词器中最后256个Token；
- 这些Token是字节级BPE子词，具有字符相似性；
- 将相邻bin映射为相似Token，保留动作空间的连续性；
优势：
- 更好的嵌入初始化；
- 训练更快（GROOT N1 的 1/5 时间）；
- 动作预测更平滑、准确；

3.3 动作推理模型（Action Reasoning Model）

✅ 核心思想：在空间中进行推理

不同于语言推理（如“先拿杯子再倒水”），MolmoAct 引入两个空间中间表示：

🔍（1）深度感知Token（Depth Perception Tokens）

目的：让模型理解3D空间结构。

生成方式：

使用专家模型（Depth Anything V2）生成深度图；
用 VQVAE 将深度图量化为 100个离散Token；
每个Token对应一个深度码本索引（128个码本向量）；

公式解析：

$DEPTH_START ⟩ , ⟨ DEPTH_END ⟩ } ∪ { ⟨ DEPTH_ k ⟩ } k = 1 N V_{\text{depth}} = \{\langle\text{DEPTH\_START}\rangle, \langle\text{DEPTH\_END}\rangle\} \cup \{\langle\text{DEPTH\_}k\rangle\}_{k=1}^{N}$

$V_{\text{depth}}$ ：深度Token词汇表；
$N = 128$ ：码本大小；
$DEPTH_ k ⟩ \langle\text{DEPTH\_}k\rangle$ ：第k个深度Token；

目标深度序列：

$DEPTH_START ⟩ , ⟨ DEPTH_ z 1 ⟩ , … , ⟨ DEPTH_ z M ⟩ , ⟨ DEPTH_END ⟩ ) \mathbf{d} = \left( \langle\text{DEPTH\_START}\rangle, \langle\text{DEPTH\_}_{z_1}\rangle, \dots, \langle\text{DEPTH\_}_{z_M}\rangle, \langle\text{DEPTH\_END}\rangle \right)$

$M = 100$ ：Token序列长度；
$z_i \in \{1, \dots, 128\}$ ：VQVAE量化后的码本索引；

🧭（2）视觉推理轨迹（Visual Reasoning Trace）

目的：用2D轨迹表示未来运动计划。

定义：

在图像平面上，预测末端执行器的轨迹点；
最多 5个点（0~4段线段）；
坐标归一化为 [0, 255]；

公式：

$\tau = (p_1, \dots, p_L), \quad p_i = (u_i, v_i)$

$\tau$ ：轨迹；
$p_i$ ：第i个轨迹点；
$u_i, v_i)$ ：图像坐标；

🧠（3）动作推理流程（Action Reasoning Procedure）

自回归生成顺序：

深度Token序列 $\mathbf{d}$ ；
视觉轨迹 $\tau$ ；
动作Token序列 $\mathbf{a}$ ；

联合概率公式：

$p(\mathbf{d}, \tau, \mathbf{a} \mid I, T) = \prod_{i=1}^{M+2} p(d_i \mid I, T, d_{<i}) \times \prod_{j=1}^{L} p(\tau_j \mid I, T, \mathbf{d}, \tau_{<j}) \times \prod_{k=1}^{D} p(a_k \mid I, T, \mathbf{d}, \tau, a_{<k})$

每个阶段的生成都依赖于前面所有阶段；
动作为最终输出，受深度与轨迹双重条件约束；
实现“先理解3D空间 → 再规划路径 → 再执行动作”的推理链；

3.4 动作可控性（Steerability）

问题：语言指令模糊、不可精确控制；

解决方案：

允许用户在图像上手绘轨迹；
将轨迹叠加到图像上，形成增强输入 $I^+$ ；
模型直接根据 $I^+$ 生成动作；

公式：

$p(\mathbf{a} \mid I^+, T) = \prod_{k=1}^{D} p(a_k \mid I^+, T, a_{<k})$

不再生成深度与轨迹，而是直接使用用户提供的轨迹；
实现视觉草图控制机器人；
成功率远高于语言修正（75% vs 42%）；

📊 四、数据与训练

在这里插入图片描述

4.1 动作推理数据生成

将任意机器人数据集转换为动作推理格式；
自动生成：
- 深度Token（VQVAE编码）；
- 视觉轨迹（Molmo VLM 标注夹爪位置）；
支持多种辅助任务（仅预测深度、仅预测轨迹、轨迹条件动作预测）；

4.2 MolmoAct 数据集

10,689条轨迹，93个任务；
家庭环境 + 桌面环境；
长任务分解为子任务；
提升模型泛化与空间理解能力；

在这里插入图片描述

🧪 五、实验评估

在这里插入图片描述

实验类型	数据集	结果
零样本测试	SimplerEnv	70.5%（超 π₀、GROOT N1）
微调测试	LIBERO	86.6%（第一）
真实世界	单臂/双臂	+10% / +22.7%（优于 π₀-FAST）
泛化测试	OOD	+23.3%（平均提升）
指令遵循	人工评分	Elo 分最高（语言+轨迹）
可控性测试	手绘轨迹	成功率 75%（语言仅 42%）