当前位置: 首页 > news >正文

【具身智能】MolmoAct深度解析:在空间中推理的开放式机器人动作模型

MolmoAct深度解析:首个在空间中推理的开放式机器人动作模型

MolmoAct: Action Reasoning Models that can Reason in Space

在这里插入图片描述


📘 一、摘要解析

研究背景
传统机器人模型将感知(如图像)和语言指令直接映射为动作,缺乏“思考”过程,导致泛化能力差、适应性弱、不可解释。

核心贡献

  • 提出动作推理模型(ARMs),通过三阶段结构化流程整合感知、规划与控制。
  • 实现模型 MolmoAct,具备以下能力:
    • 编码图像与指令为深度感知Token
    • 生成**视觉轨迹(轨迹点)**作为中间规划;
    • 预测动作Token控制机器人;
  • 性能表现:
    • 零样本任务成功率达 70.5%(SimplerEnv);
    • LIBERO 平均成功率 86.6%
    • 真实世界中微调后任务完成率提升 10%(单臂)22.7%(双臂)
  • 开源贡献:
    • 发布 MolmoAct 数据集(10,000+ 轨迹);
    • 开源模型权重、训练代码、动作推理数据。

🧠 二、引言解析

核心思想

“思考是具身的、空间的、发生在你头脑之外的。”
机器人要像人类一样“先想后做”,必须引入空间推理机制

问题指出现状

  • VLA(视觉-语言-动作)模型虽多,但普遍:
    • 泛化能力差(跨任务/场景/机器人);
    • 不可解释(无法说明为何选择某个动作);
    • 数据饥渴(依赖大量昂贵真机数据);

MolmoAct 的解决方案

  • 引入结构化推理流程
    1. 感知阶段:生成深度Token(3D理解);
    2. 规划阶段:生成视觉轨迹(2D路径);
    3. 控制阶段:生成动作Token(控制命令);
  • 所有中间表示均可视化、可编辑、可解释;
  • 支持语言指令视觉轨迹草图双重控制方式。

⚙️ 三、MolmoAct 方法详解

3.1 基础架构:视觉语言模型(VLM)

在这里插入图片描述

三部分组成

  1. 视觉编码器:如 ViT(SigLIP2 / CLIP);
  2. 视觉-语言连接器:MLP,将图像特征映射到语言空间;
  3. 大语言模型(LLM):如 Qwen2.5-7B / OLMo2-7B;

两个模型版本

  • MolmoAct-7B-D:SigLIP2 + Qwen2.5(性能最佳);
  • MolmoAct-7B-O:CLIP + OLMo2(最开放);

3.2 动作建模:动作Token化

动作表示

  • 每个动作维度(如x, y, z, 旋转、夹爪)被归一化后;
  • 离散化为 256个bin(0~255);
  • 每个bin映射为一个动作Token

创新点

  • 不使用随机语言Token,而是:
    • 选取 Qwen2 分词器中最后256个Token
    • 这些Token是字节级BPE子词,具有字符相似性;
    • 将相邻bin映射为相似Token,保留动作空间的连续性
  • 优势:
    • 更好的嵌入初始化;
    • 训练更快(GROOT N1 的 1/5 时间);
    • 动作预测更平滑、准确;

3.3 动作推理模型(Action Reasoning Model)

✅ 核心思想:在空间中进行推理

不同于语言推理(如“先拿杯子再倒水”),MolmoAct 引入两个空间中间表示


🔍(1)深度感知Token(Depth Perception Tokens)

目的:让模型理解3D空间结构。

生成方式

  • 使用专家模型(Depth Anything V2)生成深度图;
  • 用 VQVAE 将深度图量化为 100个离散Token
  • 每个Token对应一个深度码本索引(128个码本向量);

公式解析

V depth = { ⟨ DEPTH_START ⟩ , ⟨ DEPTH_END ⟩ } ∪ { ⟨ DEPTH_ k ⟩ } k = 1 N V_{\text{depth}} = \{\langle\text{DEPTH\_START}\rangle, \langle\text{DEPTH\_END}\rangle\} \cup \{\langle\text{DEPTH\_}k\rangle\}_{k=1}^{N} Vdepth={⟨DEPTH_START,DEPTH_END⟩}{⟨DEPTH_k}k=1N

  • V depth V_{\text{depth}} Vdepth:深度Token词汇表;
  • N = 128 N=128 N=128:码本大小;
  • ⟨ DEPTH_ k ⟩ \langle\text{DEPTH\_}k\rangle DEPTH_k:第k个深度Token;

目标深度序列

d = ( ⟨ DEPTH_START ⟩ , ⟨ DEPTH_ z 1 ⟩ , … , ⟨ DEPTH_ z M ⟩ , ⟨ DEPTH_END ⟩ ) \mathbf{d} = \left( \langle\text{DEPTH\_START}\rangle, \langle\text{DEPTH\_}_{z_1}\rangle, \dots, \langle\text{DEPTH\_}_{z_M}\rangle, \langle\text{DEPTH\_END}\rangle \right) d=(DEPTH_START,DEPTH_z1,,DEPTH_zM,DEPTH_END)

  • M = 100 M=100 M=100:Token序列长度;
  • z i ∈ { 1 , … , 128 } z_i \in \{1, \dots, 128\} zi{1,,128}:VQVAE量化后的码本索引;

🧭(2)视觉推理轨迹(Visual Reasoning Trace)

目的:用2D轨迹表示未来运动计划。

定义

  • 在图像平面上,预测末端执行器的轨迹点;
  • 最多 5个点(0~4段线段);
  • 坐标归一化为 [0, 255];

公式

τ = ( p 1 , … , p L ) , p i = ( u i , v i ) \tau = (p_1, \dots, p_L), \quad p_i = (u_i, v_i) τ=(p1,,pL),pi=(ui,vi)

  • τ \tau τ:轨迹;
  • p i p_i pi:第i个轨迹点;
  • ( u i , v i ) (u_i, v_i) (ui,vi):图像坐标;

🧠(3)动作推理流程(Action Reasoning Procedure)

自回归生成顺序

  1. 深度Token序列 d \mathbf{d} d
  2. 视觉轨迹 τ \tau τ
  3. 动作Token序列 a \mathbf{a} a

联合概率公式

p ( d , τ , a ∣ I , T ) = ∏ i = 1 M + 2 p ( d i ∣ I , T , d < i ) × ∏ j = 1 L p ( τ j ∣ I , T , d , τ < j ) × ∏ k = 1 D p ( a k ∣ I , T , d , τ , a < k ) p(\mathbf{d}, \tau, \mathbf{a} \mid I, T) = \prod_{i=1}^{M+2} p(d_i \mid I, T, d_{<i}) \times \prod_{j=1}^{L} p(\tau_j \mid I, T, \mathbf{d}, \tau_{<j}) \times \prod_{k=1}^{D} p(a_k \mid I, T, \mathbf{d}, \tau, a_{<k}) p(d,τ,aI,T)=i=1M+2p(diI,T,d<i)×j=1Lp(τjI,T,d,τ<j)×k=1Dp(akI,T,d,τ,a<k)

  • 每个阶段的生成都依赖于前面所有阶段;
  • 动作为最终输出,受深度与轨迹双重条件约束;
  • 实现“先理解3D空间 → 再规划路径 → 再执行动作”的推理链;

3.4 动作可控性(Steerability)

问题:语言指令模糊、不可精确控制;

解决方案

  • 允许用户在图像上手绘轨迹
  • 将轨迹叠加到图像上,形成增强输入 I + I^+ I+
  • 模型直接根据 I + I^+ I+ 生成动作;

公式

p ( a ∣ I + , T ) = ∏ k = 1 D p ( a k ∣ I + , T , a < k ) p(\mathbf{a} \mid I^+, T) = \prod_{k=1}^{D} p(a_k \mid I^+, T, a_{<k}) p(aI+,T)=k=1Dp(akI+,T,a<k)

  • 不再生成深度与轨迹,而是直接使用用户提供的轨迹
  • 实现视觉草图控制机器人
  • 成功率远高于语言修正(75% vs 42%);

📊 四、数据与训练

在这里插入图片描述

4.1 动作推理数据生成

  • 将任意机器人数据集转换为动作推理格式;
  • 自动生成:
    • 深度Token(VQVAE编码);
    • 视觉轨迹(Molmo VLM 标注夹爪位置);
  • 支持多种辅助任务(仅预测深度、仅预测轨迹、轨迹条件动作预测);

4.2 MolmoAct 数据集

  • 10,689条轨迹93个任务
  • 家庭环境 + 桌面环境;
  • 长任务分解为子任务;
  • 提升模型泛化与空间理解能力;

在这里插入图片描述


🧪 五、实验评估

在这里插入图片描述

实验类型数据集结果
零样本测试SimplerEnv70.5%(超 π₀、GROOT N1)
微调测试LIBERO86.6%(第一)
真实世界单臂/双臂+10% / +22.7%(优于 π₀-FAST)
泛化测试OOD+23.3%(平均提升)
指令遵循人工评分Elo 分最高(语言+轨迹)
可控性测试手绘轨迹成功率 75%(语言仅 42%)

📚 六、结论

  • 提出 MolmoAct:完全开放、可解释、可引导的动作推理模型;
  • 引入空间推理机制:深度Token + 视觉轨迹;
  • 三阶段推理流程:感知 → 规划 → 控制;
  • 在模拟与真实世界中均取得SOTA性能;
  • 开源所有模型、数据、代码,推动机器人基础模型发展。

http://www.dtcms.com/a/490245.html

相关文章:

  • Linux:库制作与原理
  • SpringBoot集成测试
  • PDF Protector for mac PDF文档加密解密工具
  • 任务型与聊天型语音机器人有什么区别
  • 【具身智能】Gemini Robotics 1.5 深度解析:当机器人学会“思考”与“技能迁移”
  • 【机器人】激光雷达(LiDAR)核心原理:定位、测距与抗干扰
  • 机器人动作捕捉:光学 / 惯性 / 无标记点技术对比与工业 / RoboMaster / 高校场景适配
  • 有网站后台模板如何做数据库网站建设的方式有哪些内容
  • 在 Linux 平台上安装 64 位 JDK
  • Spring Boot配置属性:类型安全的最佳实践
  • prometheus暴露指标
  • RunnableParallel 操纵输入和输出
  • [双指针] 1. 力扣283.移动零
  • 【博客规划】关于我未来的研究方向……
  • python 列表浅拷贝 深拷贝
  • 网站如何做后台留言淘宝客网站一般用什么做的
  • 使用snmpsim与docker批量生成snmpd模拟服务
  • 燕之屋(1497.HK)燕窝肽260万单场售罄,科技重塑传统
  • 【动态规划】数位DP的原理、模板(封装类)
  • 神经网络中的批归一化(BatchNorm)
  • 最新版本组件的docker下载-nacos-Rabbitmq-redis
  • 互素最多:任意五个整数互素的巧妙构造
  • 博客网站大全上海专业网站建设价格
  • Apache换行解析 文件上传漏洞复现:原理详解+环境搭建+渗透实践(CVE-2017-15715 vulhub)
  • 自动伸缩:K8s Cluster Autoscaler,节点池配置技巧?
  • 网站制作的预算网站建设著作权
  • 性能优化之前端与服务端中的 Gzip 压缩全解析
  • 【Day 77】Linux-iptables防火墙
  • GitHub 热榜项目 - 日榜(2025-10-16)
  • 爬虫汇总与实战