当前位置: 首页 > news >正文

【具身智能】Gemini Robotics 1.5 深度解析:当机器人学会“思考”与“技能迁移”

Gemini Robotics 1.5 深度解析:当机器人学会“思考”与“技能迁移”


摘要

在这里插入图片描述

Gemini Robotics 1.5 系列包含两个模型:

  1. GR 1.5:多形态视觉-语言-动作(VLA)模型。
  2. GR-ER 1.5:通用具身推理(VLM)模型。

三大创新:

  1. 运动迁移(MT):在共享潜空间 z∈R64z\in\mathbb{R}^{64}zR64 里统一异构机器人动作,实现零样本跨本体迁移。
  2. 思考-再-行动:在动作前插入自然语言思考痕迹 τt\tau_tτt,把“高阶指令→低阶动作”拆成两步。
  3. SOTA 具身推理:15 项基准全部霸榜,空间推理平均提升 8 个点。

第一章 引言

在这里插入图片描述

  • 通用机器人必须“懂物理”。
  • 前作 Gemini Robotics 只能单本体+短指令。
  • 本文目标:把 Gemini 的“高层推理”搬到物理世界,并解决三大痛点:
    ① 数据稀缺;② 跨本体迁移难;③ 长任务规划弱。

第二章 方法概述

在这里插入图片描述

2.1 模型与架构

GR 1.5(VLA)

输入:

  • 图像 ot∈RH×W×3o_t\in\mathbb{R}^{H\times W\times 3}otRH×W×3
  • 语言指令 l∈Σ∗l\in\Sigma^*lΣ
  • 本体感受 pt∈RPp_t\in\mathbb{R}^{P}ptRP(维度随机器人变化)

内部流程:
vt=Φenc(ot)∈RDvel=Ψenc(l)∈RDlτt=Θthink(vt,el,pt,ht−1)∈Σ∗(思考痕迹)at=Θact(vt,el,pt,τt)∈RA(连续动作)\begin{aligned} v_t &= \Phi_{\text{enc}}(o_t) \in\mathbb{R}^{D_v} \\ e_l &= \Psi_{\text{enc}}(l) \in\mathbb{R}^{D_l} \\ \tau_t &= \Theta_{\text{think}}(v_t,e_l,p_t,h_{t-1}) \in\Sigma^* \quad \text{(思考痕迹)} \\ a_t &= \Theta_{\text{act}}(v_t,e_l,p_t,\tau_t) \in\mathbb{R}^{A} \quad \text{(连续动作)} \end{aligned} vtelτtat=Φenc(ot)RDv=Ψenc(l)RDl=Θthink(vt,el,pt,ht1)Σ(思考痕迹)=Θact(vt,el,pt,τt)RA(连续动作)

训练目标:
min⁡θ∑i∑t[∥at(i)−a^t(i)∥2+λLlang(τt(i),τ^t(i))],λ=0.1\min_\theta \sum_i\sum_t \Bigl[\bigl\|a_t^{(i)}-\hat a_t^{(i)}\bigr\|^2 + \lambda\,\mathcal{L}_{\text{lang}}(\tau_t^{(i)},\hat\tau_t^{(i)})\Bigr], \quad \lambda=0.1 θminit[at(i)a^t(i)2+λLlang(τt(i),τ^t(i))],λ=0.1

GR-ER 1.5(VLM)

标准 next-token 交叉熵,但在 50% 数据里加入空间推理提示,例如:

“输出 10 个二维点,顺序组成无碰撞轨迹。”

2.2 运动迁移(MT)机制

设本体 A 动作空间 RAA\mathbb{R}^{A_A}RAA,本体 B 动作空间 RAB\mathbb{R}^{A_B}RAB,且 AA≠ABA_A\neq A_BAA=AB。引入共享潜空间 z∈RKz\in\mathbb{R}^{K}zRKK=64K=64K=64

对每个本体 iii 学习:
z=Ei(a(i))a~(i)=Di(z)\begin{aligned} z &= E_i(a^{(i)}) \\ \tilde a^{(i)} &= D_i(z) \end{aligned} za~(i)=Ei(a(i))=Di(z)

训练目标:
min⁡Ei,Di∑i∑t[∥at(i)−Di(Ei(at(i)))∥2+β∥zt∥2],β=0.01\min_{E_i,D_i} \sum_i\sum_t \Bigl[\bigl\|a_t^{(i)}-D_i(E_i(a_t^{(i)}))\bigr\|^2 + \beta\|z_t\|^2\Bigr], \quad \beta=0.01 Ei,Diminit[at(i)Di(Ei(at(i)))2+βzt2],β=0.01

VLA 主干在潜空间 zzz 上操作,同一条 zzz 序列可被任意 DiD_iDi 还原为对应本体的真实动作,实现零样本迁移。

2.3 数据

  • 机器人数据:ALOHA 2、Franka Bi-arm、Apollo 人形,共 3.2 M 轨迹。
  • 互联网数据:LAION-5B 图文对 + Something-Something v2 视频字幕 1.8 M 小时。
  • 合成数据:Gemini 2.5 生成 12 M 条“伪动作”字幕,用于预训练视觉-语言对齐。

2.4 评估协议

  • 真机 A/B/n:同一工作台交替运行,消除环境漂移。
  • 模拟对齐:MuJoCo 场景与真机 RGB/深度/摩擦系数逐参数标定,Pearson r>0.95r>0.95r>0.95
  • 进度指标:
    progress=∑kwk⋅1[subtaskk完成]\text{progress}=\sum_k w_k\cdot\mathbb{1}[\text{subtask}_k~\text{完成}] progress=kwk1[subtaskk 完成]
    成功率:
    SR=1[progress=1]\text{SR}=\mathbb{1}[\text{progress}=1] SR=1[progress=1]

第三章 GR 1.5 通用多形态 VLA 实验

3.1 泛化四维评测

维度扰动示例GR 1.5 相对增益
视觉换桌布、加光照、换纹理+18%
指令同义句、错别字、西班牙语+22%
动作初始位置随机、新形状+15%
任务全新“把雨伞挂到墙上”+12%

3.2 跨本体迁移

零样本任务:Franka 数据 → ALOHA 真机测试。
成功率定义:
SR=成功次数30\text{SR}=\frac{\text{成功次数}}{30} SR=30成功次数

结果:

  • 单本体训练:7%
  • 多本体无 MT:21%
  • 多本体+MT:39%

公式化:
SRA→B=Eπ∼GR1.5[1[TB完成]∣仅在DA训练]\text{SR}_{A\to B}=\mathbb{E}_{\pi\sim\text{GR1.5}}\Bigl[\mathbb{1}[T_B~\text{完成}]\Bigm| \text{仅在}D_A~\text{训练}\Bigr] SRAB=EπGR1.5[1[TB 完成]仅在DA 训练]

MT 通过共享 zzz 空间使 SR\text{SR}SR 提升 18 个百分点。

3.3 思考模式消融

  • 关闭思考:τt≡∅\tau_t\equiv\varnothingτt
  • 开启思考:τt\tau_tτt 平均 32 tokens

多步任务进度分数:

  • 关思考:0.44
  • 开思考:0.67(+52%)

思考痕迹示例:

下一步:用左手拿水瓶;运动描述:左臂前移,手腕逆时针旋转 30°…


第四章 GR-ER 1.5 通用具身推理模型

4.1 通用-专用帕累托前沿

定义:
x轴 Generality=MMMU+GPQA+Aider3y轴 ER=空间推理×0.5+VQA×0.51\begin{aligned} x~\text{轴}~\text{Generality} &= \frac{\text{MMMU}+\text{GPQA}+\text{Aider}}{3} \\ y~\text{轴}~\text{ER} &= \frac{\text{空间推理}\times 0.5 + \text{VQA}\times 0.5}{1} \end{aligned} x  Generalityy  ER=3MMMU+GPQA+Aider=1空间推理×0.5+VQA×0.5

GR-ER 1.5 坐标 (73.8, 59.6),比 Gemini 2.5 Pro (83.5, 51.7) 在 y 轴高 8 个点,同时保持 x 轴 70%+ 通用能力。

4.2 复杂指向

基准公式:
给定图像 III 与文本查询 qqq,模型输出点集 {pi}i=1n\{p_i\}_{i=1}^n{pi}i=1npi∈[0,1]2p_i\in[0,1]^2pi[0,1]2
精度:
Acc=1n∑i=1n1[pi∈GTi]\text{Acc}=\frac{1}{n}\sum_{i=1}^n \mathbb{1}[p_i\in\text{GT}_i] Acc=n1i=1n1[piGTi]

GR-ER 1.5 在 Point-Bench-Spatial 得 71.0,超 GPT-5(35.4)一倍。

4.3 思考缩放律

令思考 token 预算 T∈[0,1024]T\in[0,1024]T[0,1024]
拟合曲线:
ER(T)=ER0+αlog⁡(1+T/T0),α=2.3\text{ER}(T)=\text{ER}_0+\alpha\log(1+T/T_0), \quad \alpha=2.3 ER(T)=ER0+αlog(1+T/T0),α=2.3

远大于 Gemini 2.5 Flash 的 0.7,说明 GR-ER 1.5 更会把额外算力转化为具身推理性能。


第五章 完整智能体系统

任务示例:Pack Suitcase
高层规划(GR-ER 1.5):

  1. 查天气 API → “伦敦未来 3 天有雨”
  2. 生成计划:
    • 把雨衣从衣架取下 → GR 1.5 执行
    • 折叠雨衣 → GR 1.5 执行
    • 放入行李箱 → GR 1.5 执行

进度分数:
progress=∑k=140.25⋅1[subtaskk完成]\text{progress}=\sum_{k=1}^4 0.25\cdot\mathbb{1}[\text{subtask}_k~\text{完成}] progress=k=140.251[subtaskk 完成]

实验结果:

  • 纯 VLA(思考开):0.40
  • Gemini 2.5 Flash + VLA:0.60
  • GR-ER 1.5 + VLA:0.88

失败分析:
规划错误率从 25.5% 降到 9%,主要因为 ER 模型能正确理解“雨衣”与“折叠”之间的物理前提。


第六章 安全与责任

6.1 语义安全

ASIMOV-2.0 基准风险分数:
R=∑jwj⋅1[模型输出违反约束 j]R=\sum_j w_j\cdot\mathbb{1}[\text{模型输出违反约束}~j] R=jwj1[模型输出违反约束 j]

约束示例:单臂最大负载 10 kg,若输出指向 15 kg 物体,则 R+=1R\mathrel{+}=1R+=1
GR-ER 1.5 经过安全微调后 RRR 从 0.31 降到 0.08。

6.2 自动红队

三模型博弈:

  • 攻击者 AAA:给定场景 SSS,生成对抗指令 qadvq_{\text{adv}}qadv 使目标模型 TTT 犯错。
  • 目标 TTT:输出响应 yyy
  • 评分器 CCC:若 yyy 不安全,返回奖励 +1+1+1AAA,否则 −1-11

用强化训练迭代 AAA,发现 TTT 的漏洞并加入黑名单数据。


第七章 讨论与未来方向

  • 数据扩展:下一步用人类日常视频(Ego4D 等)+ 合成 VEO 视频,无需动作标注,直接做自监督预训练。
  • 灵巧度提升:当前夹爪成功率 92%,但“单手系鞋带”类任务仅 11%。未来引入 RL 微调阶段,奖励函数:
    r=1[task 成功]−0.01×能耗−0.1×时间r=\mathbb{1}[\text{task 成功}]-0.01\times\text{能耗}-0.1\times\text{时间} r=1[task 成功]0.01×能耗0.1×时间
    在共享 zzz 空间上做策略梯度,保持通用表示不变。

附录关键公式速查

  • 进度分数(通用定义):
    progress=∑k=1Kwk⋅1[subtaskk完成]\text{progress}=\sum_{k=1}^K w_k\cdot\mathbb{1}[\text{subtask}_k~\text{完成}] progress=k=1Kwk1[subtaskk 完成]
  • 跨本体迁移成功率:
    SRA→B=Eπ[1[TB完成]∣仅在DA训练]\text{SR}_{A\to B}=\mathbb{E}_{\pi}\Bigl[\mathbb{1}[T_B~\text{完成}]\Bigm| \text{仅在}D_A~\text{训练}\Bigr] SRAB=Eπ[1[TB 完成]仅在DA 训练]
  • 思考痕迹生成概率:
    P(τt∣ht)=softmax(Wthink⋅[vt;el;pt;ht−1]+bthink)P(\tau_t\mid h_t)=\text{softmax}(W_{\text{think}}\cdot[v_t;e_l;p_t;h_{t-1}]+b_{\text{think}}) P(τtht)=softmax(Wthink[vt;el;pt;ht1]+bthink)
http://www.dtcms.com/a/490240.html

相关文章:

  • 【机器人】激光雷达(LiDAR)核心原理:定位、测距与抗干扰
  • 机器人动作捕捉:光学 / 惯性 / 无标记点技术对比与工业 / RoboMaster / 高校场景适配
  • 有网站后台模板如何做数据库网站建设的方式有哪些内容
  • 在 Linux 平台上安装 64 位 JDK
  • Spring Boot配置属性:类型安全的最佳实践
  • prometheus暴露指标
  • RunnableParallel 操纵输入和输出
  • [双指针] 1. 力扣283.移动零
  • 【博客规划】关于我未来的研究方向……
  • python 列表浅拷贝 深拷贝
  • 网站如何做后台留言淘宝客网站一般用什么做的
  • 使用snmpsim与docker批量生成snmpd模拟服务
  • 燕之屋(1497.HK)燕窝肽260万单场售罄,科技重塑传统
  • 【动态规划】数位DP的原理、模板(封装类)
  • 神经网络中的批归一化(BatchNorm)
  • 最新版本组件的docker下载-nacos-Rabbitmq-redis
  • 互素最多:任意五个整数互素的巧妙构造
  • 博客网站大全上海专业网站建设价格
  • Apache换行解析 文件上传漏洞复现:原理详解+环境搭建+渗透实践(CVE-2017-15715 vulhub)
  • 自动伸缩:K8s Cluster Autoscaler,节点池配置技巧?
  • 网站制作的预算网站建设著作权
  • 性能优化之前端与服务端中的 Gzip 压缩全解析
  • 【Day 77】Linux-iptables防火墙
  • GitHub 热榜项目 - 日榜(2025-10-16)
  • 爬虫汇总与实战
  • 哪个网站做网销更好python怎么做网站
  • dede 网站地图 插件添加图标wordpress
  • 对比k8s的service和kube-proxy
  • 理想汽车Java后台开发面试题及参考答案(上)
  • Kotlin 实现社交 App 音视频模块:语音录制、播放、暂停与进度控制全流程封装