当前位置：首页 > news >正文

谷歌具身智能VLA大模型 —— Gemini Robotics : 将人工智能带入到物理世界

news 来源：原创 2025/6/14 12:33:44

引言

真正实用的机器人需要能够理解周围的物理世界，并以可靠且安全的方式与之交互。也就是说，基于物理实体的AI智能体必须具备鲁棒的人类级具身推理能力，即包含在物理具身世界中操作和运行所需的基础概念的世界知识体系。

作为人类，我们往往将具身推理能力视为理所当然—— 例如感知环境的 3D 结构、解析复杂的物体间关系以及直觉物理规律理解 —— 但这些能力却是构成具身AI智能体的能力基石。

此外，具身AI智能体更需突破被动理解现实世界空间与物理概念的局限，通过行动直接影响外部环境，从而弥合被动感知与主动物理交互之间的鸿沟。

随着机器人硬件的革新，构建能执行高灵巧任务的具身AI智能体迎来历史性机遇。2025年3月12日，谷歌Deep Mind发布了基于多模态通用大模型Gemini2.0构建的两类大模型：Gemini Robotics（VLA）和Gemini Robotics-ER（VLM）。

Gemini Robotics 和Gemini Robotics-ER

1. Gemini Robotics-ER

Gemini Robotics - ER（VLM模型）,其中ER 代表 “embodied reasoning”（具身推理），将Gemini的多模态推理能力扩展至物理世界，具备增强的空间和时间理解能力，包括物体检测、指向、轨迹预测和抓取预测等2D空间概念理解能力，以及多视角3D场景理解和3D边界框检测等3D空间推理能力。

多视角3D场景理解：通过关联不同视角的2D点来理解3D场景

1）支持零样本和少样本机器人控制

在论文中，研究人员使用Gemini 2.0 Flash和Gemini Robotics-ER两类模型，分别采用两种不同的机器人控制方法进行实验。

零样本（zero-shot）机器人控制——通过代码生成控制机器人。
少样本（few-shot）控制——通过上下文学习（in-context learning, ICL），基于少量示例适应新行为。

两类模型在模拟环境中执行一组操作任务的结果对比

备注：这些任务涵盖了不同难度和物体类型，从简单的抓取任务（如抬起香蕉）到长时序、多步骤、多任务的操作（如将玩具放入盒子并关闭盒子）。

试验结果表明，Gemini Robotics-ER 在两种控制方式下的任务完成率均表现良好。Gemini Robotics-ER能够利用上下文学习（in-context learning），仅凭少量示例就能提高更复杂的灵巧双臂任务（如折叠衣物）的执行能力，并能够直接输出末端执行器的轨迹以完成任务。

在零样本机器人控制方面，Gemini Robotics-ER任务完成率相比Gemini 2.0 提高了近2倍。
在少样本机器人控制方面，Gemini 2.0 Flash 在模拟环境中平均成功率达到51%。然而，Gemini Robotics-ER 在模拟环境中的平均成功率达到 65%。

另外，实验还表明，模型的具身推理能力与下游机器人控制的性能之间存在强相关性。Gemini Robotics-ER 可以直接用于机器人控制，包括：作为感知模块（如物体检测），规划模块（如轨迹生成）以及通过生成和执行代码来协调机器人运动。

不过，Gemini Robotics-ER作为VLM模型，也存在局限性，尤其是在更复杂的灵巧操作任务上。这主要是因为需要额外的中间步骤来将模型的具身推理能力与机器人执行动作关联起来。

2. Gemini Robotics

Gemini Robotics是一种端到端的VLA（视觉-语言-行动）模型，将强大的具身推理先验与现实世界机器人的灵巧低级控制相结合，能够在不同环境下解决灵巧任务，并支持不同的机器人形态。

Gemini Robotics是Gemini Robotics-ER的一个衍生版本，采用了双组件架构：

Gemini Robotics 主干网络：托管在云端，负责视觉-语言推理。
Gemini Robotics 解码器：运行在机器人控制器上，负责动作执行。

Gemini Robotics 主干网络由Gemini Robotics-ER的一个蒸馏版本（distilled version）组成，其查询-响应延迟已优化至小于160ms（相比原始模型减少了数秒）。为了补偿主干网络的延迟，Gemini Robotics解码器在本地执行低级控制。

Gemini Robotics模型架构概览

Gemini Robotics 模型实验验证结果

1. 基于原始Gemini Robotics 基础模型进行测试

谷歌研究人员将Gemini Robotics 与π0 re-implement和多任务扩散策略模型（Multi-task Diffusion Policy）这两种最先进的基线模型进行对比试验。所有模型均在开箱即用（out of the box）的条件下进行评测，即不进行任何任务特定的微调或额外提示。

实验结果显示：

Gemini Robotics 在灵巧操作、语言指令理解以及泛化能力方面表现出色。

1）灵巧操作

在该组实验中，研究人员从数据集中随机抽取20个任务进行测试，覆盖洗衣房、厨房、办公桌以及其它日常活动场景。

实验结果表明，Gemini Robotics在一半的任务中表现出色，成功率超过80%。尤其是在可变形物体操控方面表现尤为优异（如“折叠粉色布料”、“缠绕耳机线”），而基线模型在这些任务上表现不佳。

三个模型在20个不同任务执行过程中的成功率对比

问题点在于：某些复杂的高难度灵巧任务（比如“插入鞋带”），未经过微调的Gemini Robotics模型执行任务的成功率依然很低。

2）语言指令理解

在该组实验中，研究人员选取了25条语言指令，并在5个不同的评估场景中进行测试，包括训练场景以及包含未见过物体和容器的全新场景。

实验结果表明，在具有挑战性的场景（包含新物体和细粒度指令的任务，如“将牙膏放入盥洗台底部隔间” ），Gemini Robotics 的表现优于所有基线模型。

针对新物体的带详细指令的 “拾取” 和 “拾取并放置” 任务的成功率

3）泛化能力

研究人员评估了Gemini Robotics模型在指令泛化、视觉泛化以及动作泛化三个维度上的泛化能力。

三个模型泛化能力试验结果对比

Gemini Robotics在所有三种泛化类型上均明显优于基线模型，并能更有效地适应各种变化。即使在基线模型发生灾难性失败（如遇到新语言的指令）的情况下，Gemini Robotics 仍能取得非零成功率。

研究人员推测，Gemini Robotics较强的泛化能力依赖于以下三种原因：

更强大、更高容量的VLM（视觉-语言模型）主干网络；
Gemini 2.0 中最先进的视觉编码器；
多样化的训练数据共同提升了模型的泛化能力。

2. 基于微调后的Gemini Robotics专用模型进行测试

研究人员通过对Gemini Robotics模型在小规模高质量数据集上进行微调，进一步测试模型的极限能力，并探索未来可能的优化方向，具体研究方向如下：

能否执行复杂长时序灵巧任务；
推理能力、语义泛化以及空间理解是否有所增强；
能否快速适应新任务；
能否适配到不同实体形态的的机器人。

1）长时序灵巧操作任务

研究人员选择了6个高难度的长时序任务来测试经过小规模高质量数据集训练微调后的Gemini Robotics模型。这六项任务分别为：折纸狐狸”、“打包午餐盒”、“拼写游戏”、“玩纸牌游戏”、“夹取豌豆”、“舀坚果”。

Gemini Robotics 在 ALOHA 机器人平台上成功完成多种长时序灵巧任务

4类模型执行6项任务的成功率对比

实验结果表明：

经过相同数据微调后，从执行6项任务执行的成功率来看，经过微调后的Gemini Robotics专用化模型明显要优于经过微调的两个基线模型【Multi-task diffusion（specialist）和 π0 re-implement （specialist）】。

尤其在“舀坚果”、“打包午餐盒”、“玩纸牌游戏”以及“拼写游戏”这四项任务中，经过微调后的Gemini Robotics专用化模型执行任务的成功率达到了80%以上。

2）单步推理、语义泛化以及空间理解能力增强

研究人员将增强推理版本的Gemini Robotics 与未经微调的原始基础 Gemini Robotics 模型进行了比较，测试场景均为训练分布外的真实机器人任务。

基础Gemini Robotics 模型与增强推理版本在真实世界评估任务中的成功率对比

实验结果显示：

在真实世界的分布外任务中，推理增强版Gemini Robotics在单步推理、语义知识及空间理解的任务中的成功率获得显著提升。

另外，实验还表明，推理增强版Gemini Robotics模型还可输出类似人类思维的可解释中间步骤（与Gemini Robotics-ER的具身推理轨迹高度吻合），大幅提升模型可解释性。如下图所示的关键点轨迹可视化，即为模型内部思维链的具象化映射。

推理增强版Gemini Robotics模型思维链预测轨迹可视化

备注：红色与蓝色轨迹分别表示模型利用具身推理知识，对左臂（红）和右臂（蓝）未来1秒运动路径的预测结果。

3）快速适应新任务

机器人基础模型通过利用预先获取的机器人动作和物理交互常识，有望实现快速任务学习。

为了验证此结论，研究人员从之前的长时序任务中选取了8个子任务，并对基础模型微调，来观察每个任务的平均成功率随演示次数的变化情况。

各任务平均成功率随演示次数的变化曲线

实验结果显示：

8项任务中有7项仅需至多100次演示（相当于15分钟至1小时，具体取决于任务复杂度），微调后Gemini Robotics专用模型成功率便已超过70%。
在其中的2项任务中（“放容器到午餐盒”和“放入生菜”），微调后的Gemini Robotics专用模型的任务成功率达到100%。
在“折纸狐狸：第一折"、“放容器到午餐盒”和“午餐盒拉链闭合”这3项复杂任务中，微调后的Gemini Robotics专用模型执行任务的成功率明显优于基线模型。
在“放入生菜”、“浇沙拉酱”和“抽纸牌”这3项相对简单任务中，微调后的π0 re-implement专用模型表现优异，在100次演示后，任务成功率达到100%。π0-reimplement 的表现略微优于 Gemini Robotics。

结论：强大的视觉语言模型（VLM）主干网络能将丰富多元的机器人动作数据转化为对物理交互的深度理解，这是实现新任务快速学习的关键所在。

4）适配新的机器人形态

在此次实验中，研究人员探索基于ALOHA 2平台动作数据训练的Gemini Robotics模型，如何通过少量目标平台数据高效适配新实体形态。

新的实体形态机器人实验对象包括：配备平行夹爪的双臂Franka机器人和Apptronik公司研发的配置五指灵巧手的全尺寸人形机器人Apollo。