【论文阅读】GR00T N1:面向通用人形机器人的开放基础模型
NVIDIA 研究人员开发了 GR00T N1,这是一种用于通用人形机器人的开放式视觉-语言-动作基础模型。该模型在真实的 GR-1 人形机器人和仿真任务中实现了强大的性能,利用“数据金字塔”策略进行高效训练,并在各种机器人形态和场景中展现出强大的泛化能力。
简介
通用人形机器人的研究长期以来一直是机器人学研究的核心目标。传统的做法侧重于针对特定任务的专用系统,而基础模型方面的最新进展为创建多功能机器人智能提供了新途径。GR00T N1 代表着这一方向上的重要一步,它引入了一个专门为通用人形机器人设计的开放式基础模型。
图1:GR00T N1 采用的分层数据金字塔策略,将网络数据和人类视频作为基础,合成数据作为中间层,以及真实世界机器人轨迹作为顶层,以解决机器人学中的“数据孤岛”问题。
GR00T N1 由英伟达的一个大型跨学科团队开发,通过创新的“数据金字塔”方法解决了机器人训练中数据稀缺的根本挑战。与可以利用海量网络规模数据集的数字AI系统不同,机器人学受困于不同机器人形态和控制模式下碎片化、收集成本高昂的真实世界数据。这项工作展示了如何有效地结合异构数据源——从网络数据和人类视频到合成模拟和真实机器人轨迹——来训练一个能力强大的通用模型。
架构与设计理念
GR00T N1 采用受认知科学原理启发的双系统架构,将高级推理与低级动作生成分离。这种设计理念解决了在复杂环境中对复杂任务理解和精确运动控制的需求。
图2:GR00T N1的双系统架构,展示了用于推理的系统2(视觉-语言模型)和用于动作生成的系统1(扩散变换器),它们以不同频率运行,以平衡理解和控制。
该架构由两个相互连接的系统组成:
**系统2(视觉-语言模块)**作为推理组件,由英伟达的Eagle-2视觉-语言模型驱动。该模块处理224×224分辨率的视觉观察和聊天格式的自然语言指令。它以10Hz的频率运行,从中间层(特别是2B参数模型的第12层)提取视觉-语言特征,以提供对环境和任务目标的语义理解。
**系统1(扩散变换器模块)**作为动作生成系统,实现为流匹配扩散变换器(DiT)。该模块以120Hz的频率运行,通过去噪过程生成16个运动动作块。它从处理本体感知状态信息和噪声动作的特定形态编码器接收输入,然后通过交叉注意力机制关注VLM的输出标记,以生成符合上下文的运动指令。
这些系统之间的集成通过交叉注意力机制实现,其中DiT模块关注来自VLM的视觉-语言特征。特定形态的多层感知器(MLP)负责将不同机器人平台上的各种状态和动作维度投影到共享的嵌入空间中,从而使模型能够跨不同的机器人形态工作。
数据策略和合成数据生成
GR00T N1 的核心创新在于其分层数据集成策略,通过作者称之为“数据金字塔”的方法解决了机器人学中数据稀缺的关键挑战。
金字塔底部是网络数据和人类视频数据集,包括Ego4D、Ego-Exo4D、Assembly-101、EPIC-KITCHENS等。这些数据集提供了广泛的视觉和行为先验知识,但缺乏机器人特定的动作标签。中间层由通过两种主要方法生成的合成数据组成:
模拟轨迹是使用物理模拟器(如 RoboCasa 框架)中的 DexMimicGen 等系统创建的。这种方法通过分割演示并以物体放置、照明和环境条件的变化进行重放,将有限的人类演示转化为大量多样的丰富数据集。
神经轨迹代表一种特别创新的方法,其中预训练的图像到视频生成模型(如 WAN2.1-I2V-14B)在真实的机器人远程操作数据上进行微调。这会生成合成视频序列,通过反事实场景和传统远程操作难以或昂贵收集的新颖行为来增强真实数据。
图3:GR00T N1 详细架构视图,展示了预训练的 Eagle-2 VLM 如何通过交叉注意力机制与扩散变换器集成,以及特定于机体的编码器和解码器如何处理多样化的机器人配置。
对于缺乏真实动作的数据源,有两种技术可以生成伪动作:
**潜在动作(LAPA)**采用一个 VQ-VAE 模型,该模型经过训练以从连续视频帧中提取潜在特征。连续的预量化嵌入作为伪动作标签,有效地在多样化的视觉数据中创建了一个共享的潜在动作空间。
**逆动力学模型(IDM)**根据当前和未来的图像帧预测动作。这些模型被实现为扩散变换器,通过在真实机器人数据上进行流匹配训练,为动作序列未知的神经轨迹生成伪动作。
训练与实现
训练过程涉及通过从异构数据混合物中仔细批量采样,对所有三个数据金字塔层进行端到端优化。模型在完整数据金字塔上进行预训练,然后对单一机体数据集进行后训练(微调),通常通过神经轨迹进行增强。
辅助目标检测损失在训练期间增强了空间理解。该系统在大型计算基础设施上进行训练,使用了多达 1024 个 NVIDIA H100 GPU,并通过 NVIDIA OSMO 编排平台进行管理,展示了机器人技术中训练基础模型所需的计算需求。
该模型通过特定于机体的编码器和解码器处理不同的机器人机体,使得核心 DiT 架构能够保持共享,同时适应不同机器人平台的不同自由度和传感器配置。
实验结果与性能
GR00T N1 在模拟和真实世界基准测试中均表现出强大的性能,始终优于Diffusion Policy 和 BC-Transformer 等成熟的基线方法。
图4:GR00T N1 在 RoboCasa、DexMG 和 GR-1 模拟基准测试中,每项任务演示数量不同时,相对于基线方法的一致优势的性能比较。
在模拟基准测试中,GR00T N1 比基线方法取得了显著改进。每项任务有 100 次演示时,其平均成功率达到 45.0%,而 Diffusion Policy 为 33.4%,BC Transformer 为 26.4%。性能提升在 GR-1 Tabletop 套件等复杂任务上尤为显著,GR00T N1 成功率达到 50.0%,而 Diffusion Policy 为 32.7%。
对Fourier GR-1人形机器人的真实世界评估揭示了更令人印象深刻的结果。在数据稀缺的条件下(仅使用10%的可用遥操作数据),GR00T N1-2B达到了42.6%的成功率,几乎与使用完整数据集训练的Diffusion Policy(46.4%)持平。使用完整数据时,GR00T N1-2B的成功率达到76.8%,显著优于Diffusion Policy的46.4%。
图5:连续帧显示GR-1人形机器人成功执行拾取和放置红色苹果的任务,展示了模型在真实世界环境中执行复杂操作的能力。
合成数据的影响
神经轨迹的整合持续提升了所有基准的性能。在RoboCasa模拟中,与神经轨迹的协同训练带来了+4.2%至+8.8%的性能提升。对于真实的GR-1人形机器人任务,神经轨迹增强平均提供了+5.8%的提升。
图6:性能比较显示了LAPA(潜变动作)和IDM(逆动力学模型)两种方法在模拟和真实世界任务中对神经轨迹增强的益处。
用于生成伪动作的LAPA和IDM方法之间的比较显示,在数据量极低的情况下,LAPA可能表现略好,而当有更多数据可用于训练逆动力学模型时,IDM则获得优势。这两种方法都显著优于没有合成数据增强的基线方法。
泛化能力和鲁棒性
预训练的GR00T N1模型展现了令人印象深刻的泛化能力,无需针对特定任务进行微调。它在协调双臂交接任务中达到了76.6%的成功率,并在将新物体放入未曾见过的容器中达到了73.3%的成功率。这种泛化能力延伸到处理不寻常的初始条件,例如物体放置在训练中未曾见过的非典型位置。
从定性角度来看,与基线方法相比,GR00T N1展现出更平滑的运动模式和更精确的抓取。该模型成功遵循自然语言指令,并展示了复杂的双臂协调能力,尽管对单手数据进行后期训练可能会降低其中一些泛化能力。
意义和未来方向
GR00T N1通过几项关键贡献,代表了通用人形机器人开发方面的重大进展。数据金字塔策略为机器人技术中数据稀缺的基本挑战提供了一个可扩展的解决方案,展示了如何有效整合多样化数据源来训练强大的基础模型。
双系统架构提供了一个结合高层推理和精确运动控制的实用框架,可能成为未来机器人基础模型的模板。合成数据生成,特别是神经轨迹的使用,为扩展机器人训练数据开辟了新的可能性,超越了物理可收集的范围。
将GR00T-N1-2B模型、训练数据和模拟基准开源的决定,对机器人研究社区做出了重大贡献,降低了进入门槛,加速了通用人形机器人协同进展。
尽管当前能力集中于短期桌面操作,但该框架为解决更复杂的挑战奠定了基础,包括长期任务、运动-操作集成以及复杂的人机协作。所展示的数据效率和泛化能力表明,GR00T N1的方法可以通过最少的额外训练数据,实现对新环境和任务的快速适应。
这项工作验证了基础模型方法在机器人领域的潜力,并为开发能够在人类环境中有效运行的真正自主机器人提供了具体路径。随着硬件不断改进以及更多样化的训练数据变得可用,基于这些原则构建的系统有望最终实现通用人形机器人融入人类日常活动的长期愿景。