当前位置: 首页 > news >正文

【AI论文】GR-3技术报告

摘要:我们汇报了在构建通用型机器人策略以及开发GR-3方面取得的最新进展。GR-3是一款大规模的视觉-语言-动作(Vision-Language-Action,VLA)模型。它在泛化至新物体、新环境以及涉及抽象概念的新指令方面展现出卓越能力。此外,该模型仅需极少量的人类轨迹数据就能实现高效微调,从而能够快速且经济高效地适应新场景。GR-3在处理长周期及精细操作任务方面也表现优异,包括需要双手操控和移动的任务,展现出强大而可靠的性能。这些能力得益于一套多维度训练方案,该方案融合了网络级视觉语言数据的协同训练、通过虚拟现实(VR)设备收集的人类轨迹数据的高效微调,以及基于机器人轨迹数据的有效模仿学习。此外,我们还推出了ByteMini,这是一款具备高度灵活性和可靠性的多功能双手移动机器人,与GR-3集成后能够完成各种任务。通过大量真实世界实验,我们证明,在各种极具挑战性的任务中,GR-3的表现均优于最先进的基线方法pi_0。我们希望,GR-3能够成为构建通用型机器人、协助人类日常生活的重要一步。Huggingface链接:Paper page,论文链接:2507.15493

研究背景和目的

研究背景

随着机器人技术的快速发展,构建能够协助人类完成日常任务的通用型机器人已成为机器人研究领域的长期目标。然而,现实世界的多样性对机器人策略的泛化能力提出了巨大挑战。传统的机器人策略往往难以应对未见过的物体、环境和指令,尤其是当这些指令涉及抽象概念时。此外,许多日常任务具有长周期性和需要精细操作的特点,这对机器人策略的鲁棒性和可靠性提出了高要求。

近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型为开发通用型机器人策略提供了一条有前景的路径。这些模型基于预训练的视觉语言模型(VLMs),集成了动作预测能力,使机器人能够根据自然语言指令执行广泛的任务。然而,现有的VLA模型在指令跟随、泛化能力和长周期任务处理方面仍面临显著挑战,特别是在处理未见过的物体类别和复杂概念时。

研究目的

本研究旨在开发一种名为GR-3的大型VLA模型,该模型应具备以下能力:

  1. 强大的泛化能力:能够泛化至未见过的物体、环境和涉及抽象概念的指令。
  2. 高效微调:仅需少量人类轨迹数据即可快速且经济高效地适应新场景。
  3. 处理长周期和精细操作任务:在长周期和需要双手操控及移动的任务中表现出鲁棒且可靠的绩效。

研究方法

模型架构

GR-3基于预训练的VLM(Qwen2.5-VL-3B-Instruct)构建,采用混合Transformer架构,通过流程匹配(flow-matching)预测动作。模型接收自然语言指令、环境观察和机器人状态作为输入,生成动作块以控制双手移动机器人。

训练策略

  1. 多源数据协同训练:GR-3在机器人轨迹数据、视觉语言数据和人类轨迹数据上进行了协同训练。机器人轨迹数据用于模仿学习,视觉语言数据用于增强泛化能力,人类轨迹数据用于少样本学习。
  • 机器人轨迹数据:通过遥操作收集,包含多摄像头视角的图像和机器人状态信息。数据收集过程中使用了数据收集调度器,以最大化数据多样性和随机性。
  • 视觉语言数据:从多个数据源策划的大型数据集,涵盖图像字幕、视觉问答、图像定位和交错定位字幕等任务。
  • 人类轨迹数据:通过VR设备收集,包含自我中心视频和人类手部轨迹。
  1. 模仿学习:使用流程匹配损失函数在机器人轨迹数据上进行模仿学习,最大化策略在对专家演示的对数似然。
  1. 少样本学习:通过引入少量人类轨迹数据,实现GR-3在未见场景中的快速适应。

硬件与系统

  • ByteMini机器人:一款22自由度的双手移动机器人,具有高灵活性和可靠性,专为与GR-3集成而设计。
  • 全身合规控制框架:将所有自由度视为整体结构,以重定向任意遥操作的人类运动至可行的机器人运动。
  • 轨迹优化:用于政策推出的轨迹优化,增强GR-3生成的轨迹的稳定性和平滑性。

研究结果

泛化能力

GR-3在未见过的物体、环境和涉及抽象概念的指令上表现出强大的泛化能力。在广泛的可泛化放置任务中,GR-3在基本指令跟随和未见环境设置下的绩效均优于基线方法π0。此外,GR-3在处理涉及抽象概念的指令时,成功率和指令跟随率均显著高于π0。

少样本学习

通过引入少量人类轨迹数据,GR-3实现了在未见物体上的快速适应。仅需10条人类轨迹数据,GR-3在未见物体上的成功率和指令跟随率即得到显著提升。

长周期和精细操作任务

GR-3在长周期桌面清理和精细布料操作任务中表现出色。在桌面清理任务中,GR-3在指令跟随设置下的平均子任务成功率显著高于π0。在精细布料操作任务中,GR-3在基本设置和位置变化设置下的平均任务进度均优于π0,并能泛化至未见布料。

研究局限

尽管GR-3在多个方面表现出色,但仍存在以下局限:

  1. 处理未见指令和物体的能力有限:尽管GR-3在未见指令和物体上的表现优于基线方法,但在处理涉及全新概念和形状的指令和物体时,仍会犯错。
  2. 依赖高质量数据:GR-3的性能高度依赖于训练数据的质量和多样性。在数据稀缺或质量低下的情况下,模型的泛化能力可能受到影响。
  3. 模仿学习的局限性:与所有模仿学习方法一样,GR-3在推出过程中可能陷入分布外状态,且无法从中恢复。

未来研究方向

针对GR-3的局限,未来研究可探索以下方向:

  1. 扩大模型和训练数据规模:通过扩大模型规模和训练数据量,进一步提升GR-3在处理全新指令和物体时的泛化能力。
  2. 引入强化学习:结合强化学习(RL)方法,增强GR-3在复杂和精细操作任务中的鲁棒性,并优化超出模仿学习限制的性能。
  3. 改进数据收集和处理方法:开发更高效的数据收集和处理方法,以降低对高质量数据的依赖,并提高数据多样性和随机性。
  4. 探索多模态交互:研究GR-3与其他传感器(如触觉传感器)的集成,以增强其在复杂环境中的感知和交互能力。

总之,本研究通过开发GR-3大型VLA模型,在构建通用型机器人策略方面取得了显著进展。未来研究将进一步探索扩大模型规模、引入强化学习、改进数据收集和处理方法以及探索多模态交互等方向,以推动通用型机器人技术的发展。

http://www.dtcms.com/a/301603.html

相关文章:

  • 《频率之光:危机降临》
  • 详细解释一个ros的CMakeLists.txt文件
  • tpms传感器的设计---硬件电路
  • python中的容器和对象
  • 深入理解SmolVLA中的Flow Matching Action Expert:从理论到实现
  • 从0到1学Pandas(九):Pandas 高级数据结构与操作
  • Adobe Animate中文版 v2024.24.0.10.14
  • 洛谷 装箱问题 动态规划-变形背包问题
  • OpenCL study - code03 rgb2gray
  • 进度条制作--Linux知识的小应用
  • 电商平台中,订单未支付过期,如何实现自动关单?
  • 字节前端面试知识点总结
  • 使用GIS中基于森林的分类与回归模型来估算房屋价值
  • c++17--std::variant
  • 决策树算法小结(上)
  • cmake入门学习
  • HCIE学习之路:路由引入
  • 嵌入式硬件篇---ESP32拓展板
  • C语言中 %zu 的用法
  • Javascript中的instanceof
  • VMware Workstation Pro虚拟机的下载和安装图文保姆级教程(附下载链接)
  • 点云的协方差矩阵的三个特征值代表什么?
  • 5.7 多处理器的基本概念 (答案见原书 P278)
  • 6、企业信息化
  • 大模型应用主要组成
  • 一、openEuler 安装git 详细操作步骤
  • 俄罗斯方块游戏开发(面向对象编程)
  • CPA青少年编程能力等级测评试卷及答案 Python编程(三级)
  • Go的defer和recover
  • Windows 11 安装 jdk 8