当前位置: 首页 > news >正文

【论文+VLA】2505.GraspVLA——基于十亿级合成动作数据预训练的抓取基础模型(即将开源)

时间:2025.05.07

项目地址:https://pku-epic.github.io/GraspVLA-web/

论文: 2505.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

媒体报道:真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

核心问题与动机

现有的具身基础模型(如视觉-语言-动作模型,VLA)依赖真实世界数据收集,成本高且难以扩展。本文探索合成数据在训练VLA模型中的潜力,提出​​GraspVLA​​,一个完全基于合成数据预训练的抓取基础模型,旨在通过大规模合成数据解决真实数据不足的问题,并实现开放词汇的抓取泛化。

还有GraspVLA团队总结的具身基础模型七大泛化「金标准」,按照Vision、Language、Action进行不同分层,这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。


主要贡献

  1. ​SynGrasp-1B数据集​

    • ​规模与内容​​:包含十亿帧抓取数据,覆盖240个类别、10,000个物体,通过物理仿真(MuJoCo)和光线追踪渲染(Isaac Sim)生成。
    • ​多样性增强​​:域随机化(光照、背景、相机参数等)和高效生成策略(异步写入、并行处理),确保数据覆盖广泛几何与视觉变化。跨6个方面的概括性,包括干扰因素,空间姿势,类别,照明,背景和近环动作
    • ​优化轨迹生成​​:单步运动规划提升轨迹平滑性,减少模仿学习中的犹豫行为。
  2. ​GraspVLA模型架构​

    • ​视觉-语言-动作整合​​:结合视觉编码器(DINO-v2 + SigLIP)、语言模型(InternLM2 1.8B)和动作生成模块(条件流匹配)。
    • ​渐进式动作生成(PAG)​​:将感知任务(视觉定位、抓取位姿预测)作为动作生成的中间步骤,形成链式推理(Chain-of-Thought),联合训练合成数据与互联网语义数据(如GRIT),融合几何与语义知识。
    • ​训练策略​​:合成数据训练完整链式流程,互联网数据仅训练感知部分,实现跨模态知识迁移。
  3. ​实验验证​

    • ​零样本泛化​​:在真实和仿真环境中(如LIBERO)显著优于现有模型(如AnyGrasp、π₀、OpenVLA),尤其在透明物体和长尾类别(如充电器、毛巾)上表现优异。
    • ​少样本适应性​​:仅需少量标注数据即可适应新任务(如避免触碰杯子内部、密集环境顺序抓取)。
    • ​效率与鲁棒性​​:闭环策略减少模块化系统的误差累积,PAG机制提升动作生成的连贯性和成功率。

方法细节

数据集生成流程
  1. ​物体布局生成​​:从Objaverse筛选物体,随机缩放、姿态放置于桌面,生成多样化场景。
  2. ​抓取轨迹规划​​:基于抓取合成算法生成稳定抓取位姿,使用CuRobo规划无碰撞轨迹,并通过物理仿真验证成功率。
  3. ​视觉渲染与随机化​​:Isaac Sim渲染多视角RGB图像,随机化光照、背景、相机参数,提升泛化能力。
模型设计
  • ​PAG机制​​:
    • ​步骤1(感知)​​:视觉语言模型生成目标物体的2D边界框。
    • ​步骤2(几何推理)​​:结合本体感觉(proprioception)预测3D抓取位姿。
    • ​步骤3(动作生成)​​:基于流匹配(Flow Matching)生成精细的末端执行器动作序列。
  • ​联合训练​​:合成数据监督完整流程(边界框→抓取位姿→动作),互联网数据仅监督边界框预测,实现跨模态对齐。

实验结果

  1. ​零样本抓取成功率​

    • ​真实世界​​:在光照变化、背景干扰、物体高度变化等条件下,GraspVLA平均成功率93.3%,远超基准模型(如π₀的76.6%)。
    • ​仿真环境(LIBERO)​​:在长序列任务(Long Suite)中零样本成功率82%,优于经过微调的OpenVLA(33.7%)和π₀(62.7%)。
  2. ​透明物体抓取​

    • AnyGrasp因点云不完整导致成功率仅10%,GraspVLA通过多视角视觉和语义推理达到86.6%。
  3. ​少样本微调​

    • 仅需100条标注数据,模型可适应新任务(如工业零件抓取),成功率90%,而从头训练模型仅30%。

局限与未来方向

  • ​当前局限​​:仅限于Franka机械臂和固定视角配置;对模糊指令(如“抓取左边的物体”)处理不足;未考虑可变形物体的物理特性。
  • ​未来工作​​:扩展至更多机器人平台和任务(如非抓取操作);结合强化学习生成复杂轨迹;优化推理速度(当前5Hz vs. AnyGrasp的37Hz)。

总结

GraspVLA通过大规模合成数据预训练和创新的链式推理机制,显著提升了抓取任务的泛化能力和适应性,为机器人基础模型提供了一种高效且可扩展的训练范式。其代码、数据集及预训练权重已开源,推动社区在合成数据驱动的具身智能研究。

相关文章:

  • 【软件设计师:软件工程】9.软件开发模型与方法
  • python小记(十四):Python 中 **参数解包:深入理解与应用实践
  • WTK6900C-48L:离线语音芯片重构玩具DNA,从“按键操控”到“声控陪伴”的交互跃迁
  • WPF 子界面修改后通知到主页面
  • 一站式远程访问工具对比分析及选择建议
  • LeetCode:翻转二叉树
  • 使用OpenFOAM中的VOF模型仿真两相流
  • maven如何搭建自己的私服(windows版)?
  • Java 的 Monitor 机制:原理与源码详解
  • [git]如何关联本地分支和远程分支
  • 数据库的进阶操作
  • 路由器断流排查终极指南:从Ping测试到Wireshark抓包5步定位法
  • 基于GlusterFS的分布式存储集群部署实战指
  • System-V 共享内存
  • JavaScript中数组和对象不同遍历方法的顺序规则
  • 驱动开发硬核特训 · Day 30(上篇):深入理解 I2C 总线驱动模型(以 at24 EEPROM 为例)
  • 多模态文档检索开源方案-三大竞赛获奖方案技术链路
  • 基于Credit的流量控制
  • C++ 算法学习之旅:从入门到精通的秘籍
  • C++模板笔记
  • 看展览|2025影像上海艺博会:市场与当代媒介中的摄影
  • 习近平同俄罗斯总统普京会谈
  • 国家主席习近平同普京总统签署关于进一步深化中俄新时代全面战略协作伙伴关系的联合声明
  • 洞天寻隐·学林纪丨玉洞桃源:仇英青绿山水画中的洞天与身体
  • 湖北奥莱斯轮胎公司逃避监管排放大气污染物被罚25万元
  • 默茨当选德国总理