当前位置: 首页 > news >正文

数据开源 | “白虎”数据集首批开源,迈出百万数据征途第一步

“白虎”数据集首批开源

在机器人智能不断迈向自主化、通用化的进程中,如何解决人形机器人的“喂养”难题、走出“数据荒漠”,已成为具身智能领域亟需攻克的关键课题。为此,2025 年初,全国首个异构人形机器人训练场在模力社区正式启用,超百台异构本体在场景中日复一日演练、采集、优化,构建出一个前所未有的数据工程体系。而在这片“进化之地”中孕育而生的,正是被誉为机器人“粮仓”的——“白虎”数据集。

“白虎”数据集开源直达https://www.openloong.org.cn/cn/dataset?utm_source=referral&utm_medium=csdn&utm_campaign=data&utm_content=250728

"白虎"数据集由国家地方共建人形机器人创新中心(以下简称“国地中心”)牵头打造的,作为全球首个规模突破百万量级的异构机器人数据集,其数据源自真实应用场景,全面覆盖多种全尺寸人形机器人、类人形轮式机器人以及机械臂等异构平台,并经过严格的质量控制与校验。它不仅在体量上实现突破,更在采集方法、采集内容、数据管理上形成了标准规范,成为驱动人形机器人能力跃迁的数据基座。

本次正式开源的数据集,正是从“白虎”数据集中精心选取的一部分子集,聚焦于四款主流机器人本体和两类典型末端类型,共计10万余条高质量任务数据。这是白虎数据集面向开源社区迈出的第一步,未来“白虎”数据集将持续逐步开放,预计最终累计开源超百万条数据,构建起全球领先的具身智能数据开放体系。

图片

值得一提的是,该数据集已通过中国信息通信研究院组织的具身智能数据集质量评估,获得官方颁发的《数据集质量检测报告》《具身智能数据集质量评估证书》成为我国首个获得信通院权威认证的具身智能机器人数据集。

四大机器人、两类末端、五大真实场景、数十类任务

本次开源数据涵盖四款主流机器人本体,分别为:青龙、智元A2D、傅利叶GR2、乐聚夸父,在构型设计与适用场景上各具代表性。青龙是全尺寸开源公版人形机器人,具备高度仿生躯干设计特性,适用于科研、工业制造、民生服务等多种场景;智元A2D采用轮式结构设计,主要面向工业及数采场景;傅利叶GR-2配备了仿生灵巧手,适合高精度操作;乐聚夸父采用开源鸿蒙系统驱动,具备高动态运动构型特征。

在末端类型上,数据集覆盖夹爪与灵巧手两类类型,分别适用于简单结构件抓取与精细操作,构成了具身控制中极具代表性的末端类型分布,为不同末端类型的操作模型训练提供了数据支撑。

数据样本涉及五大真实场景工业制造、家居家政、餐饮服务、商超药店和通用抓取放置,合计覆盖30余类高频任务类型,每类任务均配套详细自然语言描述、动作标签、场景信息、传感器及机器人硬件参数,并采用统一的数据处理与管控方法,对具身模型的泛化性提升具有极高的价值,满足深度学习、控制策略、语义理解等不同层次的建模需求。

部分任务示例包括:

电池抓取

冰箱拿取物体

插花

为提升数据的通用性与结构清晰度,每条数据配套多维度语义标签信息,具体包括:

物品标签

涵盖工业件、餐具、日用器具、药品等多种物品;

技能标签:

如抓取、放置、旋转、推进、拉取、按压等基本操作原语;

任务与场景标识

任务名统一编码,场景维度区分操作上下文语义;

末端类型:

分别记录夹爪或灵巧手执行动作,可用于策略差异建模;

语言描述:

如“从传送带抓取药盒并放置到指定托盘”,支持自然语言与动作对齐建模。

该标签体系作为“白虎”数据集数据标准的核心要素,未来将在持续开放的数据集中复用。

高质量数据的三重保障

任务多样,数据真实

数据采集任务紧贴现实应用场景,从流水线操作、家庭生活服务,到餐饮商用与通用交互任务全面覆盖,构建出一个面向泛化智能系统训练的任务谱系。例如在工业制造场景中,“电池抓取”“传送带物品分拣”等任务模拟典型自动化操作流程;而在家庭家政与商超服务类任务中,“咖啡机使用”“文具收纳”“药品上架”等任务则更具复杂操作步骤与物品交互多样性。

与仿真数据不同,本数据集100%来源于真实机器人在真实物理环境中的任务执行记录,数据通过“数据质量验证”和“本体算法验证”双重机制,形成了系统化、工程化、前置化的数据质量保障路径。

图片

多元异构,差异全面覆盖

与传统数据集相比,该数据集最显著的特点在于异构本体间任务的高度统一与复用性设计。每一个关键任务都在多个机器人平台上进行了采集,例如“文具收纳”任务在青龙、智元A2D、傅利叶GR2等本体上均有执行版本,这种跨本体一致采集设计,为迁移学习、模仿学习、通用动作策略训练等研究方向提供了非常理想的实验基础。

同时,在执行过程中,机器人所采用的末端类型也被详细记录,包括夹爪与灵巧手两种典型类型。不同末端结构对物品的操控方式、夹取路径、姿态控制等都有显著差异,这也使得数据集天然支持控制策略的对比研究和结构适应性评估:

机器人本体异构性

青龙为全尺寸开源公版人形机器人,具备高度仿生躯干设计、智元A2D为轮式结构,面向工业及数采场景、傅利叶GR-2配备仿生灵巧手,适合高精度操作、乐聚夸父为开源鸿蒙系统驱动,高动态运动构型,多者结合综合体现了机器人本体异构性;

末端执行器差异

夹爪主要用于规则物体处理,灵巧手支持复杂物品抓握、工具使用、人类类比动作执行;

任务分布广泛

同一任务在不同机器人上执行,形成天然的跨本体对照实验语料,有利于训练具备泛化能力的策略模型。

这套异构数据结构使数据集具备了极强的可拓展性与对比分析能力,是实现“通用任务能力”验证的核心基础之一。

数据规范统一, 可直接调用

本数据集采用人形机器人具身智能训练数据集管理标准,明确不同来源、不同类型的数据结构和表示方法,并规范数据质量评价方法,有效解决多源异构数据格式不统一、质量层次不齐等问题,保障规模化数据集的高质量生产,同时为行业内的数据生产与管理提供了标准参考。

图片

向更广阔的数据生态迈进

具身智能离不开大规模真机数据。我们希望这批由真实本体、真实任务、真实执行过程构建的高质量数据,能够助力更多开发者和研究者开发更强健的具身智能系统、构建统一可对比的任务基准,推动从“能动”到“会做”的能力跃迁

本次开源标志着“白虎”数据集向开源社区迈出的坚实一步,但远未终点。白虎数据集开源的全量规模未来将突破百万条任务数据,不断引入更多机器人类型、末端形式、任务内容与多模态传感输入(视觉、力觉、语音等),构建面向通用具身智能系统训练的完整数据基座

OpenLoong 社区也将携手行业开发者与生态伙伴,持续推动具身智能数据生态开放,共建基准测试、开源评测、技能迁移与大模型训练等关键环节,共同打通“真实数据-算法建模-智能演化-实体应用”的闭环链路。

欢迎各位加入OpenLoong开源社区,如果您在使用过程中有任何建议或合作需求,欢迎与我们取得联系。

http://www.dtcms.com/a/303595.html

相关文章:

  • Zynq SOC FPGA嵌入式裸机设计和开发教程自学笔记:硬件编程原理、基于SDK库函数编程、软件固化
  • 2.DRF 序列化器-Serializer
  • 第五章:进入Redis的Hash核心
  • 小架构step系列28:自定义校验注解
  • 【算法训练营Day17】二叉树part7
  • 【VASP】二维材料杨氏模量与泊松比的公式
  • OpenLayers 综合案例-信息窗体-弹窗
  • 打卡day5
  • C++面试5题--5day
  • C++中的“对象切片“:一场被截断的继承之痛
  • 【SpringMVC】MVC中Controller的配置 、RestFul的使用、页面重定向和转发
  • rhel9.1配置本地源并设置开机自动挂载(适用于物理光驱的场景)
  • c++ 基础
  • windows内核研究(异常-CPU异常记录)
  • 嵌入式分享合集186
  • STM32时钟源
  • JavaScript手录09-内置对象【String对象】
  • 第一章:Go语言基础入门之函数
  • wrk 压力测试工具使用教程
  • 屏幕晃动机cad【4张】三维图+设计说明书
  • 多信号实采数据加噪版本
  • 详解 Electron 应用增量升级
  • 轻量级远程开发利器:Code Server与cpolar协同实现安全云端编码
  • 2. 编程语言-JAVA-Spring Security
  • 记录自己第n次面试(n>3)
  • JavaScript手录08-对象
  • 深入解析IPMI FRU规范:分区结构与字段标识详解
  • 10_opencv_分离颜色通道、多通道图像混合
  • Nuxt3 全栈作品【通用信息管理系统】修改密码
  • OpenLayers 综合案例-热力图