当前位置: 首页 > news >正文

全球首个真实物理环境机器人基准测试发布,具身智能迎来统一评测标准

当机器人在演示视频中表现完美,却在真实环境中频频失误,该如何客观评估它们的真实能力?RoboChallenge的出现正在改变这一现状。

近日,全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试——RoboChallenge正式发布。这一由Dexmal原力灵机联合Hugging Face共同发起的基准测试,意味着着具身智能走向“现实世界智能”的关键一步。

图片

长期以来,机器人领域缺乏统一、开放且可复现的基准测试方法,使得技术进展难以衡量,不同方法的优劣无法公平比较。RoboChallenge通过构建大规模多任务的具身智能真机测试集,为研究人员提供了在统一环境中验证对比机器人算法的平台。

真机测试的创新突破

RoboChallenge的核心创新在于其“远程机器人”测试方法。通过云端化服务,研究者无需购买和维护昂贵的机器人设备,只需通过网络提交算法模型,即可进行在线真机测试和验证。这一模式打破了机器人测试的硬件资源限制,实现了“没有机器人,一样做实验”的效果。

图片

【团队将机器人在线部署。通过形式化一组底层API,提供观测的精确时间戳和动作队列的状态,以实现细粒度控制。无需交换Docker镜像或模型检查点】

平台集成了多款主流机器人硬件,包括UR5Franka PandaAlohaARX-5,每台均配备2-3RGB-D相机,并部署统一软件栈实现机器人与视觉系统的高可靠性联动。

在基准测试方法上,RoboChallenge创新性地提出“视觉输入匹配”方法。从演示数据中抽取参考图像,并实时叠加于测试画面,测试人员通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试的初始状态一致。这种方法不仅降低了测试人员的技术门槛,其稳定性甚至优于依赖经验人员的传统模式。

Table30测试集的科学设计

作为RoboChallenge的首套桌面操作基准测试集,Table30包含30个精心设计的日常情境任务,远超行业内真机竞赛或评测通常的3-5个任务数量。这些任务由位置固定的双手或单臂机器人执行,系统性地评估算法在多维度场景下的泛化能力。

图片

左:任务缩略图。右:基线方法的排名列表。第一个基准测试是一个包含30个任务的静态机械臂测试集,它对学习算法的多个方面提出了挑战。团队测量了端到端的任务级成功率以及衡量任务部分进展的得分,发现各模型之间存在明显差异

Table30从四个关键维度构建评估体系:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性。测试数据表明,即使最先进的基础模型也难以实现全面高分,印证该基准可作为通用机器人算法的“试金石”。

这些任务测试了模型的多种能力,包括精准定位抓取点、理解物体间空间关系、多视角协同运用、双臂交替协作操作、杂乱环境中重复执行技能、记忆多步骤任务阶段。从插花、整理果篮到叠抹布、开关水龙头,任务设计覆盖了从基础操作到复杂组合的全过程。

在评分机制上,Table30突破传统二值化评估局限,采用进度评分系统。对复杂任务认可分步进展,对简单任务优化完成效率,这一设计能更精准反映算法性能的代差。当算法实现突破性进展时,评分体系将给予增量认可。

10月14日在光谷举办的中部地区国家高新区G100联盟高质量发展论坛上,中国工程院院士陈学东在演讲中谈到,对于人形机器人的进化而言,最大的挑战是小脑——即运动规划与控制。目前人形机器人首要的短板正是运动稳定性还不够强。

在产业层面,具身智能已成为我国培育未来产业的重要方向。北京、上海、广东深圳、浙江杭州等多地密集出台专项政策,形成了一场面向未来的产业竞逐。

未来,人形机器人有望形成比新能源汽车更为庞大的产业规模。这也促使各地积极行动,力争在这一产业中占据先机。

而RoboChallenge也坚持全面开放原则,向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度。

这一举措可能将极大促进技术民主化,降低研究门槛。

目前,具身智能发展面临着感知与操作复杂性、高质量多模态数据稀缺、数据技术生态的开放性等挑战。RoboChallenge的发布,正是应对这些挑战的重要举措。通过构建开放、透明的评测生态,它将助力解决高质量多模态数据稀缺的问题,为算法发展提供丰富的真实世界数据支持。

随着RoboChallenge的推出,具身智能领域或将加速向更高水平发展。未来,RoboChallenge计划持续引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力。评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试。

这不仅是技术评测工具的进步,更是具身智能发展历程中的重要里程碑。正如ImageNet曾经推动计算机视觉技术的飞速发展,RoboChallenge有望在具身智能领域发挥类似的催化作用,加速技术从实验室走向现实世界的进程。

随着这一基准测试平台的广泛应用,我们将能够更准确地衡量技术进步,更有效地引导研发方向,推动具身智能技术在实际应用中创造更大价值。

http://www.dtcms.com/a/492206.html

相关文章:

  • 菏泽郓城住房和城乡建设局网站wordpress付费制插件
  • QT/C++ TCP/IP服务端程序
  • Linux-> TCP 编程3
  • 前端的学习与实战(一)
  • 优惠的网站建设百度竞价推广开户多少钱
  • LeNet网络
  • vivo官网网站服务中心庆阳网警
  • 闽清县城乡建设局网站网站访客qq统计系统
  • 使用NVIDIA cuVS优化向量搜索:从索引构建到实时检索
  • 高端网站制作物流案例网站
  • MySQL触发器
  • 无备案网站广告如何做seo优化排名营销
  • 做国际网站每年要多少钱这么注册免费网站
  • Linux中异常初始化和门设置函数的实现
  • tritonserver的docker镜像中运行onnxruntime-gpu,报错segmentationfault
  • 毕业答辩企业网站开发的问题创作平台有哪些
  • 客户推广渠道有哪些seo高端培训
  • AWS Glue中查询一个月的数据条数
  • 自助网站制作系统源码网络热词2022流行语及解释
  • 手机网站跟pc网站有什么不同中国人做的比较好的shopify网站
  • Rust 实战六 | 利用 winres 配置应用程序的图标
  • 通过docker、docker-compose方式安装部署zabbix7.0 LTS监控平台
  • 建设企业网站电话是多少广州市 网站建设 有限公司
  • 外贸网站建设可以吗网站开发流程心得体会
  • 网站内页产品做跳转安徽省建设工程招标网官网
  • 网站开发财务网站建设口号
  • 郑州企业建站系统模板电子商务网站建设属性
  • GroundingDINO安装报错合集解决
  • 具有价值的网站建设平台网站建设的流程分析
  • 国外网站推广平台有哪些?多用户建站平台