可泛化双手操作机器人基准测试:CVPR 2025 MEIS 研讨会 RoboTwin 双臂协作挑战赛
25年7月来自香港大学、上海交大、地平线机器人和浙江舜宇光学合资公司(D-Robotics)、松灵机器人(AgileX Robotics)、华为、上海AI实验室、深圳大学、清华、南京大学、VIVO 和京东等单位的论文“Benchmarking Generalizable Bimanual Manipulation: RoboTwin Dual-Arm Collaboration Challenge at CVPR 2025 MEIS Workshop”。
具身人工智能 (Embodied AI) 是机器人技术领域的一个新兴前沿领域,其驱动力在于对能够在复杂物理环境中感知、推理和行动的自主系统的需求。虽然单臂系统已展现出强大的任务性能,但协作双臂系统对于处理涉及刚性、可变形和触觉敏感物体的更复杂任务至关重要。为了推进这一目标,在第二届 MEIS 研讨会 (CVPR 2025) 上启动了 RoboTwin 双臂协作挑战赛。比赛基于 RoboTwin 仿真平台(1.0、2.0)和 AgileX COBOT-Magic 机器人平台构建,分为三个阶段:模拟第一轮、模拟第二轮和最终的真实世界轮。参赛者共完成 17 项双臂操作任务,涵盖刚性、可变形和基于触觉的场景。本次挑战赛吸引来自全球 64 支队伍、超过 400 名参赛者,并诞生 SEM 和 AnchorDP3 等性能卓越的解决方案,为可泛化的双手策略学习提供宝贵的见解。本文概述比赛设置、任务设计、评估方法、主要发现和未来发展方向,旨在为未来关于稳健且可泛化的双手操作策略的研究提供支持。
具身人工智能 (Embodied AI [7]) 已成为现代机器人技术领域的一个关键前沿领域,其驱动力在于对能够无缝感知、推理和与物理世界交互的自主智体日益增长的需求。尽管单智体系统近年来取得了长足的进步,但下一个前沿领域在于开发协作式多智体系统,以及能够在各种环境和任务复杂度下运行的精确自适应操控能力。
该领域的关键挑战包括:刚体的长视域操控、协调的双手交互,以及日益增长的可变形体操控,这些操控在处理诸如布料、毛巾和电缆等柔性材料时必不可少——这些任务由于其高维性和欠驱动动态而极具挑战性。此外,触觉感知模态的集成为细粒度控制和现实世界泛化带来额外的潜力,但也为触觉调节的策略学习和多模态融合带来新的算法难题。
这种快速发展的格局催生各种各样的技术方法,涵盖不同的输入模态(二维 RGB、三维几何、RGB-D 混合 2.5D 和触觉信号),涵盖涵盖经典感知-动作流程的架构范式、基于学习的框架,以及近期出现的能够统一语言、视觉和低级控制的大型多模态 Transformer 系统。
尽管取得这些进展,但该领域仍在努力解决几个基本问题:(1) 智体如何从嘈杂的真实世界多模态数据中学习稳健且可迁移的技能?(2) 如何在多任务策略学习中有效地平衡数据组成?(3) 模型如何在未知目标、环境和具身之间进行泛化?(4) 如何融合触觉和视觉模态,使其优势互补?(5) 如何使用量化、蒸馏或策略模块化等技术,确保样本效率、可扩展性和实时部署可行性,尤其是在计算资源有限的情况下?
为了应对这些挑战,推出 RoboTwin 双臂协作挑战赛,该挑战赛是 CVPR 2025 第二届 MEIS 研讨会的一部分。本次竞赛邀请全球研究界在模拟和现实环境中探索双臂操控的前沿技术。利用 RoboTwin 仿真基准和 AgileX Cobot-Magic 物理平台,鼓励参赛者开发可泛化、稳健且多模态的策略,以解决涉及刚体、可变形材料和触觉交互的各种操控任务。
通过此次挑战赛,不仅旨在对现有能力进行基准测试,更旨在突破具身智能的界限,为复杂物理环境中的协作型多模态机器人智体树立全新标准。
模拟回合 1
轮次规则
为了评估当前操控策略的能力以及参与研究人员的技术成熟度,在 RoboTwin 1.0 [21, 22] 仿真平台上设计五个刚体双臂操控任务和一个新视觉触觉物体分类任务(放置空杯、堆叠三个碗、放置双鞋、将瓶子放入垃圾桶、堆叠三个积木以及触觉分类)。视觉触觉任务结合通过有限元分析 (FEA) 模拟的物体变形,提出一项独特的挑战,需要多模态推理 [12]。六个任务的关键帧如图所示。
每项任务允许提交一个专用模型,每项任务最高得分为 20 分(触觉任务为 5 分),总分为 105 分。值得注意的是,采用阶段评分方法可以更细致地区分参与者的表现,确保排名更精准。在开发阶段,参与者可以使用 RoboTwin 平台收集无限量的数据。为了确保评估公平,所有测试时间种子(对应于随机场景和物体配置)在训练期间均不可见。此外,最终推理模型需要在单个 RTX 4090 GPU 上运行,以强制执行标准化的计算约束。
为了减少随机性并确保可靠性,每项任务都经过 100 次独立试验的评估。值得注意的是,背景纹理、桌子和墙壁颜色、光照条件和桌子高度等环境属性在训练和评估环境中保持一致。
模拟回合 2
轮次规则
为了进一步挑战当前策略泛化的极限,并探索更先进的双臂操作解决方案,比赛第二轮采用增强型 RoboTwin 2.0 [4] 平台。与第一轮相比,在多个维度上提高难度,包括视觉鲁棒性、多任务处理和策略自适应性。如图所示,比赛引入了六个刚体操作任务(RGB 积木排序、放置双鞋、将瓶子放入垃圾桶、堆叠三个积木、放置手机支架、放置物体比例),要求参赛者开发一个能够解决所有任务的统一模型。
为了支持任务歧义消除,比赛提供评估期间未显示的语言指令,要求模型能够理解自然语言提示并执行正确的行为。在评估过程中,引入域随机化,包括多样化和未显示的背景纹理、场景杂乱、±3 厘米的桌面高度变化以及不断变化的光照条件,以测试模型的鲁棒性。重要的是,必须完全完成任务才能获得分数,每个任务的满分为 100 分,总分为 600 分。
真实世界回合
回合规则
基于 COBOT-Magic 平台设计五项双臂操作任务,包括倒水、折叠毛巾、折叠短裤、叠盘子和盖笔,如图所示。
为了模拟大规模数据收集过程中的真实世界差异,最初在非比赛环境中为每个任务提供 300 个演示。这些演示在摄像机视角、桌子高度、背景杂乱程度和桌面纹理方面略有不同。参赛者需要利用这些差异来提取可迁移的知识。
在最终代码和模型提交截止日期前一周,为每个任务额外发布 20 个高质量演示。这些演示是在正式比赛环境中收集的,桌面干净整洁,背景固定可见,旨在代表目标评估领域。值得注意的是,在最终评估中,每项任务的 20 次试验中有 15 次是在这种见过的配置下进行的,而其余 5 次试验则使用了未见过的背景变化来评估视觉泛化和鲁棒性。
每项任务都经过 20 次试验进行评估。前 15 次试验在干净的见过桌面设置下进行,而后 5 次试验则使用未见过的背景布进行评估,以测试模型的视觉鲁棒性。重要的是,参与者必须开发一个模型和一组共享的权重来解决所有六个任务。为避免硬编码解决方案,评估期间使用的语言指令将不会在训练期间提供。如图显示了现实世界挑战的演示。子图 (a) 显示了现实世界的评估设置,其中两个双臂 Piper 机器人部署在相同的物理环境中,具有一致的桌面设置和背景布。子图 (b) 和 © 分别展示参赛团队针对倒水和盖笔任务执行的代表性策略。
重点介绍获胜的解决方案:JD-TFS 团队的 AnchorDP3 [29] 和 TSAIL-HRL 团队的 SEM [17]。值得注意的是,这两种方法都融合了明确的 3D 模态,这与许多近期基于 VLA 的方法(它们仅依赖于多视角 2D 视觉输入)形成了鲜明对比。这表明,利用结构化的 3D 表征可以显著增强策略学习,提高样本效率并提供对物理空间更扎实的理解。
JD-TFS 团队的 AnchorDP3
JD-TFS 团队的 AnchorDP3 [29] 框架在本次挑战赛的模拟赛道(包括模拟第一和第二回合)中斩获冠军。这一成就源于对机器人操控策略学习方式的彻底反思。AnchorDP3 通过动作表征的范式转变以及三项互补创新,直接解决了高度随机环境下双臂操控的核心挑战,取得了 98.7% 的惊人成功率。 AnchorDP3 流程如图所示。
最重要的洞见在于认识到,传统的扩散策略在预测密集动作序列 (20-25Hz) 时会浪费计算资源,而这些动作大多是琐碎的、由动量驱动的运动。而 AnchorDP3 仅预测具有几何意义的“关键姿势”——这些关键的过渡点锚定在物体affordance上,例如预抓取、抓取和放置位置。这反映了人类的运动控制,其中有意识的规划仅发生在运动学拐点处,而过渡阶段则处于潜意识状态。
这种稀疏表示具有诸多优势:(1) 减少预测空间:该策略无需预测数千个密集动作,而是每个任务仅学习 10-30 个稀疏关键姿势 (2) 更佳的因果关系学习:该策略学习affordance驱动的决策(“向物体移动”),而不是虚假相关性(“向前移动,因为我正在向前移动”) (3) 训练数据多样性提升 14.5 倍:在相同的计算预算下,可以将他们的模型应用于更多环境变化。
其利用模拟环境的完整场景知识,自动为任务关键型物体生成精确的点级分割掩码。这消除了杂乱场景中的感知模糊性,无需人工注释。
没有强制使用单个编码器处理所有任务,而是采用轻量级、特定于任务的编码器(每个编码器仅包含 0.28M 个参数),并将数据输入到共享扩散动作专家中。这种模块化设计避免了不同操作策略之间的负面干扰,同时保持了计算效率。
该策略同时预测关节角度和末端执行器姿态,利用几何一致性加速收敛并提高准确性。虽然只执行了第一个预测的关键姿态,但监督所有预测的关键姿态及其完整运动状态显著提高了学习稳定性。
其解决了现有方法中根本性的低效问题,而不仅仅是扩大计算规模。通过围绕稀疏、有意义的决策重新构建动作空间,以更少的轨迹数据实现了卓越的性能,同时显著提高了环境多样性的暴露。高效的表征学习、模块化架构以及对模拟功能的巧妙运用相结合,创造了一个既理论严谨又实践有效的解决方案。
TSAIL-HRL 团队的 SEM
TSAIL-HRL 团队的 SEM [17] 框架在模拟轮次中表现出色,将机器人操控重新概念化为明确的 3D 空间推理和具身感知控制的联合问题。 SEM 并非将感知和动作视为松散耦合的子问题,而是将多视角视觉、深度线索和完整的运动状态紧密集成到统一的扩散策略中。在架构层面,SEM 包含一个空间增强器,用于将二维图像特征提升到连贯的三维嵌入空间;一个机器人状态编码器,用于捕捉双臂系统的完整关节图结构;以及一个基于扩散的动作解码器,用于以融合的语义和几何表示为条件。SEM 流程如图所示。
该设计基于两大核心洞察。首先,纯二维视觉编码器在杂乱场景中难以应对深度模糊——这一限制可以通过跨视图采样候选深度并将像素特征投影到三维位置嵌入中来克服,从而在保留二维语义的同时实现精确的空间理解。其次,仅使用末端执行器的表示会丢弃丰富的本体感受信息;通过将每个关节建模为图中的节点,并将注意集中在关节间距离上,机器人状态编码器可以生成一种尊重系统物理结构的具身感知嵌入。至关重要的是,SEM 的即插即用模块可以防止跨任务的负迁移,并允许独立升级视觉、语言或控制组件,而无需重新训练整个策略。
SEM 实证证明,这些设计选择能够转化为鲁棒性和效率。空间增强器和机器人状态编码器在消融研究中均做出了显著的贡献。尽管 SEM 理论严谨,但在计算上仍然易于处理:轻量级、任务专用的编码器最大限度地降低了开销,而扩散解码器则提供了统一的决策过程。最终,SEM 的操控策略能够优雅地泛化到新的物体排列,在感知噪声环境下保持高精度,并以更少的演示次数和更短的训练时间实现卓越的任务性能。
RoboTwin 挑战赛提供了一个严格的测试平台,用于评估模拟和真实环境下数据驱动的双臂操作策略。参赛团队探索了多种模型架构、数据收集流程和训练策略的组合。通过仔细分析他们的解决方案和成果,提炼出一些对推动具身机器人操作领域发展至关重要的跨领域见解。这些见解按主题领域进行了总结。
使模型容量与任务复杂性相匹配
事实证明,选择与任务固有复杂性相匹配的模型架构对于成功至关重要。虽然简单的任务可以通过轻量级策略来处理,但更复杂的操作——尤其是那些需要长期规划或多目标协调的操作——则需要更高容量的模型。MOMODA团队就体现了这种权衡:在从轻量级模型切换到基于 VLA 的 π0 模型,并将训练集数从 100 扩展到 3000 之后,在双鞋放置任务上的成功率从 48.2% 提升到了 95.1%。这凸显了将模型表达能力与任务难度相结合的重要性。
数据数量和质量的重要性
不断扩大训练数据量,可以持续提升所有任务的性能。从数百个训练集过渡到数千个训练集的团队,受益于环境和交互多样性的提升。然而,数据质量也同样重要:决赛前不久发布的高保真演示在模型微调和适应现实世界域方面发挥了关键作用。 JD-TFS 团队采用了两阶段训练流程——首先使用大规模中等质量数据 (LSMQ-D) 进行初始调整,然后使用小规模高质量数据 (SSHQ-D) 进行微调——事实证明,这一流程能够有效弥合具身和领域之间的差距。这强调了扩展数据量必须伴随稳健的质量保证实践。
多模态融合与深度感知编码
成功的策略有效地融合了视觉、深度和语言模态,从而提升了感知和泛化能力。MOMODA 团队采用了两阶段深度集成策略:首先将冻结的深度编码器与现有的视觉嵌入对齐,然后联合优化所有组件。这显著提高了策略准确率。此外,时间下采样——将动作频率从 25Hz 降低到 12Hz——提高了预测长视域行为的能力,同时保持了计算效率。这种多模态整合在具身化环境中尤为重要,因为单模态输入通常不足以解决复杂的操作动态。
指令落地和语言鲁棒性
指令条件下的操作在语义落地和任务模糊性方面带来了新的挑战。值得注意的是,VMV 团队发现,简单、高级的指令通常比复杂、过于详细的提示表现更好——这表明简洁的语言可能在各个任务之间具有更好的泛化能力。一些团队通过使用多种指令变体来扩充训练数据集,从而提高了模型的鲁棒性,有助于在评估过程中减轻嘈杂或模糊的输入提示的影响。这些发现呼吁在具身系统中,语言意图和动作 affordance 之间需要更好地协调。
数据预处理和演示细化
在实际比赛中,含噪声的演示是一个常见问题,例如不一致的初始状态、重复的抓取尝试、手臂抖动或不相关的动作等问题都会降低模型性能。 SHU-Robot 团队设计了一种混合轨迹过滤流程来解决这个问题,该流程将自动启发式方法(例如起始帧检测、运动分割)与手动验证相结合。其还应用了时间修剪和标准化轨迹长度以确保一致性。这一预处理步骤提供了更清晰的监督信号,显著提升了策略鲁棒性。此类流程很可能成为未来大规模真实世界数据集的重要组成部分。
统一模型泛化和评估偏差
挑战赛要求部署单一模型用于所有任务,这凸显了在异构场景(从长期规划到可变形体操控)之间平衡学习的难度。真实世界回合中的 Cap Pen 任务就是一个很好的例子:TSAIL-HRL 团队始终准确地执行大部分插入任务序列,但在最后阶段出现了轻微的误差,导致总分仅为 3.1 分。这揭示以结果为中心评估指标的一个关键缺陷,这可能会低估那些表现出部分强进展的策略。未来的基准可能会受益于进度-觉察评分方案,该方案可以反映超越二元成功/失败的细微任务成就。
基于 RoboTwin 挑战赛的成果和观察,确定几个有望推动双手机器人操作研究的方向:
(1) 长周期和多阶段任务学习:未来的研究重点应放在使智体能够执行需要规划、记忆和协调的跨阶段、时间较长的任务。
(2) 指令遵循操作:将自然语言理解融入操作策略,可以实现更灵活、更直观的人机交互,尤其是在开放式或零样本指令的情况下。
(3) 可变形体操作:需要更复杂的模拟、数据生成和策略架构来处理织物、毛巾和柔性包装等可变形体操作中所涉及的复杂动态和表征。
(4) 自我纠正和恢复能力:基于学习的系统应开发能够自主检测和恢复错误的机制,从而在长周期环境中提高任务成功率。
(5) 对感知噪声和域迁移的鲁棒性:增强视觉和多模态感知能力,以应对观察噪声、未知背景和具身变化,对于现实世界的部署仍然至关重要。
此外,从 Cap Pen 任务的真实机器人评估中观察到,TSAIL-HRL 团队在整个运动轨迹中始终表现出强劲的任务执行趋势。然而,在最终插入任务阶段出现的一些细微误差导致其得分仅为 3.1 分。这凸显了当前评估方案的局限性,即性能过于偏重于精确的末端执行器结果,而对接近成功的行为识别有限。因此,设计更具表现力、分布更稀疏的评估指标来反映任务进度和操作难度,是未来的一个重要方向。
此外,得益于精心设计的数据处理流程和算法的进步,一些团队在真实机器人测试环节成功利用了工业合作伙伴收集的大规模数据集。然而,数据收集过程中出现的异常值和数据质量不一致等问题仍未得到解决。因此,建立用于大规模机器人数据收集的质量保证、异常检测和纠正的标准化流程,是实现可扩展且可靠的模型开发的另一个关键研究挑战。