当前位置：首页 > news >正文

dexcap升级版之DexWild——面向户外环境的灵巧手交互策略：人类和机器人演示协同训练(人类直接带上动捕手套采集数据)

news 2025/8/6 7:18:36

前言

截止到25年6.6日，在没动我司『七月在线』南京、武汉团队的机器的前提下，长沙这边所需的前几个开发设备都已到齐——机械臂、宇树g1 edu、VR、吊架

长沙团队必须尽快追上南京步伐加速前进
如上篇文章所说的，
为尽快让近期新招的新同事们，尽快具备对应的能力，我给新同事们定了两个目标，即老同事不做太多辅助的情况下，六月份之内
$\rightarrow$ 通过协作机械臂，完成叠衣服的任务，对于该任务，会先尝试π0、dexvla
$\rightarrow$ 通过宇树G1 edu，完成搬箱子的任务
且我们长沙具身团队目前还在持续扩人(之后是上海、武汉再分别扩员)，目前已有来自华科、中南的，有意来我司全职或实习的，欢迎私我
而对于这两个任务，我们远远不只是为了完成个任务而已，而是在叠衣服的过程中，会对比各种模型、方法、策略，毕竟针对各个场景始终寻找更优的解决方案，是我个人和我司的职责之一
因为具身订单需求源源不断，所以长远来看，我们也有源源不断的经费，支撑我们无止境的科研探索
故，最终凡是值得探索的，我们都会考虑，且我们也不想做谁谁谁，或某某中国版，而是——只做世界唯一

综上，一方面因为叠衣服这个任务，二方面，因为无止境的科研探索，故关注到了本文所要介绍的DexWild

第一部分 DexWild：面向真实环境的灵巧人类交互机器人策略

1.1 引言与相关工作

1.1.1 引言

如原论文所说，近年来，收集机器人数据集

一种关键方法是通过遥操作，这种方式能够提供高精度、高质量的动作数据，便于策略直接进行训练 [8,21,54]
然而，获取这些数据需要经过高度训练的人类操作员，并依赖于专门的机器人设备。在多样化环境中收集数据还面临额外挑战，例如需要将机器人实际转移到每一个新环境
整个数据收集过程不仅劳动强度大，而且成本高昂，因此难以扩展到支持在未见环境下灵巧泛化所需的数据量
另一种扩展机器人数据集的方法是利用来自YouTube等平台的互联网级视频数据，这些视频为真实世界环境中的视觉基础提供了丰富且多样的资源 [15,10]。然而，有效利用这些数据也面临重大挑战
首先，公开可用的视频通常缺乏捕捉手部细节状态所需的细粒度精度，因为基于视觉的身体检测模块往往噪声大且不可靠
此外，这些视频本身并没有以任务为单位进行结构化分类——这进一步增加了其在机器人领域直接应用的复杂性。[18,1,40]

虽然已经有一些数据采集工作能够获得更为准确和结构化的数据，[60,2]，但其环境多样性仍然不足
为克服这些障碍，一些研究尝试通过为用户配备可穿戴式夹持器，将用户的手部动作直接映射为机器人的动作，从而在自然环境中收集准确的人类演示数据 [7-umi]
然而，这种方法繁琐，不适用于自然、日常的交互，并且数据的收集不得不限定在某个特定的具身形式下

其他研究 [55-dexcap] 提出了使用灵巧手和手套的方法

但这些方法无法扩展到自然环境中

1.1.2 相关工作

第一，对于模仿学习的泛化能力

机器人操作通用策略的学习取得了快速进展，这主要得益于视觉表征学习和基于大规模数据集的模仿学习的发展。在视觉领域，具身表征学习受益于如Ego4D [15] 和 EPIC-KITCHENS [10] 等第一人称数据集，近期的方法 [27,11,47,39] 利用这些数据集训练可扩展的视觉编码器
然而，这些方法在训练控制策略时，仍然需要大量的下游机器人示范数据。与此同时，仅由机器人演示的数据集在规模和多样性方面显著增长 [21,8,54]，推动了行为克隆的研究，并促进了通用策略架构的发展 [49,8,22]。尽管这些策略在许多任务中展现出令人印象深刻的性能，但它们往往难以泛化到未见过的物体类别、场景布局或环境条件 [25]
这种鲁棒性的不足仍然是当前系统的一个关键限制

第二，对于机器人操作的数据生成

克服机器人数据瓶颈已成为机器人学习领域的核心挑战

一种方法利用互联网视频来提取动作信息。已有多项研究，如 VideoDex [40] 和 HOP [42]，通过重定向大规模人体视频来学习动作先验，并以此推动策略训练
另一些方法，如 LAPA [57]，则利用无标签视频生成可用于下游任务的潜在动作表征。尽管这些基于视频的方法具有丰富的视觉多样性，但通常难以捕捉到实际操作所需的精确、低层次运动指令
仿真能够快速大规模生成动作数据，然而，为众多任务创建多样且逼真的环境，并解决仿真到现实的差距，仍然充满挑战。近年来，将操作策略从仿真迁移到现实的研究已取得一定成功 [43]，但主要局限于桌面场景，缺乏在多样环境中部署所需的泛化能力。直接在实体机器人上进行远程操作虽然能获得最高的保真度，但难以扩展
近期的研究在固定场景下展现了令人印象深刻的灵巧性和高效学习能力[59,56,41,19]，然而，要收集足够多的演示以实现对多样场景的泛化，成本很快就会变得极其高昂。近年来，越来越多的研究利用专门采集的高质量人体具身数据，而无需繁琐的远程操作

第三，对于人体动作追踪系统

为了获取高质量的人体动作数据，手部和手腕的精确追踪至关重要。为避免手部姿态估计的复杂性，一些研究让用户手持机器人夹持器[7,12,46]。这种方法虽然简化了动作重定向，但也限制了用户只能适应机器人夹持器的特定结构，从而减少了所能捕捉行为的多样性
此外，许多此类系统依赖于基于SLAM的手腕追踪，但在特征稀疏的环境或出现遮挡时（如打开抽屉或使用工具时）[7,23]，这种方法可能会失效
其他方法旨在直接从视觉输入中估算手部和手腕的姿态[29,35,5,45,28,20,32]。这些方法易于部署且无需额外设备，但在遮挡——操控过程中不可避免的情况——下，其性能会显著下降
针对手腕追踪的替代策略，如基于IMU的方法[9,50]和外部光学系统[30]，也各有局限：
IMU轻便便携，但易产生漂移；而光学系统精度高，却需要繁琐的校准和受控环境

DexWild利用无需校准的Aruco追踪，大幅提升了可靠性并最小化了设置时间，仅需单目相机即可实现。虽然基于视觉的方法通常尝试同时追踪手腕和手指，许多最新系统则将两者解耦以提升精度
运动学外骨骼手套能够提供高保真度的关节测量，甚至实现触觉反馈[58]，但体积庞大，长期佩戴不舒适

DexWild 与先前的工作 [41,55] 一样，采用了一种轻量级的基于手套的解决方案，利用电磁场（EMF）传感来估算指尖位置

这种方法能够实现对遮挡具有鲁棒性的高精度、实时手部追踪，并且可以方便地适配到各种类型的机器人手上

1.2 DexWild的完整方法论

1.2.1 数据采集系统：可移植、高保真

一个可扩展的数据采集系统，用于灵巧机器人学习，必须能够在多样化环境中实现自然、高效且高保真的数据采集

为此，作者设计了DexWild-System：这是一个便携且用户友好的系统，能够以最少的设置和培训，捕捉人类的灵巧操作行为

以往的野外数据采集方法通常依赖于带有传感器的机械手，但作者的目标是创造一种更为直观的硬件接口，以更贴近人类自然与世界交互的方式。从精细的微操作到有力的抓握，人类在广泛的操作任务中展现出灵巧性

DexWild-System 的设计围绕三个核心目标展开：

便携性：能够在不同环境中快速、大规模地采集数据，无需复杂的校准流程
高保真度：精确捕捉手部与环境之间的细粒度交互，这对于训练高精度的灵巧操作策略至关重要
与具体实现无关：实现从人类演示到各种机器人手的无缝重定向

对于可移植性：为了在多样化的真实环境中采集数据，系统必须具备可移植性、鲁棒性，并且任何人都能使用。作者以这些目标为导向设计了DexWild-System：该系统重量轻，便于携带，几分钟内即可完成搭建，从而支持在多个地点进行大规模数据采集

如下图图2所示，DexWild-System仅由三个组件组成：

用于手腕姿态估计的单一跟踪摄像头
用于机载数据采集的电池供电迷你电脑
以及由动作捕捉手套和同步掌面摄像头组成的定制传感器模块

与传统的动作捕捉系统[60,13,4,52]通常依赖于复杂的外部跟踪设备并需要校准不同，DexWild-System 真正实现了免校准，因此在任何场景下都具有高度适应性，并且对未经训练的操作者也非常友好

这一优势通过采用相对状态-动作表示来实现，其中每个状态和动作都表示为相对于前一时刻姿态的变化。这种方式消除了对全局坐标系的需求，使得跟踪摄像头可以自由放置——无论是以自我为中心还是以外部为中心
此外，手掌摄像头被刚性地固定安装在人体和机器人两种形态上。这保证了视觉观测在不同领域间的对齐，从而在部署时无需进一步校准。外部跟踪摄像头在精心布置后，还能捕捉有助于学习鲁棒策略的补充环境信息

对于高保真，为了学习灵巧的行为，训练数据集中必须捕捉到细致入微、精细化的动作。尽管 DexWild-System仅由少量便携组件组成，作者在数据保真度上绝不妥协

他们宣称，他们的系统专为精确捕捉手部与腕部动作而设计，并配合高质量的视觉观测数据

对于手腕和手部跟踪，纯视觉方法易于部署。然而，这些方法在便携性上有所提升的同时，往往牺牲了精度和鲁棒性，导致姿态估计结果较为噪声，从而影响策略学习的效果[41,14,32,7]
故在手部姿态估计方面，作者采用动作捕捉手套，其具有高精度、低延迟以及对遮挡的强鲁棒性 [41]
对于手腕跟踪，作者在手套上安装了 ArUco 标记，并通过外部摄像头进行跟踪

该方法避免了基于 SLAM 的手腕跟踪易受损坏的问题，因为 SLAM 在特征稀疏的环境或遮挡严重的任务（如抽屉开启）中常常失效
且与许多依赖于第一人称或远距离外部摄像头的数据集不同，作者将两台全局快门摄像头直接安装在手掌上

如图2所示

这组立体摄像头能够以极小的运动模糊和宽广的视野，捕捉到细致且局部化的交互画面。如此宽广的视野使得策略仅需依赖手掌上的摄像头即可运行，无需依赖任何静态视角

对于与具体体态无关的特点，具体而言，为了确保DexWild数据的持久性和多样性，作者的目标是使其在不同机器人实体中依然具有实用价值——即便硬件平台不断演进

要实现这一目标，必须对人类与机器人之间的观测空间和动作空间进行精确对齐

作者首先对观测空间进行标准化。尽管系统掌上摄像头使得具有广阔的视野，但作者有意将其定位为主要聚焦于环境，从而最大程度地减少手部本身的可见性

重要的是，相机在人体手和机器人手之间的位置是对称设置的。如图3所示
这一设计在不同实体之间产生了视觉上一致的观测结果，使策略能够学习可在人体和机器人领域泛化的共享视觉表征

且为了实现动作空间对齐，作者借鉴了先前工作的见解[17,44]，通过优化机器人手部运动学，使其指尖位置与人类演示中观察到的位置相匹配
他们指出，这种方法具有通用性，适用于任何机器人手的实现形式。该方法对所有用户采用固定的超参数，并且对手部尺寸的变化具有较强的鲁棒性，无需针对特定用户进行调整。使用自然人手进行数据采集不仅仅具有易用性的优势
由于不同人类演示者的手部形态各异，这种多样性带来了有益的变化，作者推测这有助于策略学习到更具泛化能力的抓取方法——这一点尤为重要，因为人类与机器人手部运动学之间本质上存在差异
总之，DexWild 是一款便携式、高质量、以人为中心的系统，任何操作员都可以佩戴它，在真实环境中收集人体数据

1.2.2 训练数据模态与预处理

灵巧操作中的泛化既需要规模，也需要具身基础。为此，DexWild 收集了两类互补的数据集：

一个大规模的人类示范数据集 $D_{H}$ ，通过DexWild-System 采集
以及一个较小的遥操作机器人数据集 $D_{R}$

人类数据在现实环境中易于采集且任务多样性广，但缺乏具身对齐。机器人数据虽然规模有限，却为机器人的动作和观测空间提供了关键的具身基础

为了结合两者的优势，作者在一个批次内以固定比例联合训练策略 $\left(w_{h}, w_{r}\right)$ ，在多样性与具身基础之间取得平衡，从而在部署时实现稳健的泛化能力

在每次训练迭代中，作者根据协同训练权重分别从 $D_{H}$ 和 $D_{R}$ 中采样一批包含转移 $x_{h}$ 和 $x_{r}$ 的数据。每个在时间步 $i$ 的转移 $x_{i}$ 包含

观测 $o_{i}$ ：在给定时间步的观测由两张同步的手掌相机图像 $I_{\text {pinky }}$ 和 $I_{\text {thumb }}$ 组成，这两张图像在当前时间步采集

并且还包括一个历史状态序列，该序列以给定步长在时间范围 $H$ 内采样，由 $\left\{\Delta p_{i}, \Delta p_{i-\text { step }}, \ldots, \Delta p_{i-H}\right\}$ 组成，每个 $\Delta p$ 包含相对的历史末端执行器位置
动作 $a_{i: i+n-1}$ ：大小为 $n$ 的动作片段，包括动作 $\left\{a_{i}, a_{i+1}, \ldots, a_{i+n-1}\right\}$ ，其中 $a_{i}$ 是当前时间步的动作
具体来说， $a_{i}$ 是一个26 维向量，由以下部分组成：
- $a_{\text {arm }}$ ：一个9 维向量，描述相对末端执行器的位置（3D）和姿态（6D）
- $a_{\text {hand }}$ ：一个17 维向量，描述机器人手指关节的位置目标

对于双手任务，观测空间和动作空间均被复制，并且在观测中附加了双手之间的姿态信息，以促进协作

虽然他们的重定向过程将人类和机器人轨迹映射到统一的动作空间，但为了使人类和机器人数据集能够共同训练，还需要进行以下几个额外步骤：

动作归一化：针对人类和机器人数据的动作分别进行归一化处理，以弥补其固有的分布不匹配问题
演示过滤：由于人类演示数据由未经训练的操作者在非受控环境中采集，作者采用基于启发式的过滤流程，自动检测并移除低质量或无效的轨迹。该过滤步骤在无需人工标注的情况下，显著提升了数据集的质量

1.2.3 策略训练

通过对硬件、观测和动作接口的精心设计，能够利用简单的行为克隆（BC）目标 [31,37,36] 来训练灵巧机器人的策略

为了有效地从多模态、多样化数据中学习，他们的训练流程利用了大规模预训练的视觉编码器，并在不同的策略架构下展现出强大的性能

视觉编码器：在 DexWild 数据上的训练使得对应的策略面临场景、物体和光照等方面的显著视觉多样性，因此需要一个能够很好泛化到这种多变性的编码器
为此，作者采用了预训练的 VisionTransformer（ViT）主干网络，该网络在野外操作任务中相较于基于 ResNet 的编码器表现出更优异的性能[16,23]
总之，预训练的 ViT，尤其是在大规模互联网数据集上训练的模型，在提取丰富且可迁移的特征方面尤为有效 [27,33,47,11]，因此非常适合本文的应用场景
策略类别：尽管近期已经提出了多种模仿学习架构[59,6]，作者采用了一种基于扩散模型的策略。扩散模型特别适用于灵巧操作任务，因为它们能够捕捉多模态动作分布，相较于高斯混合模型（GMMs）或transformer等替代方法，其表现更为出色
这一能力在DexWild中变得尤为重要，因为演示数据来自多位人类，策略多样，导致行为本质上呈现多模态。随着数据集规模的扩大，建模这种变异性对于实现鲁棒的策略学习至关重要
DexWild采用扩散U-Net模型[6]来生成动作片段

具体而言，训练过程如算法1所示