当前位置：首页 > news >正文

VLA 论文精读（二十四）ALOHA Unleashed: A Simple Recipe for Robot Dexterity

news 2025/7/1 6:17:30

这篇论文是 Google DeepMind 在 2024 年 10 月发表的论文，基于 Aloha2 机器人硬件实现了系鞋带、悬挂衣服等工作。因为近期工作原因需要对这部分进行研究，所以有了此篇 Paper Reading 的创作。这篇论文其实得到了几个非常重要的结论：

没有预训练的 LLM 也可以展现出一定的泛化能力；
灵巧操作策略可以通过简单模型实现，但仅限于单一任务中；
挂衬衫简单版任务上使用少量数据集（25%）训练的模型和使用全部数据集（100%）训练的模型表现出一样的性能；
在数据质量和数量之间找到平衡至关重要，次优数据有助于模型学习恢复行为；
仿真条件下 ACT 表现优于扩散策略；但真实条件下，扩散策略的表现优于 ACT；
尽管机械臂执行精读低，但作者的模型却可以在齿轮任务中达到毫米级精度；

写在最前面

为了方便你的阅读，以下几点的注意事项请务必了解：

该系列文章每个字都是我理解后自行翻译并写上去的，可能会存在笔误与理解错误，如果发现了希望读者能够在评论区指正，我会在第一时间修正错误。
阅读这个系列需要你有基本的 VLA 相关基础知识，有时候我会直接使用英文名词，因为这些词汇实在不容易找到符合语境的翻译。
原文可能因为版面限制存在图像表格与段落不同步的问题，为了更方便阅读，我会在博文中重新对图像表格进行排版，并做到引用图表的文字下方就能看到被引用的图表。因此可能会出现一张图片在博客中多处位置重复出现的情况。
对于原文中的图像，我会在必要时对图像描述进行翻译并附上我自己的理解，但如果图像描述不值得翻译我也不会强行写上去。

Basic Information

论文标题：ALOHA Unleashed: A Simple Recipe for Robot Dexterity
原文链接: https://arxiv.org/abs/2410.13126
发表时间：2024年10月17日
发表平台：arxiv
预印版本号：[v1] Thu, 17 Oct 2024 01:29:49 UTC (6,847 KB)
作者团队：Tony Z. Zhao, Jonathan Tompson, Danny Driess, Pete Florence, Kamyar Ghasemipour, Chelsea Finn, Ayzaan Wahid
院校机构：
- Google DeepMind
项目链接: https://aloha-unleashed.github.io/
GitHub仓库: 【暂无】

Abstract

最近的研究成果表明，使用模仿学习进行端到端机器人策略学习取得了良好的效果。在本研究中探讨了在具有挑战性的灵巧操作任务中，模仿学习能够发挥多大作用。证明了在 ALOHA 2 平台上，一个简单的大规模数据收集方法，结合扩散策略等富有表现力的模型，可以有效地学习涉及可变形物体和复杂接触动态的具有挑战性的双手操作任务。在 5 个具有挑战性的真实世界任务和 3 个仿真任务中演示了模型，并展示了优于当前SOTA的性能。项目网站和视频可在 aloha 上找到。

在这里插入图片描述

1. Introduction

传统上，诸如系鞋带或将T恤挂在衣架上之类的灵巧操作任务被认为很难用机器人实现。从建模的角度来看这些任务具有挑战性，因为它们涉及具有复杂接触动力学的（可变形）物体，需要许多操作步骤才能完成任务，并且涉及高维机器人操作器的协调，尤其是在双臂机器人中，并且通常对精度要求很高。近年来，模仿学习已成为一种获取可解决各种任务的策略的秘诀。然而，这些成功案例大多主要涉及非灵巧任务，例如拾取和放置或推动。因此，仅仅扩大模仿学习的模型规模是否足以实现灵巧操作尚不清楚，因为收集一个涵盖系统状态变化且满足此类任务所需精度的数据集似乎过于困难。

本文证明了通过选择合适的 学习架构 并结合合适的 数据收集策略，能够利用模仿学习突破灵巧操作的前沿。在 ALOHA 2 平台上展示了能够获得解决高度灵巧、长视界、双手操作任务的策略，这些任务涉及可变形物体，并且需要高精度。为了完成上述工作，作者开发了一种协议，用于收集此前双手操作平台无法比拟的数据，在真实机器人上对 5 个任务进行了超过 26,000 次演示，在 3 个仿真任务上进行了超过 2,000 次演示。

然而，作者发现 仅有数据是不够的。模型的另一个关键要素是基于 Transformer 的学习架构，该架构使用扩散损失进行训练。该架构以多视角为条件对动作轨迹进行去噪，并在滚动视界设置下以开环方式执行。结果表明，尽管之前已针对 ALOHA 平台进行了调整，但基于非扩散的架构仍无法解决某些任务。

实验评估涉及5个真实世界任务，例如系鞋带和将衣服挂在衣架上，以及3个仿真任务。研究了策略的数据复杂度和分布外鲁棒性。作者是第一个演示了端到端策略能够完成系鞋带和悬挂衣服的功能。

2. Related Work

Imitation learning

模仿学习使机器人能够从专家的演示中学习。早期的研究从运动原语的角度来解决这个问题。

随着深度学习和生成式模型的发展，不同的架构和训练目标被提出来对演示进行端到端建模。这包括使用卷积神经网络 (ConvNets) 或虚拟训练网络 (ViT) 进行图像处理，使用循环神经网络 (RNN) 或 Transformer 融合历史观测值，对动作空间进行 token，以及诸如基于能量的模型、扩散和变分自编码器 (VAE) 等生成式模型技术。在本研究中，力求算法的简单性，并基于现有的模仿学习算法。具体而言训练了一种基于 Transformer 的策略，该策略带有扩散损失，其灵感来自扩散策略和 ACT。与以往的研究不同，这里用了来自非人员采集的大量数据进行训练，使用 ALOHA 2 算法执行精确且多模态的任务。

Bimanual manipulation

双手操作在机器人技术领域有着悠久的历史。早期的研究从优化的角度研究双手操作并利用已知的环境动力学。然而，获取此类环境动力学模型可能非常耗时，尤其是在捕捉大量接触或可变形物体的情况下。近年来，learning 方法已被融入到双手系统中，包括强化学习、模仿学习，以及学习调节低级运动原语的关键点。先前的学者也研究了高度灵巧的双手操作任务，例如解结、抚平布料，甚至穿针引线。然而，他们所使用的机器人不太容易获得，例如 Intuitive 的手术机器人。本文中作者使用了一系列低成本的 ALOHA 2 系统来研究如何通过扩大数据收集规模本身就能够显著提高机器人的灵活性，而无需超精确的运动学和复杂的传感技术。

Scale up robot learning in the real world

许多研究尝试利用现实世界数据收集来扩展机器人学习。远程遥操作是一种收集高质量数据的方法，由人在回路中控制机器人。先前的研究已经使用VR控制器或触觉设备在单臂机器人上收集了大量数据集，证明了其对新场景和物体的泛化能力；同时，机器人也可以通过编程或强化学习(RL)算法自主收集数据，从而减少对人工监督的需求；采集专家数据的另一种方法是使用可穿戴或手持设备，例如夹爪、外骨骼或追踪手套。这使得在不需要完整机器人的情况下扩展数据收集成为可能。目前，人们也在努力整合所有上述数据集，以训练一个能够控制多个机器人的单一模型。在这项研究中，作者们专注于 提升机器人学习的灵活性，以及 对可变形和铰接物体的鲁棒处理。作者训练了第一个能够自主系鞋带和悬挂T恤的端到端策略。

3. Method

作者推出了 ALOHA Unleashed，一个用于训练机器人灵巧策略的通用模仿学习系统，并在 ALOHA 2 上展示了结果，该系统由一个双手并联爪式夹持器工作单元和两个 6 自由度机械臂组成。ALOHA Unleashed 包含一个可扩展的远程操作框架，允许用户收集数据来教导机器人，并结合了一个基于 Transformer 的神经网络，该网络采用 扩散策略进行训练，为模仿学习提供了一个富有表现力的策略公式。通过这个简单的方案，在 5 个具有挑战性的现实世界任务中展示了自主策略：悬挂衬衫、系鞋带、更换机器人手指、插入齿轮、堆叠随机摆放的厨房用品。还展示了 3 个仿真双手任务的结果：插入单钉、插入双钉、将杯子放在盘子上。

在这里插入图片描述

3.1 Policy

Diffusion Policy

作者使用的数据集本身就具有多样性，数据来自多个操作员，包含各种远程操作策略，并且是在多个机器人本体上长期采集的。这需要一个富有表现力的策略公式来拟合数据。作者 为每个任务训练一个单独的扩散策略。扩散策略提供稳定的训练，并通过多模态输入（来自不同视角的 4 张图像 和 本体感受状态）和 14 个自由度 的动作空间来表达多模态动作分布。使用去噪扩散隐式模型 (DDIM) 公式，该公式允许在测试时灵活地使用可变数量的推理步骤。执行动作分块使策略能够预测 50 个动作的块，这些块代表 1 秒内的轨迹。该策略输出 12 个绝对关节位置，每个 6 自由度 ViperX 机械臂输出 6 个，并为两个夹持器分别输出一个连续的夹持器位置值。由于使用长度为 50 的动作块，因此该策略输出一个形状为 (50, 14) 的张量。在训练期间使用了 50 个扩散 steps，并采用了平方余弦噪声的学习率调整规划 squared cosine noise schedule。

Transformer-based architecture

对于基础模型，扩展了一个类似于 Transformer 编解码器架构的架构。使用基于 ResNet50 的视觉主干网络，并以 Transformer 编解码器作为神经网络策略。4 张 RGB 图像分别被调整为 480x640x3 的尺寸，并输入到单独的 ResNet50 主干网络中；每个 ResNet50 都由 ImageNet 预训练的分类模型初始化，取 ResNets 的 第 4 阶段输出，该输出为每个图像提供 15 x 20 x 512 的尺寸特征图，将该特征图平铺最终得到 1200 个 512 维的embeddings；然后附加了另一个嵌入，它是机器人本体感受状态的projection，包含 每个手臂的关节位置 和 夹持器值，总共 1201 个潜在特征维度。将位置嵌入添加到嵌入中，并将其输入到一个 85M 参数的 Transformer 编码器中，以双向注意力机制对嵌入进行编码，从而生成观测值的潜在嵌入。这些潜在特征被传递到一个具有双向注意力机制 55M 参数的 Transformer扩散降噪器。解码器 Transformer 的输入是一个 50 x 14 的张量，对应于一个带有已学习位置嵌入的带噪动作块。这些嵌入与来自观测编码器的潜在嵌入以及扩散时间步长（表示为一个独热向量）进行交叉关注。 Transformer 解码器的输出尺寸为 50 x 512，通过线性层将其投影到 50 x 14 ，对应于块中接下来 50 个动作的预测噪声。Base 模型总共包含 217M 个可学习参数。为了进行消融实验还训练了模型的 Small 变体，该变体使用一个 17M 参数的 Transformer 编码器和一个 37M 参数的 Transformer 解码器，网络总大小为 150M 参数。

Training details

使用 JAX 和 64 块 TPUv5e 芯片（配备数据并行网格）训练模型。batch_size 设置为 256，训练步数为 2M（约 265 小时）。使用 Adam 优化器，权重衰减系数为 0.001，线性学习率预热 5000 步，然后以 1e-4 的恒定学习率进行训练。

Test time inference

在测试时，首先从高斯分布中采样一个带噪动作块。收集来自 4 个 RGB 摄像头当前的观测值以及机器人的本体感受状态，并将它们传入观测编码器；然后运行 50 次扩散去噪循环，输出一个去噪后的动作块。作者发现不需要 temporal ensembling ，只需在块开环中执行这 50 个动作即可。在 RTX 4090 GPU 上，完整的前向传播和迭代去噪过程仅需 0.043 秒。由于运行的是动作块开环，因此能够超越 50Hz 的目标频率。

3.2 Data Collection

ALOHA 允许通过操作界面进行双手遥控操作，在该界面中遥操作员反向驱动两个较小的引导臂，其关节与两个较大的从动臂同步。收集了以下 5 项任务的数据：

在这里插入图片描述

Shirt hanging (Shirt)

这项任务需要将衬衫挂在衣架上。一共 6 个步骤具体为：1. 展平衬衫、2. 从衣架上取下衣架、3. 进行交接、4. 拿起衬衫、5. 将衣架的两端精确地插入衬衫领口、6. 将衬衫挂回衣架上。这是一项具有挑战性的任务需要多个步骤，包括可变形的操作、插入以及灵巧的拾取和放置行为，例如将衣架挂在衣架上和从衣架上取下。作者设计了该任务的两个变体：ShirtEasy 的初始化过程更加受限，衬衫被展平并置于桌面中央。ShirtMessy 允许衬衫的初始化过程进行旋转和揉皱，并且起始位置的变化范围显著增大。

Shoelace tying (Lace)

这项任务需要 1. 将鞋子放在桌面中央、2. 拉直鞋带、** 3. 将鞋带打结**。作者设计了两种不同的任务：LaceEasy 的初始化过程受约束，鞋子放在桌面中央，鞋带向外伸展。LaceMessy 允许鞋子的角度在 ±45 度范围内变化，并且不需要拉直鞋带。

Robot finger replacement (FingerReplace)

这项任务需要 1. 从开槽机构中取出机器人手指、2. 挑选替换手指、3. 重新调整手指方向、4. 以毫米级公差精确插入槽中。

Gear insertion (GearInsert)

这项任务需要 将3个塑料齿轮以毫米级精度插入套筒，并采用摩擦配合同时确保齿轮完全就位，并且齿轮上的齿与相邻的齿轮啮合。

Random kitchen stack (RandomKitchen)

这项任务需要 清理一张随机初始化的桌子，将碗、杯子和餐具堆放在桌子中央。

为了扩展这些任务的数据收集，作者创建了一个协议，允许非专家用户提供高质量的远程操作演示。协议文档（参见附录 B.1）概述了如何使用机器人以及执行任务的具体说明。这使得 35 名操作员能够在无需研究人员监督的情况下持续收集数据。使用此协议的 8 个月时间里，在 2 栋不同的建筑物中使用 10 个不同的机器人，针对 5 个真实任务收集了超过 26,000 个场景。在多个机器人工作单元上进行长期数据采集面临诸多挑战。1. 由于组装错误或一般差异，机器人的硬件组装（例如机器人或摄像头的安装位置）可能存在差异；2. 硬件更换或机器人的一般磨损可能会改变机器人的动态和行为；3. 建筑物之间的变化和机器人位置的差异会导致 RGB 图像中背景和光照的多样性；4. 从 35 位不同的操作员收集数据会导致行为存在很大差异，即使每项任务都有详细的协议文档。

在这里插入图片描述

4. Results

4.1 Task Performance

为了获得核心模型的效果，分别在 5 个数据集（Shirt、Lace、FingerReplace、GearInsert 和 RandomKitchen）进行独立训练模型，对每个任务进行了 20 次试测试。每个回合在成功或超时（ShirtMessy 为 120 秒，其他任务为 80 秒）时终止。对于 GearInsert 任务进行了更详细的任务进度细分，其中 GearInsert-1 表示成功插入至少一个齿轮，GearInsert-2 表示成功插入 0 个齿轮，GearInsert-3 表示成功插入所有 3 个齿轮。对于 KitchenStack 也基于任务进度进行了细分。对于 GearInsert 和 KitchenStack，发现性能会随着每个额外阶段而下降，这通常是由于插入较小的齿轮或拾取叉子等细小物体需要更细粒度的行为。对于所有其他任务，只有当策略执行了所有必需步骤（不包括部分成功）时，才会将其标记为成功。

4.2 Learned Dexterous Behaviors

本节重点介绍策略能够从数据中学习的灵巧行为。

在这里插入图片描述

在为这些任务收集数据时，操作员会执行许多 bimanual behavior primitives 双手行为原语，例如切换以进行重新定向、使用腕部摄像头进行视图增强。例如，FingerReplace 需要在将手指从桌子上拿起后重新定向，调整手指插入的方向。作者发现该策略从机器人手指的多个起始位置学习了许多连贯的重定向行为，虽然重定向相当稳健，但数据集中如果没有很好表现出起始位置（例如手指翻转）时会出现失败，这表明 可能需要明确采集更多不同的重新定向示例。在 FingerReplace 中，该策略还学习了数据中存在的一种双手视图增强策略，操作员使用之前未用过臂的腕部摄像头为策略提供增强的 RGB 输入，以便更好地执行精确的插入，而这在其他视图中不太明显。

在所有任务中都观察到了许多 recovery behaviors and retries 恢复行为和重试 的实例。例如，在衬衫任务中，看到衬衫从衣架上掉下来的实例，策略会恢复衬衫并将其重新挂回衣架；此外还看到了插入过程中的重试行为实例，例如在 GearInsert 和 FingerReplace 中，策略会重新定向并从失败的插入中恢复。

这些策略执行 relative gripper control 相对抓取器控制，以完成所有任务中涉及的精确拾取行为。在 RandomKitchen 中尤为明显，该任务需要从各种初始状态下从桌子上拾取细长物体。ALOHA 2 机器未经校准且摄像头的安装位置可能存在差异。作者猜测，尽管该策略接收 RGB 和完整的本体感受状态，但策略可能学习到了根据视觉反馈执行反应式相对抓取器控制，以便在所有机器人之间推广。

在几个长视界任务中观察到了 mode switching模式切换 行为。例如，在 ShirtMessy 中，策略从在桌上展平衬衫转变为开始伸手去拿衣架。类似地，在 LaceMessy 中，策略从拉直鞋子转变为情节中的打结阶段。

GearInsert 和 FingerReplace 都需要毫米级精度的 precision insertions精密插入。GearInsert 尤其需要紧密的摩擦配合，才能正确对准并将齿轮完全插入轴中。令人惊讶的是，尽管机械臂运动精度较低且缺乏力矩反馈，策略却能够仅凭视觉反馈完成这些任务。

4.3 Ablations

作者进行了几个实验来确定演示的数量和质量的重要性。

Data quantity

为了探讨任务性能如何随演示次数而变化，对于衬衫任务分别使用 100%、75%、50% 和 25% 的数据训练策略。发现在一定程度上， ShirtEasy 任务中使用较少数据训练的策略的性能与使用所有数据训练的策略的性能相似；然而，在 ShirtMessy 任务中，使用较少数据训练的策略的性能明显更差。作者猜想，ShirtMessy 需要更多演示才能学习重新整理和展平衬衫所需的动态行为。

Data filtering

操作员收集的 较短片段在轨迹过程中的错误率往往较低。因此，根据 ShirtEasy 的片段时长进行数据过滤。对于此任务，首先随机抽取总数据集的 25%，最终得到 2164 片段。在这种低数据量的情况下，根据以下分组训练模型：1) 所有片段；2) 最短的 75% 片段（短于 43 秒）；3) 最短的 50% 片段（短于 29 秒）；4) 最短的25% 片段（短于 20 秒）。发现，在 ShirtEasy 上，经过一定量的数据过滤后性能有所提升，从所有片段上训练时的 30% 成功率提升到在最短的 50% 片段上训练时的 55% 成功率；然而，当使用最短的 25% 的集数（仅 541 集，尽管通常没有错误演示）时，性能会下降到 40%。作者推测，在数据数量和质量之间找到一个平衡至关重要。虽然干净、高质量的演示对于建模最佳行为至关重要，但一定数量的次优数据也可能是必要的，因为这些数据包含有助于策略的恢复和重试行为。

在这里插入图片描述

Diffusion vs. L1 Regression Loss.

基于 Transformer 架构，将扩散损失与 L1 回归损失进行比较，使系统更接近 ACT。对比了 ShirtEasy、ShirtMessy 和仿真环境中的性能。尽管已经拥有一个经过精心调优的动作分块 + L1 回归实现，并且模型参数为 1.5 亿，但观察到 ShirtMessy 的成功率为 25%，而类似规模的扩散策略的成功率为 70%。

Simulation experiments

使用 ALOHA 2 中的 MuJoCo Menagerie 模型，在 3 个仿真双手任务上比较了扩散和 L1 回归损失。按照论文《An enhanced low-cost hardware for bimanual teleoperation, 2024》中的描述远程操作仿真环境，采集每个任务的真人演示，并在数据集上训练扩散策略和 ACT L1 回归损失基线。仿真结果报告了 50 次 rollout 的效果。对于扩散策略 (XS-LowRes) 模型，使用 3 个种子点进行 rollout。每个 episode 的对象位置初始化不同。观察到除了 DoubleInsertion 之外，扩散策略在所有任务上的表现都优于 ACT（XS-LowRes 版）。任务描述请参见Fig.5，更多分析请参见附录 A。

在这里插入图片描述

4.4 Generalization

虽然核心模型仅针对每个任务进行训练，但确实观察到 模型展现出一些令人鼓舞的泛化迹象。在衬衫任务中，模型在未见过的衬衫上成功部署，这些衬衫与训练数据中看到的衬衫样式截然不同。训练集中看到的衬衫仅为儿童尺码，短袖，颜色为红色、白色、蓝色、海军蓝和淡蓝色，而未见过的衬衫是灰色成人男士尺码，长袖。同时还观察到衬衫模型在完全不同的建筑物（以白色墙壁为背景的家庭环境，而不是训练集中看到的工业实验室背景）中未见过的机器人上成功部署。

通过测量 ShirtMessy 任务模型的泛化能力来突破模型的极限，该任务的训练集中有3113个演示。然而，由于可变形衬衫的摆放位置可能多种多样，因此该任务的状态空间仍然很大。观察到该模型可以处理衬衫在桌面上倾斜±60度、起皱和正面朝上的初始化情况，并且能够学习到在这种摆放位置下展平衬衫并使其居中的良好行为；但该模型通常无法从衬衫180度或正面朝下摆放的桌面状态中恢复，因为训练集中没有此类情况。同样，在 Lace 任务中，模型能够学习“拉直”行为，但无法从训练分布之外的状态中恢复（例如，鞋子翻倒、翻转或鞋带缠绕）。

在 RandomKitchen 上，观察到一定程度的初始状态泛化，因为对象可以在机器人任务空间内的任何位置初始化。此外，在一个拥有 216 个演示的机器人上评估了该模型，其余 2,983 个演示则收集在另一栋建筑中，该建筑配备了 ALOHA 的硬件迭代，机器人的安装位置也有所不同。

5. Conclusion

作者推出了 ALOHA Unleashed，一个学习灵巧机器人行为的简单方法。在 ALOHA 2 平台上收集了超过 26,000 个演示，并基于这些数据训练了基于 Transformer 的扩散策略，并在真实和仿真环境中演示了灵巧的行为。

ALOHA Unleashed 表明，一个简单的方案就能突破机器人学习中双手灵巧行为的界限。然而这种方法在几个方面存在局限性：策略每次仅针对一项任务进行训练，而其他方法则使用一组以语言或目标图像为条件的模型权重来执行多项任务；该策略每 1 秒重新规划一次，这对于反应灵敏的任务来说可能不够快。ALOHA Unleashed 还会在每个任务中使用大量的人类演示，收集这些演示非常耗时。

作者希望扩展 ALOHA Unleashed，使用能够执行多项任务的单一模型来扩展任务数量，并进行建模改进以执行更具反应性的任务，同时继续提高数据复杂度，以减少学习灵巧行为所需的数据量。

Appendix.A - Additional Simulation Experiments

Sim Experiment Protocol

对于 Table.3 的结果，对训练期间每 10 万步设置的检查点进行了 50 次评估。报告所有检查点的最高评估分数。为了与实际结果匹配，Diffusion Policy Small (DP (S)) 变体运行了 200 万个训练步，而 XS-LowRes 变体运行了 100 万个训练步。

在这里插入图片描述

Sim Analysis

作者发现，ACT 在某些条件下的表现优于扩散策略；然而对于大多数任务，尤其是真实的 Shirt 任务，扩散策略的表现优于 ACT。定性分析显示，网络规模较小的 ACT 更易于调优，并且在低数据量环境下通常表现更佳。这与 XS-LowRes 变体在 DoubleIn 插入上取得更高分数一致。通常在启动新任务时，从多个算子收集到更大、更多模态的数据集后，先运行 ACT 来获取性能指标，然后再转向扩散策略会很有帮助。

Evaluation Curves

作者对仿真环境的运行进行了完整评估。由于资源限制，仿真实验只使用了该模型的超小低分辨率 (XS-LowRes) 变体，该变体为每个摄像头使用一个视觉编码器，图像大小调整为 256x256。

在这里插入图片描述

Chunk Size

运行了一个块大小为 10 的模型来模拟单次插入任务。单个种子的最佳性能为 66，高于块大小为 50 的等效模型在 3 个种子上的平均得分 58 ± 3（参见Table.3 中的 DP (XS-LowRes)）。根据经验，不同的任务调整块大小可能会带来更好的结果；然而，Chunk Size 高度依赖于任务，并且还需要调整其他超参数。在实际实验中，将实验调整为块大小为 50，因为这在所有任务上都表现出良好的定性性能。

Diffusion Steps

为了衡量某些扩散采样选择的效果，使用 DDIM 采样器在推理时分别运行了 50、25 和 2 个扩散步骤的模型。Fig.7 中的评估曲线表明，减少扩散步骤的数量对此模拟任务几乎没有影响。在实际任务中，采用完整的 50 个步骤运行，不会对推理时间产生显著影响。鉴于评估分数相似，在计算能力较为受限的环境中，在测试时使用较少的扩散步骤可能是理想的策略。

在这里插入图片描述

Appendix.B - Dataset Details

B.1 Protocol Documents

作者向操作员提供收集这 5 项任务的方案说明。操作员将收到这些说明，并被指示收集一些（5-10）个测试片段，供研究人员审核质量。对于 ShirtMessy 和 Lace 等少数任务为操作员提供简短的现场指导，教授和修改执行任务的最佳策略。在初始测试片段之后，操作员将收集剩余的数据。

Task	Protocol Document
Shirt	https://aloha-unleashed.github.io/assets/shirt_protocol.pdf
FingerReplace	https://aloha-unleashed.github.io/assets/finger_protocol.pdf
Lace	https://aloha-unleashed.github.io/assets/gear_protocol.pdf
GearInsert	https://aloha-unleashed.github.io/assets/gear_protocol.pdf
RandomKitchen	https://aloha-unleashed.github.io/assets/kitchen_protocol.pdf