当前位置：首页 > news >正文

LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作：CLIP编码图像与语义，之后DiT去噪扩散生成动作

news 2025/8/30 11:25:43

前言

如上一篇文章《HITTER——让双足人形打乒乓球(且可根据球的走向移动脚步)：高层模型规划器做轨迹预测和击球规划，低层RL控制器完成击球》的开头所说

今年以来，让人形机器人跳舞、跑步、拳击的视频层出不穷(这类工作基本会在模仿人类动作的前提下用RL反复训练)，但

一方面，大家基本已经审美疲劳了，所以很多人觉得不如让人形机器人好好干活——让机器人干好活也是我司的第一重点
如此，关注到了LBM(Large Behavior Models)，很快会解读
二方面，真正让人形机器人与高度动态环境自主互动的工作并不多

加之从Atlas发布的一系列视频发现，该LBM模型助力波士顿动力人形Atlas完成了一系列高难度且复杂的任务，如此，我对其印象深刻，故本文来解读之

顺带，今天一天的时间，深入细致的解读了两篇论文，本文是第二篇
过去一个多月，大量研究具身论文，为即将到来的第二轮突飞猛进做全力准备(如之前的博客中所说，长沙分部第一轮的突飞猛进是6.4日-7.19日)

第一部分

1.1 引言、相关工作

1.1.1 引言

如原LBM论文所说，基于行为克隆的方法[1]–[3]，能够通过数百到数千次示范，生成复杂、具备反应性且富有接触特征的行为，尤其适用于应对传统上具有挑战性的任务属性，如物体可变形性、透明性、反光性以及双手操作等

尽管具有这些优势，单任务行为克隆策略依然脆弱，对任务变体或超出其训练分布的环境表现出有限的泛化能力

为了解决这种脆弱性，该领域正日益采用大型行为模型(LBMs，即Large Behavior Models)[2]，[4]–[9]——这些是基于包含动作级演示的大规模多任务数据集训练的视觉运动基础模型
受计算机视觉领域[10]–[13]和自然语言处理领域[14]，[15]大规模通用模型成功的启发，这些模型试图通过更广泛的训练数据支持以及更稳健的视觉和感知表征学习来提升可靠性

尽管LBM的研究与开发迅速增长，但关于其观察到的成功在多任务预训练中的主要贡献程度，仍存在重大不确定性

对此，来自丰田的TRI LBM团队通过精心设计的评估流程，结合仿真和真实世界实验，展示了经过微调的LBMs在应对分布转移时表现得更加稳健，并且相比单任务基线方法取得了更优的性能

其paper为：A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation
其项目网站为：toyotaresearchinstitute.github.io/lbm1

此外，在对新任务进行微调时，LBMs仅需少量数据即可达到与基线方法相同的性能水平

1.1.2 相关工作

首先，对于大规模机器人学习

机器人学习正经历范式转变，朝着构建通用操控策略的方向发展[2]，[4]–[9]，这一趋势受到自然语言处理[14]，[15]和计算机视觉[10]–[13]领域成功应用的规模化假设的启发。这一转变主要由大规模、多样化数据集的创建[16]–[18]以及高容量模型，尤其是基于Transformer的视觉-语言-动作（VLA）模型[4]，[19]–[25]所推动

VLA模型已成为核心，能够在统一框架下整合感知、语言与动作，并主要通过模仿学习进行训练

VLA性能提升的关键因素在于将大型预训练基础模型[26]的知识迁移到机器人领域，这带来了语义理解、推理能力提升以及更强的视觉表征能力，在对机器人数据集进行微调后，可以实现如零样本任务执行等能力
至于动作表示的选择——无论是离散化为token[27]–[29]、直接回归为连续指令[2]，还是通过扩散模型生成[4]，[5]——都会影响策略产生精确、多模态且实时行为的能力

尽管通用策略的训练取得了进展，但灾难性遗忘、数据异质性、高质量数据稀缺、多模态融合、灵巧操作处理以及实时推理速度的保持等问题，仍然是有待解决的研究难题

本文工作聚焦于严格评估多任务预训练的效果(而非如架构新颖性等其他因素)，并在全文中研究固定的策略架构

其次，对于机器人学习的数据集

训练通用型机器人策略需要大规模且多样化的数据集，然而获取这些数据却并不容易，与大规模语言和视觉数据集 [11]、[15]、[30]–[35] 通常来源于互联网不同，现实世界中收集机器人数据本质上既缓慢又昂贵

机器人数据最常见的收集方式是远程操作，即由人类操作员远程控制机器人，从而获得高保真、具体现身特征的数据。诸如 RT-1 [28]、Bridge [36]、RH20T [37]、DROID [16] 和AgiBot [38] 等大型数据集，通常采用这种方法收集，往往需要数月甚至数年，并涉及多台机器人。像 Open X-Embodiment [17] 这样的汇总型数据集，将来自多个实验室的远程操作及其他类型的机器人数据进行聚合(包括超过一百万条轨迹和 22 种体现)，以期训练能够实现跨机器人体现迁移的策略
仿真 [39]–[41] 则为大规模、低成本生成机器人操作数据提供了一种有前景的替代方案 [42]–[45]；
然而，仿真器与现实世界之间的差异也带来了挑战
克服这些差异的一种方法是同时在两个领域的数据上进行训练（即“协同训练”）[46]、[47]。本研究采用仿真与现实协同训练，以便更有效地在仿真环境中评估主要基于现实世界数据训练的 LBM
另一种快速且经济的数据收集方式，是完全绕开机器人的需求，转而使用由人工手动控制的专用设备 [48]–[51]

在本研究中，作者在混合数据上训练 LBM（详见第 IV-D 节），数据来源包括公开可用的数据集，以及作者在现实世界中自主收集的数据(既有远程操作机器人，也有专用设备[48])，以及仿真环境，旨在更好地理解在这些大规模、多任务数据集上训练的价值

最后，对于机器人操作策略的评估

无论是出于研究还是实际部署目的，衡量大语言模型（LBM）的性能都需要可复现、可靠且可扩展的评估方法和框架[52]。缺乏标准化硬件使得一致的基准测试成为挑战。因此，大多数基准测试都是基于仿真的，典型例子包括 RLBench[45]、ManiSkill[53]、Meta-World[54]、Robosuite[55]、BEHAVIOR[56] 和 RoboTHOR[57]

在这些基准中，评估通常依赖于定量指标，如成功率、任务完成百分比和完成时间，并强调泛化能力（例如对未见过的物体、任务或场景的适应性）或样本效率
尽管以往导航领域的研究强调了由动力学和视觉差异导致的“仿真到现实”鸿沟[57]–[59]，但操作策略的评估还面临额外挑战，因为机器人与环境的耦合更紧密，任务结果对细微变化更加敏感
近期的仿真框架 SIMPLER[60] 通过采用系统辨识[61]、[62] 以及多种图像编辑与匹配技术，缓解了真实与仿真环境之间的控制和视觉差异
其他现实世界评估方法则侧重于建立标准化的物体集、任务、数据集和评测协议[63]–[70]，远程访问共享机器人[71]–[73]，或提升评估效率[74]、[75]

总之，尽管已有进展，但在针对众多多样化任务评估通用机器人操作策略、可靠地基准测试复杂长时序交互，以及在动态环境下评估鲁棒性与安全关键要素等方面，仍面临诸多挑战

1.2 大型行为模型LBM

1.2.1 用于视觉运动控制的扩散模型

作者通过采用扩散模型——去噪扩散隐式模型（DDIM）[82]，实现用于视觉运动控制的生成式策略

之所以选择这一类生成模型，是因为它已被证明在从人类演示中学习视觉运动操控策略方面非常有效[1]

DDIMs 将一个简单的先验分布，通常为高斯噪声，转化为一个复杂的、有结构的（动作）分布，该分布以输入数据为条件——在作者的案例中，包括视觉、本体感觉和语言观测
这一转化过程使用了从去噪扩散概率模型（DDPM）[83] 中推导出的确定性采样过程。给定K ≥1 个去噪步骤，从时刻 $t$ 的噪声样本 $A_{t}^{K} \sim \mathcal{N}(0, I)$ 开始，并使用DDIM 在K 个迭代步骤中将其去噪为连续动作 $A_{t}^{0}$

为了预测以观测输入为条件的动作，作者对原始的DDIM 更新进行了如下修改

$A_{t}^{k-1}=\alpha\left(A_{t}^{k}-\gamma \cdot \epsilon_{\theta}\left(O_{t}, A_{t}^{k}, k\right)\right)$

其中 $A_{t}^{k}$ 是在第 $k$ 步去噪时的一组噪声动作， $O_{t}$ 是观测值， $k$ 是扩散时间步。参数 $\alpha$ 和 $\gamma$ 由一个随扩散时间步 $k$ 变化的噪声调度决定， $\epsilon_{\theta}$ 是带有权重θ的噪声预测神经网络

为了训练 $\epsilon_{\theta}$ ，作者采样一个动作 $A_{t}^{0}$ 和一个随机步 $k$ ，并添加一个与步长相关的高斯噪声 $\varepsilon_{k}$ 以形成噪声动作 $A_{t}^{k}=A_{t}^{0}+\varepsilon_{k}$
然后网络被训练用于从 $A_{t}^{k}$ 预测 $\varepsilon_{k}$ ，使其能够在整个扩散水平范围内去噪

数学上，针对θ 优化以下DDPM 损失：

$\mathcal{L}(\theta)=\left\|\epsilon_{k}-\epsilon_{\theta}\left(O_{t}, A_{t}^{k}, k\right)\right\|_{2}^{2}$

1.2.2 策略架构

作者将噪声预测网络 $\epsilon_{\theta}$ 参数化为Diffusion Transformer（DiT）[81]，该网络在预测动作时以从观测中提取的特征和扩散时间步作为条件(有关观测空间和动作空间的详细信息，参见第IV-D1节)

为了从图像观测中提取特征，作者使用了经过预训练的CLIP ViT骨干网络[11]的CLS token输出
PS，其使用多视角 RGB 相机(场景相机、手腕相机)，输出 768 维视觉特征向量
语言特征同样通过CLIP文本编码器从任务描述中计算得到，并在池化后的序列结束token上添加投影层
每个观测时间步的语言和视觉特征与本体感受信息以及扩散时间步 $k$ 进行拼接，其中 $k$ 通过正弦位置嵌入[83]编码后，再经过两层MLP处理

在训练过程中，作者对视觉特征提取器进行微调，该提取器在所有相机输入中共享。且保持语言特征提取器冻结不变，但会在语言特征之上训练一个投影层

DiT 对两个时间步的级联观测特征进行条件建模，这两者的总大小为6, 732，并通过自适应层归一化（adaLN）MLP [81] 对编码的扩散时间步进行处理
说的直白点，即是DiT的输入是融合后的观测特征 + 扩散噪声
该模型由八个DiT 块组成，嵌入维度为768。网络预测16 个时间步的20 维动作，总输出大小为At = 320。所有实验均使用上述架构

在对单任务数据进行微调或从头评估策略时，作者使用相同的架构，并且仅为所选任务使用语言提示

顺带提一下，我相信会有读者和我一样好奇，为何作者不直接用VLA那套端到端的架构呢，而非得组合CLIP和DiT

作者在论文正文的最后有说到，他们也确实还研究了通过 CLIP 预训练的中等规模语言编码器的 LBM。虽然作者预计他们的许多发现可以推广到更大的视觉-语言模型（VLA），但他们也认为某些方面（如语言可控性）在那种情况下会有所不同

1.2.3 训练与部署

训练方法遵循基础模型的通用模式，首先在完整的数据混合集上进行预训练，然后在更窄的数据子集上进行微调[14]，[15]，[29]，[35]，[84]

两个阶段的超参数汇总见表 I 和表 II

且在原论文第IV-D节所述的完整数据集混合上进行预训练

在训练过程中，作者首先将图像调整为256x342的尺寸，然后进行随机裁剪和色彩抖动，最终得到224x224的图像。且使用全局批量大小为2560，在48k步内以恒定学习率3e-4进行训练，至于视觉编码器的学习率是模型其他部分的十分之一

此外，作者在单个任务的演示数据上对预训练策略进行微调

他们发现，对于仿真任务而言，最佳检查点通常出现在训练的较早阶段，而实际任务则更晚。因此，作者对实际任务微调30,000步，对仿真任务微调10,000步，全球批量大小为320，学习率降低至2e-5
且将协同训练、交替学习率调度以及选择最佳预训练和微调检查点的策略留待未来研究。在微调过程中，使用与预训练阶段相同的图像增强超参数

在训练过程中，作者计算16个动作步的损失，而在部署时，仅执行八个时间步后重新计算动作[1]。与训练阶段类似，图像被调整为256x342，但随后进行中心裁剪至224x224，而不是随机裁剪

最后，策略循环以10 Hz的频率执行

1.3 预训练数据

作者的预训练数据集混合体被称为Ramen，由大规模的机器人演示数据集组成，总计约1695小时的演示数据，包括在TRI收集的高质量数据（约545小时，TRI-Ramen）以及精选的外部机器人数据（约1150小时，OXE-Ramen）

TRI-Ramen data 包含总计 545 小时的真实数据，涵盖 532 个任务，共计 64,262 个演示。具体包括：

TRI-Ramen-Real——468 小时，362 个任务，46063 个演示，数据采集自 9 个硬件工作站
TRI-Ramen-Sim——45 小时，41 个任务，7348 个演示，数据采集自 2 个仿真工作站
TRI-Ramen-UMI（32 小时，129 个任务，10851 个演示），通过通用操作界面 [48] 在“野外”环境下，使用 7 对手持设备采集

TRI-Ramen-Sim任务在预训练集中排除了scenarioK的所有五个任务，以及scenariosD、S和B中各自的一个任务；对这些“未见过”任务的评估结果可在第III-B节中找到

关于机器人硬件本身

所有工作站均配备带有网格线标记的桌面（有助于在真实机器人工作站上对应物体放置位置）、两台Franka Research 3机械臂以及两套带有定制柔性手指的并联夹爪 [85]

在数据采集过程中，作者进行了一次主要的硬件升级，将FrankaHand更换为Schunk WSG50-110夹爪；将每只机械臂的单个FRAMOS D435腕部摄像头更换为双FLIR腕部摄像头；并将手指更换为更短的版本
且将配备Franka Hand和单个D435腕部摄像头的平台称为旧平台，该平台已退役，未用于任何已报告的真实世界评估结果。每台物理机器人在场景摄像头和机器人配置上均存在显著差异，二者在运行期间每周都会进行校准。部分控制器参数（如笛卡尔速度范围）在不同机器人之间略有差异，但这些差异不会影响正常操作

1.3.1 观测空间和动作空间

观测空间包括

i）末端执行器相对于工作站基座（桌面中心）的位姿
ii）末端执行器相对于另一末端执行器的位姿
iii）连续夹爪宽度
iv）6 张RGB 图像（缺失的摄像头用零填充）
以及v）一条自然语言指令

动作空间包括末端执行器相对于工作站基座的位姿，以及夹爪宽度。姿态由一个6D 向量表示，该向量对应于旋转矩阵的前两行

对于观测和动作，作者采用了与[48] 中类似的相对轨迹表示方法。此外，还使用了观测历史(nobs = 2)和动作预测时域(nhorizon = 15)，如[1] 所述

来自OXE-Ramen 的单臂数据通过对缺失的机械臂进行零填充并随机交换机械臂的侧边转换为双臂数据。TRI-Ramen 中的每个实验包含一组语言指令列表，这些指令在推理过程中被随机采样。该列表包括一条由人工编写的指令，以及五条通过提示LLM-ChatGPT生成的人工指令的替代表述。OXE-Ramen 中缺失的语言标注被填充为通用文本：”do something useful”

1.3.2 数据归一化

对于Ramen 中的数据，归一化是在每个特征维度（例如末端执行器位姿）和每个时间步（即观测历史和动作预测范围）上进行的

数值被归一化到固定区间[−1.5, 1.5]，通过以第2 和第98百分位数，x0.02 和x0.98 为缩放因子进行缩放，并在超出[−1.5, 1.5] 范围时进行截断

对于所有数据样本xi ∈D，计算相应的归一化值 $y_{i}$ ：

$y_{i}=\min \left(\max \left(-1.5,2 \frac{x_{i}-x^{0.02}}{x^{0.98}-x^{0.02}}-1\right), 1.5\right)$

这种方法将2到98百分位范围缩放和平移到[-1,1]区间，同时保留部分异常值，但大多数分辨率集中在数据分布的高密度中心。由于表示的动作是相对于当前时刻的观测，因此，越远期的动作其分布范围越大，而最近一步的动作分布更窄

针对每个时间步独立计算归一化参数，可以更好地保留对近期动作的分辨率，而这些动作的准确预测尤为重要。对于姿态中的6维旋转，作者避免使用这种归一化方法，以防破坏旋转矩阵。需要注意的是，6维旋转本身就在[-1, 1]区间内

1.3.3 数据集筛选

TRI-Ramen 数据集在某些演示开始阶段包含大量低运动帧。这种情况要么是操作员失误导致的，要么是遥操作界面加载速度慢于演示日志记录的启动

作者实现了一个简单的筛选操作，设定了一个运动阈值，用于判断夹爪自起始姿态以来是否在平移上移动超过 5 厘米或在旋转上超过 15 度
然后，移除所有在演示开始阶段、尚未达到该运动阈值的数据

在仿真中，作者分析了过滤这些数据的影响，并发现当使用未过滤数据进行训练时，单任务和LBM策略在每次回合开始时都难以启动运动。该现象的严重程度取决于策略、任务以及评估条件（标准情况与分布偏移）

在仿真中，过滤低运动数据提升了单任务的表现；然而，对于预训练的LBM来说，表现却意外下降，作者观察到它会比以前更频繁地执行一些未被指令要求的任务

因此

作者在设计上选择用未过滤的数据进行预训练
但在仿真任务中，对LBMs进行微调以及训练单任务策略时，则使用经过过滤的数据集
此外，作者还分析了仅用过滤后数据进行训练的情况，相关结果见原论文第十二节
由于现实世界评估成本较高，作者并未在实际任务中研究这一现象，而是在任务特定微调数据中使用了未过滤版本