当前位置：首页 > news >正文

【论文阅读】RynnVLA-001：利用人类示范改进机器人操作

news 2025/9/23 9:04:45

由达摩院和湖畔实验室开发的 RynnVLA-001 引入了一种视觉-语言-动作 (VLA) 模型，通过对大规模人类第一视角视频演示进行预训练，改进了机器人操控。它在实际操作任务中取得了 90.6% 的平均成功率，超越了 GR00T N1.5 (55.6%) 和 Pi0 (70.4%) 等最先进的基线模型。

引言

机器人操作仍然是人工智能领域最具挑战性的问题之一，它要求视觉感知、语言理解和精确运动控制的无缝集成。虽然大型语言模型和计算机视觉系统通过利用网络上的海量数据集取得了显著成功，但机器人技术面临一个根本性的瓶颈：大规模机器人操作数据的稀缺性。通过远程操作收集此类数据成本高昂、耗时且需要专业知识，这限制了视觉-语言-动作（VLA）模型可以训练的规模。

三阶段训练方法概述

RynnVLA-001 的三阶段训练方法概述，从自我中心视频生成到轨迹感知建模，最终实现机器人专用控制。

RynnVLA-001 由达摩院（阿里巴巴集团）和湖畔实验室的研究人员开发，通过一种创新方法解决了这一挑战，该方法利用了丰富的人类演示视频。该模型引入了一种多阶段预训练方法，逐步弥合了通用视觉理解与特定机器人控制之间的鸿沟，在实际操作任务中取得了卓越性能，同时展示了对环境复杂性和干扰物的显著鲁棒性。

技术架构和方法

RynnVLA-001 的核心创新在于其三阶段训练流水线，该流水线系统地将知识从人类自我中心视频转移到机器人操作任务中。该模型建立在 Chameleon 图像到视频架构之上，采用自回归 Transformer 来处理语言和视觉 token 的交错序列。

训练流水线架构

详细架构图显示了三个训练阶段和用于动作表示的 ActionVAE 组件。

数据整理与准备

研究团队开发了一个复杂的流水线，用于从网络资源中整理自我中心操作视频。此过程涉及使用姿态估计模型进行关键点检测，通过筛选可见的手腕和手部关键点同时排除面部地标来识别第一人称视角。该流水线使用 Qwen2-VL-7B 生成文本描述，最终形成一个包含 1200 万个自我中心人类操作视频以及 244,000 个机器人操作视频的数据集。

阶段 1：自我中心视频生成式预训练

第一阶段训练一个图像到视频模型，根据初始视觉观察和语言指令预测未来的视频帧。该模型使用以下序列结构从自我中心视角学习物理动力学：

[语言 token, 视觉 token_t, 语言 token, 视觉 token_{t+1}, ...]

此阶段建立了对人类演示中观察到的视觉动力学和运动模式的基本理解。

阶段 2：以人为中心的轨迹感知视频建模

第二阶段引入了一项关键创新，通过联合预测未来的视觉帧和相应的人体关键点轨迹。这通过将手腕关键点作为末端执行器位置的代理，弥合了视觉预测和动作生成之间的鸿沟。模型架构通过一个轻量级动作头进行扩展，该动作头将 Transformer 的隐藏状态映射到连续动作嵌入。

训练目标结合了视觉 token 的交叉熵损失和动作预测的 L1 损失：

\mathcal{L} = \mathcal{L}_{visual} + \lambda \mathcal{L}_{action}

其中 $\mathcal{L}_{visual}$ 表示视觉 token 预测的交叉熵损失，$\mathcal{L}_{action}$ 表示动作嵌入预测的 L1 损失。

ActionVAE：压缩动作表示

一个关键技术贡献是ActionVAE组件，它将动作块压缩成紧凑、连续的潜在嵌入。这种方法能够预测动作序列而不是单步动作，从而提高时间一致性和执行平滑度。VAE由一个将动作块映射到潜在嵌入的编码器和一个重建原始动作序列的解码器组成。

阶段3：以机器人为中心的视觉-语言-动作建模

最后一个阶段通过在机器人特定数据上进行微调，使轨迹感知模型适应真实世界的机器人控制。该架构继承了阶段2的权重，但用机器人特定变体取代了人类特定的动作头。该模型处理双摄像头视图（前置和腕部）以及当前机器人关节状态，以预测机器人动作块嵌入。

实验评估和结果

实验评估展示了RynnVLA-001在机器人操纵能力的多个维度上的卓越性能。

评估任务

四种评估场景测试了操纵能力和鲁棒性的不同方面。

性能比较

RynnVLA-001在三个真实世界操纵任务中取得了平均90.6%的成功率，显著优于包括GR00T N1.5 (55.6%) 和 Pi0 (70.4%) 在内的最先进基线。该模型在不同复杂程度下保持一致的性能：

单目标操纵：93.3% 成功率
多目标操纵：86.7% 成功率
带干扰物的指令跟随：91.7% 成功率

消融研究和设计验证

全面的消融研究验证了所提出方法的每个组件：

预训练的有效性：未经预训练的模型仅达到4.4%的成功率，而完整的三阶段方法达到了90.6%，这表明所提出的课程至关重要。
阶段性贡献：
- 阶段1（以自我为中心的视频预训练）将性能从50.0%提高到84.4%
- 阶段2（轨迹感知建模）将性能进一步提高到90.6%
技术设计选择：
- 384×384输入分辨率在保真度和计算效率之间提供了最佳平衡
- ActionVAE表示优于直接动作序列预测
- 简单的单层动作头比更深的架构更有效

视频生成结果