当前位置: 首页 > news >正文

RynnVLA-001:利用人类演示来改进机器人操作

25年9月来自阿里达摩研究院和湖畔研究院的论文“RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation”。

RynnVLA-001,是一个基于人类演示大规模视频生成预训练构建的视觉-语言-动作 (VLA) 模型。其提出一种两阶段预训练方法。第一阶段,以自我为中心的视频生成预训练,在 1200 万个以自我为中心的操作视频上训练一个图像-到-视频模型,以初始帧和语言指令为条件预测未来帧。第二阶段,以人为中心的轨迹-觉察建模,通过联合预测未来关键点轨迹来扩展此模型,从而有效地将视觉帧预测与动作预测连接起来。此外,为了增强动作表征,其提出 ActionVAE,这是一种变分自编码器,它将动作序列压缩为紧凑的潜嵌入,从而降低 VLA 输出空间的复杂度。当在相同的下游机器人数据集上进行微调时,RynnVLA-001 实现优于最先进基线的性能,这表明所提出的预训练策略为 VLA 模型提供更有效的初始化。

RynnVLA-001 的关键洞察在于,它将从以自我为中心的视频中人类演示中学习的操作技能隐迁移到机器人操作中。整体训练流程如图所示。

请添加图片描述


RynnVLA-001 是一个基于大规模视频生成预训练的视觉-语言-动作 (VLA) 模型。首先训练一个以自我为中心的图像-到-视频 (I2V) 模型,然后将其微调为一个具有轨迹-觉察能力的以自我为中心视频生成模型。最后,通过继承预训练的权重将模型调整为 VLA 模型。

该模型通过三个阶段逐步训练,如图所示:1)以自我为中心的视频生成预训练:使用以自我为中心的人体操作视频训练以自我为中心的图像-到-视频 (I2V) 模型。此阶段使模型能够预测未来帧。2)以人为中心的轨迹-觉察视频建模:对预训练的 I2V 模型进行进一步微调,使其能够联合预测未来的帧和人体关键点轨迹。此阶段弥合纯视觉帧预测和面向动作建模之间的差距。 3)以机器人为中心的视觉-语言-动作建模:VLA 模型继承前几个阶段的权重,并使用语言指令和当前观测值(包括双视图观测值和关节状态)作为输入,在机器人数据上进行训练。该模型经过优化,可以预测未来帧和动作嵌入,后者由预训练的 ActionVAE 解码为可执行的机器人动作。

请添加图片描述

在 VLA 模型中,预测动作块(即短序列的动作)比预测单个逐步的动作更有效 (Zhao et al., 2023; Kim et al., 2025)。这种设计选择基于两个关键因素:1) 避免重复预测:单步动作执行通常只产生可忽略不计的视觉变化,这可能导致模型重复输出相同的动作并陷入停滞。预测动作块可以促进更显著的视觉变化。2) 效率:在单次前向传递中生成多个动作可以减少计算开销和推理延迟。

为了促进这种动作块级预测,同时确保生成的动作流畅连贯,在第 2 和第 3 阶段引入动作变分自编码器 (ActionVAE)。如上图所示,ActionVAE 由一个编码器和一个解码器组成,编码器将“动作块”压缩为紧凑且连续的潜嵌入,解码器从该嵌入重建原始动作序列。

由于训练流程涉及人类演示和机器人执行,并且它们的运动空间不同,因此训练两个特定领域的 ActionVAE:一个用于压缩人类轨迹(用于第 2 阶段),另一个用于压缩机器人动作(用于第 3 阶段)。这确保每个域都有定制的精确动作表示。重要的是,ActionVAE 是特定于具身的。由于它编码的块级动作通常对应于原子运动基元,因此可以直接使用训练有素的模型从同一具身的新数据中提取动作嵌入,而无需重新训练。

在最后阶段,将预训练的轨迹感知模型调整为用于机器人控制的 VLA 模型。这是通过集成特定机器人的 ActionVAE 表示并基于以机器人为中心的数据对模型进行微调来实现的。该模型的主要目标是预测下一个机器人动作块的嵌入,然后由 ActionVAE 将其解码为可执行的动作序列。

在训练过程中,模型会同时优化两个目标:1)机器人动作预测:将与 <ACTION_PLACEHOLDER> token 输出对应的隐状态输入到新初始化的动作头中。该动作头将隐状态回归为表示下一个机器人动作块的连续嵌入。该动作头的训练由机器人专用 ActionVAE 的预测嵌入与真实嵌入之间的 L1 损失函数监督。2)未来视觉预测:模型继续对下一帧的视觉 tokens 进行自回归预测,并由交叉熵损失函数监督。这项辅助任务可以规范训练,并保持模型对世界动态的理解。

至关重要的是,为了优化效率,在推理阶段进行修改。该模型仅预测动作嵌入,并舍弃未来视觉 token 的生成。虽然预测未来帧在训练过程中可以作为正则化的一项有价值的辅助任务,但它计算成本高昂,且对于控制而言并非必要。舍弃此过程可显著提升推理速度,使模型更适用于实时应用。

预测的动作嵌入会立即传递给 ActionVAE 的解码器。解码器会根据这单个嵌入重建一个连贯的低级机器人动作序列(或动作块)。机器人会执行整个动作块。完成后,会捕获新的观察结果,并将其与语言指令一起反馈到模型中,从而启动下一个循环。此过程重复进行,直到任务成功完成。

为了基于相关的人体操作演示对模型进行预训练,构建一个大规模的以自我为中心操作视频数据集,这些视频来自网络资源(Wang,2024b;Grauman,2022;Miech,2019;Damen,2022、2018、2021;Goyal,2017;Mahdisoltani,2018)。由于原始视频数据噪声较大且高度多样化,设计一个多阶段数据整理流程,用于筛选和注释适合预训练阶段的视频。该流程包含以下步骤:

关键点检测。对于视频中的每一帧,应用姿势估计模型(Yang,2023)提取人体关键点,包括面部关键点、躯干关节以及手部相关关键点(例如手腕、肘部、手指)。

以自我为中心的滤波。应用两个关键滤波标准,只保留高质量的以自我为中心操作视频:1)无面部关键点:包含面部关键点的视频将被丢弃。人脸的出现强烈暗示第三人称视角,这不适合以自我为中心建模。2)手部关键点的存在:只保留与手腕和手部对应的关键点可见帧。摄像头附近手部的存在是人类以自我为中心操作的有力指标,这对于建模可迁移的机器人行为至关重要。

文本描述标注。对于每个精选视频,用 Qwen2-VL-7B(Wang et al., 2024a)生成简洁的文本描述。这些描述特意保持简短,以模仿机器人学习中常用的自然语言指令(例如,“把瓶子放进盒子里”、“打开抽屉”)。由此产生的文本-视频对可作为视觉-动作对齐的有效监督信号。


实验设置

数据集。为了训练和评估 RynnVLA-001 模型,用 LeRobot SO100 机械臂 (Cadene et al., 2024) 收集一个真实世界操作数据集。该数据集包含通过人类远程操作收集的专家演示。为了确保数据集涵盖基本的操作技能,设计并收集三个代表性任务的数据,如图所示:1) 拾取和放置绿色积木:此任务侧重于基本的物体识别和抓取能力。一共收集 248 个演示。2) 拾取和放置草莓:此任务需要精确的定位和抓取点估计,重点关注模型的细粒度感知能力。一共收集 249 个演示。3) 拿起笔并将其放入笔筒:此任务需要高级的 3D 空间推理能力,特别是推断物体方向和高度以进行精确插入动作的能力。一共收集 301 个演示。为了增强数据的丰富性和复杂性,操作场景的设置从仅包含目标物体到包含其他无关干扰物体的更复杂排列不等。在遥操作过程中,人类操作员的目标是将所有目标物体移动到其目的地。此外,数据是使用三个不同的 SO100 臂在不同光照条件下的各种环境中收集的。

请添加图片描述

基线。模型与两个强大的开源基线进行比较,即 GR00T N1.5(Bjorck,2025a)和 Pi 0(Black,2024)。使用相应的预训练权重初始化这些模型,然后使用与模型相同的 SO100 数据对模型进行微调。用 GR00T N1.5 和 Pi0 的官方代码,并严格按照说明对模型进行微调。

http://www.dtcms.com/a/427409.html

相关文章:

  • Linux操作系统课问题总结:从/proc目录到磁盘管理
  • Honeywell SS360NT磁性位置传感器—扫地机器人
  • 百度站长工具seo查询云南网页设计制作
  • php网站优点深圳市福田区
  • 开源代码uSNMP推荐
  • 鸿蒙:获取屏幕的刷新率、分辨率、监听截屏或录屏状态等
  • Springboot城市空气质量数据管理系统futcv(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 开发一个网站的费用两学一做11月答题网站
  • 微信小程序入门学习教程,从入门到精通,微信小程序常用API(上)——知识点详解 + 案例实战(4)
  • UNIX下C语言编程与实践14-UNIX 文件系统格式化:磁盘分区与文件系统创建原理
  • UNIX下C语言编程与实践16-UNIX 磁盘空间划分:引导块、超级块、i 节点区、数据区的功能解析
  • 互联网兼职做网站维护做ui设计用什么素材网站
  • ETL参数化技巧:如何避免写一堆重复任务?
  • git下载分支
  • Linux应用开发·Makefile菜鸟教程
  • ai智能化算法
  • 【专业词典】冰山模型
  • 第三方应用测试:【移动应用后端API自动化测试:Postman与Newman的集成】
  • 企业网站备案 淘宝客前端工程师主要做什么
  • 桌面预测类开发,桌面%雷达,信号预测%系统开发,基于python,tk,scikit-learn机器学习算法实现,桌面预支持向量机分类算法,CSV无数据库
  • 网站备案黑名单重庆新闻头条24小时
  • 使用vscode的ssh功能连接远程服务器卡在Setting up SSH Host IP: Downloading VS Code Server的解决方案
  • vscode连接算力平台
  • VSCode中Java开发环境配置的三个层级(Windows版)1-3
  • 西安建设网站的公司网页装修设计
  • 太空算力革命:卫星如何成为地面交通的“天脑“
  • 大数据 Python小说数据分析平台 小说网数据爬取分析系统 Django框架 requests爬虫 Echarts图表 17k小说网 (源码)✅
  • 第 1 天:零基础入门 C 语言 —— 认识 C 语言的起源、特点与应用场景
  • 网站建设制作公司地址网站建设费用明细
  • image process unit 模块实现防抖的原理