当前位置: 首页 > news >正文

Latent Action在具身智能中的使用

0. 简介

对于数据来说有很多类似OXE、Bridge、DROID的公开数据,但是这个相较于网络上视频来说其实是数量级很低的,而怎么样借助大量的互联网视频来进行学习,并学出一些范式还是非常有意思的一件事情。基本上技术都是比较通用,或者说大框架基本类似,但是这个发力方向还是非常值得关注的。下面是两个对比,相较于左边昂贵的数据,右边的操作其实还是挺有意义的,只需要我们能够解决人类和机器人之间的gap,并想办法获取机器人行为姿态即可。

88a867fb542f4307a7ed59c352e61807.png

比如说OPENAI的VPT,就是去学一个classifier,把对应的action给解析出来。只能说OpenAI把这套范式玩明白了,训什么都用这个思路。但其中有个难点,就是预训练的时候视频数据没有自监督信号,因为模型要输出的是动作,而不是下一个画面。于是他们想了一个简单粗暴的解决办法,就是先让标注人员去玩游戏,记录他们的游戏画面和对应的动作(键盘、鼠标),再用这批数据训练一个模型(Inverse Dynamics Model),去给所有的视频数据预测出标签。这样就可以进行自回归视频预训练了。预训练的数据量是70k小时的视频,大概5B的token,模型参数量在0.5B。

7a8710649602e78b2291c242273e41e6.png

1. latent action 是什么

latent action一般定义为:一种用于区分高性能和低性能区域的边界,下面给出了两个例子。

7797bd5fbc620834c4376fb6553a8dce.png

这里的latent action代表一个边界(分类器),用于将好的采样和差的采样划分开来,这里使用的划分边界的方式是:先使用Kmeans在特征向量上( [x, f(x)] )聚类,然后使用SVM划分出边界

ad26a49ece3b47054dcce932c61cb622.png

这里使用的划分边界的方式是:对于区域中的元素Dt,jDt,j​,通过它们的支配数量进行rank,小的支配数量的元素(意味着是更好的性质)被label成positive,大的被label成negative,然后使用SVM划分出边界

2. 自监督Latent Action

相较于VPT而言,怎么样去更加通用一点,即不尝试去标action。这里我们可以利用自监督等方法来做。其实这里主要分为三步:

1、latent action量化作为第一部分,这里最核心的就是一个VQ-VAE的模块。通过一个tt时刻的图像帧和t+ht+h时刻的一个图像帧。然后将这两个作为输入,并通过自监督方法来告诉我这两个之间发生了什么样的行为。这个行为是一个大概行为,类似聚类的操作,相似的行为归结为一类。

编码部分是一个C-ViVit,把输入的两张图片构造成离散的embedding进行输出。这个时候就是一些离散的数据了,我们会提一个representation,这个离散的表达,这个decoder拿到了第一帧信息,以及对应的latent action,然后解算出第二帧的图像来。可以用t+ht+h时刻的一个图像帧和输出的decoder做loss完成自回归训练。

C-ViVit是ViViT的一个变种,它采用了条件处理机制,这意味着模型在处理视频数据时能够考虑前一帧或一系列帧的条件信息。这种模型特别关注于如何在时间维度上有效地整合信息,以便更好地理解视频内容的连续性和变化。C-ViViT通过使用条件或因果注意力机制,允许模型在预测当前帧时只考虑之前的帧,这有助于模型捕捉视频中的动态变化,并提高视频处理的效率和效果。

7246f679bc0a415ba888d6e02df87257.png

2、latent预训练:这一步是在我拿到了latent action 并且我希望去训练一个Policy,让这个VLM能够掌握到因果。就是希望我给出图片和文本,然后输出latent action,来让大模型理解我期望的行为。这里的大模型也最后不是词表了,这里我们会变成一个全联接层来使用。

这里我们针对VLM,会把视觉部分冻结,只去调语言模型和全链接层。去尝试拟合到假的VQ标签上。

3、最后就是行为微调,这里就会换成真正的机器人数据,然后去进行微调。这就是相信在第二部已经学习到知识了,只是把最后的全链接层换成和行为词典大小一致的head就行了。

3. LAPA微调手册

LAPA 是一种无监督的方法,用于对视觉-语言-行动(VLA)模型进行预训练,无需真实的机器人行动标签。该方法在多个方面表现出色,超越了当前基于真实行动训练的最先进 VLA 模型,建立了新的 SOTA VLA 模型。此外,LAPA 的预训练效率比传统 VLA 预训练高出超过 30 倍。

3.1 潜在动作量化

我们提供了潜在动作量化预训练的代码:

点击链接Latent Action在具身智能中的使用阅读原文

http://www.dtcms.com/a/348825.html

相关文章:

  • C++——多态
  • 【ABAP4】基本语法1
  • 第4章栈和队列:队列基础知识
  • pom.xml 标签整理各个标签的用途和含义
  • 蓝凌EKP产品:从 XML 到 JSON ——表单存储的性能优化实践
  • 前端漏洞(上)- CSRF漏洞
  • 强光干扰下误检率↓79%!陌讯动态决策算法在安全带检测的实战优化
  • Redis详解--基本篇
  • Linux 的 TCP 网络编程常用API
  • 网络流量分析——使用捕获和显示过滤器查询网络流量
  • 每天自动备份oracle
  • 关于熵减 - 力学单位和来源
  • 安装gitlab
  • C++ AOV 拓扑排序
  • pyecharts可视化图表-scatter:从入门到精通
  • 2020/12 JLPT听力原文 问题二 5番
  • 【网络运维】Shell 脚本编程:case 条件语句
  • 【大语言模型 18】Vision Transformer革命解析:图像理解的范式突破与架构创新
  • VsCode使用SFTP连接Linux
  • 油雾干扰下误报率↓76%!陌讯动态感知算法在卸油作业安全识别中的实战突破
  • Java:HashSet的使用
  • 【MySQL】CRUD基础详解
  • 基于 Redis + JWT 的跨系统身份共享方案
  • HTTP数据之旅:一个网络请求的完整冒险
  • Unity的Cursor.lockState
  • 油雾环境下漏检率↓79%!陌讯多模态检测算法在加油站智能巡检的落地实践
  • VMware Workstation 不可恢复错误:(vcpu-0)
  • 强反射场景漏检率↓89%!陌讯动态感知算法在护目镜合规检测的实战解析
  • 二叉树学习笔记
  • MyBatis 和 MyBatis-Plus对比