当前位置：首页 > news >正文

Latent Action在具身智能中的使用

news 2025/8/25 9:28:50

0. 简介

对于数据来说有很多类似OXE、Bridge、DROID的公开数据，但是这个相较于网络上视频来说其实是数量级很低的，而怎么样借助大量的互联网视频来进行学习，并学出一些范式还是非常有意思的一件事情。基本上技术都是比较通用，或者说大框架基本类似，但是这个发力方向还是非常值得关注的。下面是两个对比，相较于左边昂贵的数据，右边的操作其实还是挺有意义的，只需要我们能够解决人类和机器人之间的gap，并想办法获取机器人行为姿态即可。

比如说OPENAI的VPT，就是去学一个classifier，把对应的action给解析出来。只能说OpenAI把这套范式玩明白了，训什么都用这个思路。但其中有个难点，就是预训练的时候视频数据没有自监督信号，因为模型要输出的是动作，而不是下一个画面。于是他们想了一个简单粗暴的解决办法，就是先让标注人员去玩游戏，记录他们的游戏画面和对应的动作（键盘、鼠标），再用这批数据训练一个模型（Inverse Dynamics Model），去给所有的视频数据预测出标签。这样就可以进行自回归视频预训练了。预训练的数据量是70k小时的视频，大概5B的token，模型参数量在0.5B。

1. latent action 是什么

latent action一般定义为：一种用于区分高性能和低性能区域的边界，下面给出了两个例子。

这里的latent action代表一个边界（分类器），用于将好的采样和差的采样划分开来，这里使用的划分边界的方式是：先使用Kmeans在特征向量上（ [x, f(x)] ）聚类，然后使用SVM划分出边界

这里使用的划分边界的方式是：对于区域中的元素Dt,jDt,j，通过它们的支配数量进行rank，小的支配数量的元素（意味着是更好的性质）被label成positive，大的被label成negative，然后使用SVM划分出边界

2. 自监督Latent Action

相较于VPT而言，怎么样去更加通用一点，即不尝试去标action。这里我们可以利用自监督等方法来做。其实这里主要分为三步：

1、latent action量化作为第一部分，这里最核心的就是一个VQ-VAE的模块。通过一个tt时刻的图像帧和t+ht+h时刻的一个图像帧。然后将这两个作为输入，并通过自监督方法来告诉我这两个之间发生了什么样的行为。这个行为是一个大概行为，类似聚类的操作，相似的行为归结为一类。

编码部分是一个C-ViVit，把输入的两张图片构造成离散的embedding进行输出。这个时候就是一些离散的数据了，我们会提一个representation，这个离散的表达，这个decoder拿到了第一帧信息，以及对应的latent action，然后解算出第二帧的图像来。可以用t+ht+h时刻的一个图像帧和输出的decoder做loss完成自回归训练。

C-ViVit是ViViT的一个变种，它采用了条件处理机制，这意味着模型在处理视频数据时能够考虑前一帧或一系列帧的条件信息。这种模型特别关注于如何在时间维度上有效地整合信息，以便更好地理解视频内容的连续性和变化。C-ViViT通过使用条件或因果注意力机制，允许模型在预测当前帧时只考虑之前的帧，这有助于模型捕捉视频中的动态变化，并提高视频处理的效率和效果。