当前位置: 首页 > news >正文

网站的设计技术策划软件开发流程和规范

网站的设计技术策划,软件开发流程和规范,wordpress读取数据库代码,wordpress分页导航代码0. 简介 对于数据来说有很多类似OXE、Bridge、DROID的公开数据,但是这个相较于网络上视频来说其实是数量级很低的,而怎么样借助大量的互联网视频来进行学习,并学出一些范式还是非常有意思的一件事情。基本上技术都是比较通用,或者…

0. 简介

对于数据来说有很多类似OXE、Bridge、DROID的公开数据,但是这个相较于网络上视频来说其实是数量级很低的,而怎么样借助大量的互联网视频来进行学习,并学出一些范式还是非常有意思的一件事情。基本上技术都是比较通用,或者说大框架基本类似,但是这个发力方向还是非常值得关注的。下面是两个对比,相较于左边昂贵的数据,右边的操作其实还是挺有意义的,只需要我们能够解决人类和机器人之间的gap,并想办法获取机器人行为姿态即可。

88a867fb542f4307a7ed59c352e61807.png

比如说OPENAI的VPT,就是去学一个classifier,把对应的action给解析出来。只能说OpenAI把这套范式玩明白了,训什么都用这个思路。但其中有个难点,就是预训练的时候视频数据没有自监督信号,因为模型要输出的是动作,而不是下一个画面。于是他们想了一个简单粗暴的解决办法,就是先让标注人员去玩游戏,记录他们的游戏画面和对应的动作(键盘、鼠标),再用这批数据训练一个模型(Inverse Dynamics Model),去给所有的视频数据预测出标签。这样就可以进行自回归视频预训练了。预训练的数据量是70k小时的视频,大概5B的token,模型参数量在0.5B。

7a8710649602e78b2291c242273e41e6.png

1. latent action 是什么

latent action一般定义为:一种用于区分高性能和低性能区域的边界,下面给出了两个例子。

7797bd5fbc620834c4376fb6553a8dce.png

这里的latent action代表一个边界(分类器),用于将好的采样和差的采样划分开来,这里使用的划分边界的方式是:先使用Kmeans在特征向量上( [x, f(x)] )聚类,然后使用SVM划分出边界

ad26a49ece3b47054dcce932c61cb622.png

这里使用的划分边界的方式是:对于区域中的元素Dt,jDt,j​,通过它们的支配数量进行rank,小的支配数量的元素(意味着是更好的性质)被label成positive,大的被label成negative,然后使用SVM划分出边界

2. 自监督Latent Action

相较于VPT而言,怎么样去更加通用一点,即不尝试去标action。这里我们可以利用自监督等方法来做。其实这里主要分为三步:

1、latent action量化作为第一部分,这里最核心的就是一个VQ-VAE的模块。通过一个tt时刻的图像帧和t+ht+h时刻的一个图像帧。然后将这两个作为输入,并通过自监督方法来告诉我这两个之间发生了什么样的行为。这个行为是一个大概行为,类似聚类的操作,相似的行为归结为一类。

编码部分是一个C-ViVit,把输入的两张图片构造成离散的embedding进行输出。这个时候就是一些离散的数据了,我们会提一个representation,这个离散的表达,这个decoder拿到了第一帧信息,以及对应的latent action,然后解算出第二帧的图像来。可以用t+ht+h时刻的一个图像帧和输出的decoder做loss完成自回归训练。

C-ViVit是ViViT的一个变种,它采用了条件处理机制,这意味着模型在处理视频数据时能够考虑前一帧或一系列帧的条件信息。这种模型特别关注于如何在时间维度上有效地整合信息,以便更好地理解视频内容的连续性和变化。C-ViViT通过使用条件或因果注意力机制,允许模型在预测当前帧时只考虑之前的帧,这有助于模型捕捉视频中的动态变化,并提高视频处理的效率和效果。

7246f679bc0a415ba888d6e02df87257.png

2、latent预训练:这一步是在我拿到了latent action 并且我希望去训练一个Policy,让这个VLM能够掌握到因果。就是希望我给出图片和文本,然后输出latent action,来让大模型理解我期望的行为。这里的大模型也最后不是词表了,这里我们会变成一个全联接层来使用。

这里我们针对VLM,会把视觉部分冻结,只去调语言模型和全链接层。去尝试拟合到假的VQ标签上。

3、最后就是行为微调,这里就会换成真正的机器人数据,然后去进行微调。这就是相信在第二部已经学习到知识了,只是把最后的全链接层换成和行为词典大小一致的head就行了。

3. LAPA微调手册

LAPA 是一种无监督的方法,用于对视觉-语言-行动(VLA)模型进行预训练,无需真实的机器人行动标签。该方法在多个方面表现出色,超越了当前基于真实行动训练的最先进 VLA 模型,建立了新的 SOTA VLA 模型。此外,LAPA 的预训练效率比传统 VLA 预训练高出超过 30 倍。

3.1 潜在动作量化

我们提供了潜在动作量化预训练的代码:

点击链接Latent Action在具身智能中的使用阅读原文

http://www.dtcms.com/a/484285.html

相关文章:

  • 做网站需要的导航数字营销 h5 网站开发
  • 网站icp备案新规wordpress上传七牛
  • 网站建设教程自学视频网站是用什么框架做的
  • 做企业网站进行推广要多少钱那些空号检测网站是怎么做的
  • 【cron】ubuntu 16 下cron不生效
  • 唐山网站推广做网站资源
  • 搜索网址网站建站品牌设计logo
  • 什么好的网站学做食品深圳企业网站建设公司
  • 做网站绿标廊坊网站建设电话
  • 库文件详解
  • 潍坊网站建设官网顺德移动端网站建设
  • 生成式人工智能赋能普通高中理科教学的创新路径研究
  • 做网站数据需要的软件上海企业云服务平台
  • app和手机网站的区别是什么青岛网站seo分析
  • 响应式网站无法做联盟广告ui培训学校
  • wordpress用法宁波优化seo是什么
  • 西宁好的网站建设天翼云免费服务器
  • 02117 信息组织【第二章】
  • phpstudy如何建设网站微信网站开发价格
  • 专做动漫解说的网站合肥市蜀山区建设局网站
  • Python使用pip时报错:ERROR: No matching distribution found for requirements.txt
  • 游戏钓鱼网站怎么做房地产网站开发
  • 2016企业网站建设合同wordpress自助建站
  • 第1章 变量与注释-Python工匠:案例、技巧与工程实践
  • 沂南做网站上海网上推广
  • 河南省建设工程标准定额管理网站如何创建自己的app平台
  • 知名高端网站建设企业国内做设计的网站有哪些方面
  • 网站域名和空间区别重庆优化seo
  • 网站制作公司crm客户管理系统网站后台账户如何做会计分录
  • 网站关键字优化电脑做网站主机空间