当前位置: 首页 > news >正文

论文复现7:VoxPoser复现

摘要:大型语言模型(LLM)被证明具有大量可行知识,可以以推理和计划的形式提取机器人操纵。尽管取得了进展,但大多数人仍然依靠预定义的运动原语来与环境进行物理互动,这仍然是主要的瓶颈。在这项工作中,我们旨在综合机器人轨迹,即6-DOF最终效应器航路点的密集序列,以鉴于开放设置的指令和开放设置的对象,以进行多种操纵任务。我们首先观察到,在自由形式的语言指导下,LLM在推断负担和约束方面表现出色来实现这一目标。更重要的是,通过利用其代码编写功能,他们可以与视觉模型(VLM)进行交互,以构成3D值图,以将知识融入代理的观察空间中。然后,组成的值地图将在基于模型的计划框架中使用,以零击综合闭环机器人轨迹具有鲁棒性,对动态扰动。我们进一步展示了建议的框架如何通过有效地学习涉及涉及接触互动互动的场景的动态模型来从在线体验中受益。我们在模拟和现实机器人环境中介绍了对所提出方法的大规模研究,展示了执行自由形式自然语言指定的各种日常操纵任务的能力。

github: https://github.com/huangwl18/VoxPoser
项目:https://voxposer.github.io/
VoxPoser从大型语言模型和视觉语言模型中提取可供性和约束条件,以组成 3D 价值图,运动规划器使用这些价值图对日常操作任务的 零样本合成轨迹进行操作。
复现这篇论文的原因是自己有个工作需要增

相关文章:

  • 分析 w-form-multiple-image.vue 文件中 console.log(v) 打印的内容
  • Javascript元编程
  • Redis要点总结一
  • 嵌入式八股文,c语言实现strcpy
  • macbook电脑下载,安装和配置java的jdk 1.8步骤
  • LCC并行光模块、PLCC并行光模块和POB并行光模块的区别
  • 在CentOS 7下部署NFS的详细教程
  • 2022年下半年软件设计师下午题题目详解与知识点解析(附真题及答案)
  • 数据结构:Map set - 习题(三)
  • Codeforces Round 806 (Div. 4)题解ABCDEFG
  • Spring Cloud面试题
  • Java Queue实现类面试题
  • 计算机二级c++备考
  • 深入讲解微信小程序 <canvas> 标签的 type=“2d“属性
  • 【R安装包报错】在conda环境下用R语言命令安装R包报错
  • 大模型在手术部位感染预测及围手术期管理中的应用研究
  • 【Java】—— 二叉树
  • JavaScript对象属性描述符
  • GreatSQL修改配置文件参数无法生效
  • Android 老项目 jcenter 库失效
  • 媒体刊文:“假官号”层出不穷,平台要当好把关人
  • 马上评|把孩子当牟利工具,这样的流量吃不得
  • 为小龙虾洗清这些“黑锅”,这份科学吃虾指南请收好
  • 宋鹍已任首都机场集团有限公司董事长、党委书记
  • 河北省纪委原副书记、省监委原副主任陈玉祥一审获刑十二年
  • 申伟强任上海申通地铁集团有限公司副总裁