论文复现7:VoxPoser复现
摘要:大型语言模型(LLM)被证明具有大量可行知识,可以以推理和计划的形式提取机器人操纵。尽管取得了进展,但大多数人仍然依靠预定义的运动原语来与环境进行物理互动,这仍然是主要的瓶颈。在这项工作中,我们旨在综合机器人轨迹,即6-DOF最终效应器航路点的密集序列,以鉴于开放设置的指令和开放设置的对象,以进行多种操纵任务。我们首先观察到,在自由形式的语言指导下,LLM在推断负担和约束方面表现出色来实现这一目标。更重要的是,通过利用其代码编写功能,他们可以与视觉模型(VLM)进行交互,以构成3D值图,以将知识融入代理的观察空间中。然后,组成的值地图将在基于模型的计划框架中使用,以零击综合闭环机器人轨迹具有鲁棒性,对动态扰动。我们进一步展示了建议的框架如何通过有效地学习涉及涉及接触互动互动的场景的动态模型来从在线体验中受益。我们在模拟和现实机器人环境中介绍了对所提出方法的大规模研究,展示了执行自由形式自然语言指定的各种日常操纵任务的能力。
github: https://github.com/huangwl18/VoxPoser
项目:https://voxposer.github.io/
VoxPoser从大型语言模型和视觉语言模型中提取可供性和约束条件,以组成 3D 价值图,运动规划器使用这些价值图对日常操作任务的 零样本合成轨迹进行操作。
复现这篇论文的原因是自己有个工作需要增