当前位置: 首页 > news >正文

使用大语言模型进行机器人规划(Robot planning with LLMs)

李升伟 编译

长期规划在机器人学领域可以从经典控制方法与大型语言模型在现实世界知识能力的结合中获益。

在20世纪80年代,机器人学和人工智能(AI)领域的专家提出了莫雷奇悖论,观察到人类看似简单的涉及移动和感知的任务,如开门或倒咖啡,对机器人来说是计算密集型的挑战。相比之下,人类认为认知上更复杂的任务,如下棋,对AI来说却容易得多。尽管几十年的发展,设计能够执行真实世界任务和环境的机器人仍然具有挑战性。在机器人物理能力的持续进步中,更好的传感器和执行器的可用性,以及基于数据驱动的方法来控制和预测行动结果,已经取得了进展。然而,现实任务通常涉及许多需要同时和依次执行的物理动作,这需要长期规划。

过去十年,深度学习迅速发展,并在机器人规划应用中展现出巨大的潜力。以安德鲁·巴托(Andrew Barto)和理查德·斯隆(Richard Sutton)为2024年图灵奖获奖者之一的强化学习,是AI学习和规划最成功的框架之一,并广泛应用于机器人学。2019年,OpenAI利用深度强化学习从头开始训练了一个机器人手,使其能够模拟操作魔方,并将学到的控制能力转移到实际的机器人手中。Hafner等人最近展示了在这个领域仍然有可能取得令人印象深刻的进展。仅使用视觉信息和复杂长时规划任务的稀疏奖励,在视频游戏中,他们开发了一种名为Dreamer的方法,该方法能够预测环境潜在行动的结果,而无需针对每个单独的游戏进行精细调整,范围从Atari游戏、机器人模拟到视频游戏Minecraft。

然而,将能力转移到现实世界的机器人学仍然是一个挑战。潜在的解决方案之一是利用基础模型,这些模型通过在不同来源的大量弱标签数据上预训练大型深度学习模型来构建。社区项目,如Open X-Embodiment倡议,收集了大量的真实世界机器人数据,旨在训练机器人视觉语言模型(VLMs,LLMs的扩展)。这种模型的一个早期版本,PaLM-SayCan,通过机器人收集的数据对LLM的强化学习组件进行微调,以增强对实际可行的工具和动作的预测,从而提高了生成运动计划的成功率。

受PaLM-SayCan模型启发的后续工作使用了如GPT-4这样的LLMs,展示了令人印象深刻的演示。然而,将机器人控制权交给LLM存在缺点,包括幻觉和潜在的安全风险。GPT-4等模型发送请求的速度和频率也有限。如果没有精心设计的提示和可用的数据,即使是强大的LLMs也可能陷入循环步骤或“过度思考”问题的陷阱。这种效应在Anthropic AI运行的一个实验中得到了展示,在这个实验中,一个LLM代理试图玩Pokemon,并同时表现出似乎令人印象深刻的推理能力,但同时也陷入了简单的障碍。

采取不同的途径,本文中提出了一种名为ELLMER的框架,由鲁阿迪·蒙-威廉斯等人开发,该框架将由LLM执行的高层规划与实际控制机器人分离。该方法使灵活和反应式的本体规划成为可能,将AI和传感器运动能力结合,以响应复杂甚至模糊的用户请求来控制机器人操作器。通过用户的自然语言请求和使用图像反馈,LLM生成基于示例的Python代码,这些示例包括对象识别和力反馈传感工具,以控制机器人下一步的动作。作为示例任务之一,研究人员告诉机器人他们感到疲倦,并要求它制作热饮并在盘子上装饰动物。查询故意不直接或清晰,但GPT-4推断任务是制作咖啡,并计划首先找到一个杯子。在演示中,机器人依次打开橱柜,找到杯子,放下杯子,加入速溶咖啡粉,并将水倒入杯子,而人类在此过程中已经移动了杯子。由于每一步生成的代码本身并不依赖于与LLM的进一步交互,它允许机器人响应视觉和力信息——例如,当人类轻推机器人时。当机器人需要对意外的新情况作出反应时,如人类发出进一步的命令,LLM可能可以再次被联系以适应变化的情况。

随着LLMs和VLMs的快速进步,过去几年见证了本体AI(embodied AI)的爆炸性兴趣。本体AI的有前景的下一步是终生学习,这对机器人来说尤为重要,如果它们打算在现实世界中长时间成功运行。结合LLMs、VLMs与传统方法可以构建出稳健的本体AI系统。

原文引用:Robot planning with LLMs. Nat Mach Intell 7, 521 (2025). https://doi.org/10.1038/s42256-025-01036-4

相关文章:

  • 5G赋能农业物联网:智能化种植的新纪元
  • sql错题(3)
  • 使用MobaXterm解压文件
  • Review --- Redis
  • 【关于ESP8266下载固件库的问题】
  • Mac 使用 Charles代理生成https服务
  • 2025 Mac常用软件安装配置
  • 互联网大厂Java求职面试:分布式系统中向量数据库与AI应用的融合探索
  • [学习]RTKLib详解:ppp.c与ppp_ar.c
  • c++中默认参数值是怎样实现的?
  • MinIo安装和使用操作说明(windows)
  • Kotlin 中实现单例模式的几种常见模式
  • pcie协议复位
  • WPF MVVM进阶系列教程(一、对话框)
  • AGV导航控制器技术方案——基于EFISH-SBC-RK3576/SAIL-RK3576的国产化革新‌(新一代工业级自主可控解决方案)‌
  • Ubuntu 第11章 网络管理
  • 每日一题洛谷P1025 [NOIP 2001 提高组] 数的划分c++
  • string--OJ4
  • 铁塔基站项目用电能表有哪些?
  • LeetCode 热题 100_最长回文子串(93_5_中等_C++)(暴力破解法;动态规划)
  • “女硕士失踪13年生两孩”案进入审查起诉阶段,哥哥:妹妹精神状态好转
  • 经济日报:美国滥施汽车关税损人不利己
  • 郑州通报“夜市摊贩收取香烟交给城管”:涉事人员停职调查
  • 第一集丨《亲爱的仇敌》和《姜颂》,都有耐人寻味的“她”
  • 网络主播直播泄机密,别让这些“小事”成威胁国家安全的“突破口”
  • 71岁导演詹姆斯・弗雷病逝,曾执导《纸牌屋》、麦当娜MV