当前位置: 首页 > news >正文

Nature Machine Intelligence 嵌入式大语言模型使机器人能够在不可预测的环境中完成复杂的任务

近期英国爱丁堡大学发表Nature Machine Intelligence研究工作,提出了一种名为ELLMER(具身大型语言模型支持机器人)的创新框架,通过整合大型语言模型(如GPT-4)、检索增强生成(RAG)、视觉和力反馈,使机器人能够在动态环境中完成复杂的长期任务。

https://www.nature.com/articles/s42256-025-01005-x
为了让机器人执行高阶抽象指令(如“制作咖啡并装饰盘子”),通过分解任务、适应环境变化和实时反馈完成任务,该研究工作提出框架的核心组件包括:
大型语言模型(LLM)
:GPT-4用于理解指令并生成任务计划。
检索增强生成(RAG)
:从知识库中动态检索相关代码示例,增强生成代码的准确性和适应性。
视觉模块
:检测物体姿态(如杯子的位置)。
力反馈模块
:调整动作的力度(如倒水的精确控制)。
机器人控制系统
:通过ROS(机器人操作系统)执行生成的代码。
在这里插入图片描述

  1. 实现步骤
    (1)指令解析与任务分解:

输入:用户的高阶自然语言指令(如“我累了,请给我一杯热饮”)。
LLM处理:GPT-4将指令分解为子任务序列(如找杯子、倒咖啡、倒水等)。
知识库检索:通过RAG从预定义的代码库中检索相关动作示例(如“如何倒水”)。
(2)代码生成与执行:
视觉反馈:Azure Kinect相机检测物体姿态,实时更新目标位置。
力反馈:ATI力传感器监控末端执行器的力,调整动作(如倒水时控制流量)。
动态代码生成:LLM结合检索到的示例生成可执行的Python代码,适配当前环境(如杯子的位置)。
反馈集成:任务执行与适应性调整。ROS控制:生成的代码通过ROS发送控制指令,驱动机械臂执行动作。动态调整:若环境变化(如杯子被移动),视觉模块更新姿态,LLM重新规划路径。
在这里插入图片描述

  1. 关键技术细节
    RAG的应用:知识库构建:包含已验证的代码示例(如开门、倒水、绘图),每个示例标注了适用场景和不确定性。语义检索:根据任务相似度检索最相关的示例,避免LLM的“幻觉”错误。

示例:当需要“倒水”时,检索并调整参数(如容器高度、流速)。视觉与力的融合:零样本物体检测:使用Grounded-Segment-Anything模型识别新物体。力控制:通过静力学模型估计倒水量(如力变化ΔF ≈ 流速Δm·g),确保精确操作。安全与边界

速度与力限制:末端执行器速度限制为0.05 m/s,力限制为20N,防止过载。
工作空间约束:机械臂活动范围限定在预设区域(如x∈[0,1.1]米)。

在这里插入图片描述

  1. 实验结果
    任务成功率:在咖啡制作和盘子装饰任务中,ELLMER成功完成多步骤操作(如打开抽屉、倒水、绘图)。
    适应性:能处理动态干扰(如杯子移动),通过实时反馈调整动作。
    与基线对比:相比VoxPoser,ELLMER的忠实度(任务执行准确性)从0.74提升至0.88。
  2. 创新与贡献
    具身认知的实践:将LLM的抽象推理与机器人感觉运动结合,模拟人类“手脑协同”能力。
    动态代码生成:通过RAG实现任务代码的灵活生成,无需预编程所有可能场景。
    多模态反馈闭环:视觉与力反馈的集成提高了复杂操作的鲁棒性。
  3. 局限与未来方向
    局限性:视觉模块对遮挡敏感,复杂物体识别有待提升。动态任务切换能力有限(如中途更改任务目标)。
    未来方向:集成触觉传感器和软体机器人技术。优化动力学模型以处理高速动作(如快速倒水)。
    总结
    ELLMER框架通过LLM的规划能力、RAG的知识检索、多模态反馈的闭环控制,为机器人在动态环境中执行复杂任务提供了新思路。其核心在于将语言模型的“智能”与机器人的“身体”无缝结合,推动了具身智能的发展。

相关文章:

  • WordPress WooCommerce 本地文件包含漏洞(CVE-2025-1661)
  • 网络编程基础知识——从基础到实操
  • 常见框架漏洞(一)----Thinkphp(TP)
  • Android之卡片式滑动
  • 零基础上手Python数据分析 (9):DataFrame 数据读取与写入 - 让数据自由穿梭
  • 基于Java的班级事务管理系统(源码+lw+部署文档+讲解),源码可白嫖!
  • HarmonyOS-ArkUI Grip组件
  • Charles汉化步骤 charles中文版怎么用
  • 凝视型高光谱相机:钻石光谱分析研究与应用
  • PoE交换机如何助力智慧城市基础设施建设?
  • C# 如何检查给定的四个点是否形成一个正方形(How to check if given four points form a square)
  • docker ssh远程连接
  • uni app跨端开发遇到的问题
  • Linux搭建本地时间服务器及时间同步
  • mysql中show命令的使用
  • react-activation 实现页面保活记录
  • 前端模拟 websocket 请求小工具
  • mac vim命令快捷键
  • LeetCode热题100精讲——Top7:接雨水【双指针】
  • 树莓派5-GPIO和40针引脚
  • 万网怎么建立网站/搜索量用什么工具查询
  • 域名和网站空间相互做解析/优化网站打开速度
  • 网页网站公司如何做备份/域名访问网站
  • 海口免费建站/怎么自己注册网站
  • 做直播券的网站有多少钱/大数据精准营销的策略
  • 物流公司网站建设方案/贵州百度seo整站优化