当前位置: 首页 > news >正文

斯坦福大学联合项目 | ReKep 方法论文解读:机器人操作中关系关键点约束的时空推理

研究背景

传统机器人操作任务中,让机器人完成各种操作任务,通常需要明确它和周围环境的互动规则缺乏扩展性难以通过现有求解器实时生成动作

为了解决这些问题,研究团队提出了关系关键点约束(ReKep” 方法。Franka机械臂实验验证其有效性,为机器人灵活操作提供新思路,推动技术进步。

ReKep概述:先用DINOv2从摄像头拍摄的图像里,找出场景中重要的关键点(比如物体的关键部位);再把带这些关键点的图像和任务指令(比如 “倒茶”)传给GPT-4o,让它生成一系列Python程序形式的约束规则,规定不同步骤中关键点该有的位置关系;最后用优化工具根据这些规则,算出机器人末端该怎么动。整个过程不用额外训练,也不用针对具体任务准备数据。

研究中的核心方法

将操作任务表示为基于 3D 关键点的 Python 函数约束,通过大型视觉模型和视觉 语言模型自动生成约束,再利用分层优化程序实时求解机器人末端执行器位姿,实现多场景操作任务

图解:把机器人要做的事,转化成一系列关于关键点(比如茶壶把手、杯口这些重要位置)的规则,再让模型自动生成这些规则,最后快速算出机器人的动作。这样一来,机器人不用专门学某个任务,也能在各种场景下灵活干活,比如在厨房倒茶、和人一起折毯子,甚至被打扰了也能调整动作

实验涉及的硬件设备与环境

实验基于两种硬件平台,核心设备如下:

机械臂

  • 单臂平台:1Franka机械臂,搭载于Vention框架轮式底座(无自主移动能力,用于扩展作业范围);

  • 固定式双臂平台:2Franka机械臂,安装于桌面工作区前方,支持双臂协作。

传感器

  • 单臂平台:2Orbbec Femto Bolt RGB-D相机,安装于机器人两侧,面向工作区中心,以20Hz频率采集RGB图像和点云;

  • 固定式双臂平台:3Orbbec Femto Bolt RGB-D相机,分别安装于左侧、右侧和后方,同样以20Hz频率采集数据。

控制与计算

  • 采用位置控制(20Hz),通过 PyBullet 的 IK 求解器计算关节位置,结合 Deoxys 的关节阻抗控制器执行动作;

  • 优化求解依赖 SciPy 库,使用 Dual Annealing(全局优化)和 SLSQP(局部优化)算法。

实验设计与验证

实验围绕三大研究问题展开,覆盖多场景任务与性能评估:

任务设计

  • 单臂任务:倒茶(多阶段 + 抗干扰)、回收易拉罐、整理书籍、胶带封箱(协作 抗干扰);

  • 双臂任务:折叠衣物、打包鞋子、协作折叠(与人类配合 + 抗干扰);

  • 泛化测试:针对 8 类衣物(毛衣、衬衫等)的折叠策略泛化性验证。

AI科研领域最强“助手”

验证方式

  • 每个任务 10 次试验,随机化物体初始位姿;

  • 抗干扰测试中,由人工在执行过程中改变物体位姿;

  • 折叠任务中,通过 GPT-4o 评估策略可行性,再测试实际执行效果。

计了七个任务来验证我们系统的不同方面,包括结合常识知识的野外规范、具有时空依赖性的多阶段任务、具备几何感知的双手协调,以及在与人类协作和受到干扰时的反应能力。

对比与评估指标

  • 对比基线:VoxPoser(现有视觉 语言驱动方法);

  • 自研变体:“Auto”(全自动生成 ReKep)、“Annotated”(人工标注 ReKep);

  • 指标:任务成功率、抗干扰能力(外部扰动下的成功率)、策略可行性(“Strategy Success”)与执行成功率(“Execution Success”)。

1:轮式单臂和固定双臂平台的成功率。

2:两个机器人平台在外部干扰下的成功率。

研究关键成果与突破

通用性与扩展性

  • 支持多场景操作:无需任务特定数据,即可完成多阶段、野外环境、双臂协作、抗干扰任务(如倒茶成功率:Auto3/10Annotated8/10,远超VoxPoser的 0/10)。

  • 泛化能力强:在8类衣物折叠任务中,执行成功率达73.8%,策略成功率达52.5%,可生成符合人类直觉的折叠策略(如同时折叠两袖)。

自动化与实时性

全自动约束生成:通过LVMVLM实现从自然语言到约束函数的转化,无需人工标注;

实时优化:分层求解器支持约10Hz的闭环控制,可动态响应环境变化(如物体被移动时回溯重规划)。

技术突破

首次将视觉 - 语言模型与数值优化结合,实现6-12自由度机器人动作的精准控制;

提出关键点关系约束,规避了传统刚体变换表示的局限性(如依赖物体模型、无法处理可变形物体)。

结语

ReKep方法通过关系关键点约束的时空推理,为机器人操作提供了一种通用、自动化、实时的解决方案,突破了传统方法对任务特定数据和人工标注的依赖。基于 Franka机械臂的实验验证表明,该方法可有效应对多场景操作挑战,为通用机器人技术的发展提供了新范式。

未来,随着视觉-语言模型的迭代,ReKep在长周期任务、复杂关节物体操作等场景的鲁棒性有望进一步提升,推动机器人在家庭、工业等领域的实用化进程。

http://www.dtcms.com/a/329309.html

相关文章:

  • AutoCAD 各版本与插件合集详解:Architecture、Plant 3D、Civil 3D 等
  • 猿大师中间件:Chrome网页内嵌PhotoShop微信桌面应用程序
  • [Linux]学习笔记系列 -- [arm][process]
  • Node.js面试题及详细答案120题(16-30) -- 核心模块篇
  • AXIOS 入门
  • 2025 环法战车科技对决!维乐 Angel Glide定义舒适新标
  • 2025年最新Java后端场景面试题(大厂真题+解析)
  • 低空经济相关技术在智能建造与建筑行业有什么用处?
  • 图论理论部分
  • wps--设置
  • 读《精益数据分析》:双边市场的核心指标分析
  • 宿舍限电模块在宿舍改造项目中功能选择
  • Java数据库编程之【Derby数据库】【JDBC创建数据库例程】【三】
  • 【Java web】HTTP 与 Web 基础教程
  • el-select如何获取到filterable过滤后的数据;el-select全选与filterable过滤组合使用;
  • (30)python+playwright自动化测试处理日历时间控件-下
  • 解决H616编译路径问题
  • 第一章 OkHttp 是怎么发出一个请求的?——整体流程概览
  • dp+e2e论文词汇积累自查
  • Microsoft Whiteboard功能深度解析:企业协作与创意管理的智能画布
  • ce找基地址简单版
  • 如何准备一场技术演讲
  • Unity新手制作跑酷小游戏详细教程攻略
  • C语言相关简单数据结构:顺序表
  • 【QT】QT实现鼠标左右滑动切换图片
  • 云下的rocketMq切换为阿里云RocketMq报错:No route info of this topic
  • sensor的成像波长和量子效应
  • 全面深入-JVM虚拟机
  • 多语言文本 AI 情感分析 API 数据接口
  • scikit-learn/sklearn学习|岭回归linear_model.Ridge()函数解读