当前位置：首页 > news >正文

斯坦福大学联合项目 | ReKep 方法论文解读：机器人操作中关系关键点约束的时空推理

news 2025/8/16 4:06:28

研究背景

传统机器人操作任务中，让机器人完成各种操作任务，通常需要明确它和周围环境的互动规则，缺乏扩展性，难以通过现有求解器实时生成动作。

为了解决这些问题，研究团队提出了“关系关键点约束（ReKep）” 方法。用Franka机械臂实验验证其有效性，为机器人灵活操作提供新思路，推动技术进步。

ReKep概述：先用DINOv2从摄像头拍摄的图像里，找出场景中重要的关键点（比如物体的关键部位）；再把带这些关键点的图像和任务指令（比如 “倒茶”）传给GPT-4o，让它生成一系列Python程序形式的约束规则，规定不同步骤中关键点该有的位置关系；最后用优化工具根据这些规则，算出机器人末端该怎么动。整个过程不用额外训练，也不用针对具体任务准备数据。

研究中的核心方法

将操作任务表示为基于 3D 关键点的 Python 函数约束，通过大型视觉模型和视觉 - 语言模型自动生成约束，再利用分层优化程序实时求解机器人末端执行器位姿，实现多场景操作任务。

图解：把机器人要做的事，转化成一系列关于“关键点”（比如茶壶把手、杯口这些重要位置）的规则，再让模型自动生成这些规则，最后快速算出机器人的动作。这样一来，机器人不用专门学某个任务，也能在各种场景下灵活干活，比如在厨房倒茶、和人一起折毯子，甚至被打扰了也能调整动作。

实验涉及的硬件设备与环境

实验基于两种硬件平台，核心设备如下：

机械臂

单臂平台：1个Franka机械臂，搭载于Vention框架轮式底座（无自主移动能力，用于扩展作业范围）；
固定式双臂平台：2个Franka机械臂，安装于桌面工作区前方，支持双臂协作。

传感器

单臂平台：2个Orbbec Femto Bolt RGB-D相机，安装于机器人两侧，面向工作区中心，以20Hz频率采集RGB图像和点云；
固定式双臂平台：3个Orbbec Femto Bolt RGB-D相机，分别安装于左侧、右侧和后方，同样以20Hz频率采集数据。

控制与计算

采用位置控制（20Hz），通过 PyBullet 的 IK 求解器计算关节位置，结合 Deoxys 的关节阻抗控制器执行动作；
优化求解依赖 SciPy 库，使用 Dual Annealing（全局优化）和 SLSQP（局部优化）算法。

实验设计与验证

实验围绕三大研究问题展开，覆盖多场景任务与性能评估：

任务设计

单臂任务：倒茶（多阶段 + 抗干扰）、回收易拉罐、整理书籍、胶带封箱（协作 + 抗干扰）；
双臂任务：折叠衣物、打包鞋子、协作折叠（与人类配合 + 抗干扰）；
泛化测试：针对 8 类衣物（毛衣、衬衫等）的折叠策略泛化性验证。

AI科研领域最强“助手”

验证方式

每个任务 10 次试验，随机化物体初始位姿；
抗干扰测试中，由人工在执行过程中改变物体位姿；
折叠任务中，通过 GPT-4o 评估策略可行性，再测试实际执行效果。

设计了七个任务来验证我们系统的不同方面，包括结合常识知识的野外规范、具有时空依赖性的多阶段任务、具备几何感知的双手协调，以及在与人类协作和受到干扰时的反应能力。

对比与评估指标

对比基线：VoxPoser（现有视觉 - 语言驱动方法）；
自研变体：“Auto”（全自动生成 ReKep）、“Annotated”（人工标注 ReKep）；
指标：任务成功率、抗干扰能力（外部扰动下的成功率）、策略可行性（“Strategy Success”）与执行成功率（“Execution Success”）。

表1：轮式单臂和固定双臂平台的成功率。

表2：两个机器人平台在外部干扰下的成功率。

研究关键成果与突破

通用性与扩展性

支持多场景操作：无需任务特定数据，即可完成多阶段、野外环境、双臂协作、抗干扰任务（如倒茶成功率：Auto为3/10，Annotated为8/10，远超VoxPoser的 0/10）。
泛化能力强：在8类衣物折叠任务中，执行成功率达73.8%，策略成功率达52.5%，可生成符合人类直觉的折叠策略（如同时折叠两袖）。