当前位置: 首页 > news >正文

论文笔记 | Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

论文地址:Beyond Pick-and-Place: Tackling Robotic Stacking of Diverse Shapes

概述:本文提出 RGB-Stacking 基准测试,研究如何仅凭 RGB 摄像头视觉和本体感知,实现机器人对 复杂几何物体的高效堆叠。通过结合仿真专家训练、交互式模仿学习与现实世界离线强化学习,提出的系统成功实现了 从仿真到现实世界的零样本迁移,展现出优秀的泛化能力与鲁棒性。


🎯 背景与动机

尽管近年来机器人抓取与操作任务取得显著进展,但多数研究依然局限于单一抓取任务或立方体等规则物体的堆叠场景。

然而,现实世界物体的堆叠任务通常面临:

  • 不规则几何形状

  • 不稳定接触动力学

  • 多方向抓取与放置挑战

因此,本文旨在推动 从“拾取-放置”向“几何理解与策略堆叠”的迁移,设立更具挑战性的任务基准,并探索高效学习与迁移方法。


1️⃣ RGB-Stacking 基准测试设计

🧱 多样化物体集

  • 共 152 个 程序生成 + 3D 打印物体

  • 基于立方体的变形设计:

    • 4 种主变形轴:多边形、梯形、矩形、平行四边形

    • 组合变形物体用于训练集,主轴物体用于测试集

🧪 任务类型

  1. 技能掌握任务(Skill Mastery)

    • 给定 5 对固定物体组合

    • 需处理精细抓取、重心平衡、角度翻转等操作挑战

  2. 泛化任务(Generalization)

    • 从训练物体学习策略,迁移到测试集中的全新物体组合

✅ 成功判定标准

  • 红色物体堆叠于蓝色物体上

  • 水平误差 < 3cm垂直距离 > 2.5cm

  • 放置后夹爪完全打开


2️⃣ 方法总览:三阶段训练框架

阶段内容技术亮点
① 仿真训练专家策略在仿真中训练状态专家策略使用 MPO 强化学习算法;塑形奖励提升学习效率
② 视觉策略蒸馏蒸馏专家策略至视觉策略采用交互式模仿学习(IIL);域随机化提升迁移鲁棒性
③ 离线强化学习优化用现实数据进一步优化策略BC-IMP 与 CRR-IMP 算法,提升堆叠成功率

亮点细节:

  • 使用 Transformer 架构 表征视觉策略

  • 设置 二进制夹爪动作(抓/放)简化学习难度

  • 利用域随机化适应现实中变化的颜色、质感、光照等属性


3️⃣ 实验结果分析

💻 仿真实验

方法技能掌握任务泛化任务
人类遥操作46.6%-
脚本 Agent43.1%-
状态专家策略(MPO)79.3%68.8%
行为克隆(BC)52.4%-
交互模仿学习(IIL)74.2%-

✅ IIL 显著优于行为克隆:能通过交互纠正策略错误,学习更加稳健。

🤖 现实世界迁移

策略类型技能掌握任务泛化任务
零样本 IIL 策略67.9%51.9%
零样本 + 离线 RL(CRR-IMP)81.6%55.6%

🔍 关键影响因素:

  • 使用 二进制夹爪动作:迁移成功率提升 3 倍(20.7% → 67.9%)

  • Transformer 架构 显著增强泛化能力

  • 离线 RL 效果依赖于高质量数据(仿真迁移策略 > 脚本 Agent)


4️⃣ 关键发现与洞见

✅ 1. 仿真 → 现实零样本迁移是可行的

借助域随机化与 IIL,即使未在真实世界训练,策略依然能稳定迁移并完成任务。

✅ 2. 交互模仿学习优于纯行为克隆

引入 DAgger 风格的交互训练能及时纠正学生策略偏差,使视觉策略更强鲁棒性。

✅ 3. 离线 RL 可显著提升现实世界策略表现

CRR-IMP 能过滤低质量数据,通过优势函数重加权训练样本,有效提升成功率。

✅ 4. 设计细节影响巨大

  • 夹爪控制方式简化了策略学习

  • Transformer 提升了复杂几何场景中的理解与泛化能力


❓关键问题答疑

Q1:RGB-Stacking 有何创新?

  • 提供多样几何物体组合(152 个),覆盖真实场景复杂堆叠需求

  • 超过 5 万次现实评估,远超以往任务规模

  • 兼顾技能掌握与策略泛化两大挑战

Q2:为何能实现仿真到现实的零样本迁移?

  • 域随机化模拟多样现实视觉与物理属性

  • IIL 框架主动纠正错误,提升策略稳定性

  • 简化控制动作空间,降低迁移难度

Q3:离线强化学习为什么有效?

  • 基于仿真迁移策略收集的数据覆盖更多复杂策略

  • CRR-IMP 利用优势函数过滤低效策略,专注高价值行为


✍️ 总结

RGB-Stacking 基准和三阶段策略训练系统展示了机器人在复杂几何场景中实现高效、鲁棒、可泛化堆叠的可能性。该研究为“从仿真到现实”的策略迁移,以及融合视觉与交互式学习的方法,提供了清晰且有效的路径。这项工作不仅扩展了堆叠任务的研究范围,也为后续研究提供了 高难度评测平台与可复现的训练范式

http://www.dtcms.com/a/292268.html

相关文章:

  • 2025.7.25论文阅读
  • 基于AutoJawSegment项目的CBCT图像分割实践指南
  • ES--为什么没有完全删除?
  • 机器人氩弧焊保护气降成本的方法
  • KGF60N65KDF-U/H KEC:650V超级硅MOSFET,超低导通电阻+超快开关速 电源设计专用!
  • 基于Spark图计算的社会网络分析系统
  • 一款基于 WPF 开源、功能全面的串口调试工具
  • 刘强东突然重仓机器人赛道,京东连投3家机器人公司
  • n8n - 为技术团队提供安全的自动化工作流
  • 16:00开始面试,16:06就出来了,问的问题有点变态。。。
  • iOS WebView 调试实战 localStorage 与 sessionStorage 同步问题全流程排查
  • Elasticsearch服务器开发(第2版) - 读书笔记 第一章 Elasticsearch集群入门
  • 传统RNN模型
  • NLP自然语言处理的一些疑点整理
  • 【CVPR 2025】即插即用DarkIR, 频域-空间协同的高效暗光恢复!
  • 深度学习 ---参数初始化以及损失函数
  • 从0到1学Pandas(一):Pandas 基础入门
  • Mixed Content错误:“mixed block“ 问题
  • React + ts 中应用 Web Work 中集成 WebSocket
  • linux初识网络及UDP简单程序
  • 2025年母单脱焦虑计划:社交恐惧者的塔罗赋能训练营
  • leetcode 1695. 删除子数组的最大得分 中等
  • 二分查找-852.山峰数组的峰顶索引-力扣(LeetCode)
  • 力扣 hot100 Day52
  • LeetCode 633.平方数之和
  • XML高效处理类 - 专为Office文档XML处理优化
  • Mysql-场景篇-2-线上高频访问的Mysql表,如何在线修改表结构影响最小?-1--Mysql8.0版本后的INSTANT DDL方案(推荐)
  • 【MySQL】MySQL基本概念
  • NISP-PTE基础实操——命令执行
  • MySQL高可用主从复制原理及常见问题