无序抓取系列(四)
文章目录
一 摘要
二 资源
三 内容
一 摘要
二 资源
文章:Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes
代码:https://github.com/THU-VCLab/HGGD
日期:2023年
三 内容
1)摘要
在杂乱场景中快速、稳健地抓取物体是机器人技术的重要组成部分。目前大多数工作都采用整个观测点云进行 6-Dof 抓取生成,忽略了从全局语义中挖掘的指导信息,从而限制了高质量的抓取生成和实时性能。在这项工作中,我们表明广泛使用的热力图在 6-Dof 抓取生成的效率方面被低估了。因此,我们提出了一种有效的局部抓取生成器,结合抓取热力图作为指导,以全局到局部语义到点的方式进行推理。具体来说,应用高斯编码和基于网格的策略来预测抓取热力图,作为将局部点聚合到可抓取区域并提供全局语义信息的指导。此外,设计了一种新的非均匀锚点采样机制,以提高抓取的准确性和多样性。得益于图像空间的高效编码,聚焦局部可抓取区域的点,我们的框架可以实时进行高质量的抓取检测,达到最先进的效果。此外,真实的机器人实验证明了该方法的有效性,成功率为 94%,杂波完成率为 100%。
2)创新点
①提出了一种新的全局到局部语义到点 6 自由度抓取检测框架,通过低成本的训练程序实时实现最先进的性能。
②通过提出的高斯编码和基于网格的策略预测 grasp 属性热力图,显著提高了编码效率并减小了 grasp 生成的局部输入大小。
③设计了一种新颖的非均匀锚点采样机制的局部抓取生成器,以精确生成密集抓取,额外的局部语义到点特征融合使抓取生成更加鲁棒。
3)算法结构
A 总体结构
我们的目标是以新颖的全局到局部语义到点的方式有效地生成高质量和丰富的抓取位姿,如上图所示,我们的方法不是直接处理观察到的点云,而是输入 RGBD 图像,将抓取热图编码为可抓取的区域引导。在关键热图指导下,仅提取和融合这些区域的语义和几何表示。然后,一种新的本地抓取生成器使 HGGD(HeatmapGuided 6-Dof 抓取检测)能够实时检测高质量和多样性的抓取。我们的模型包括两个子模块:Grasp Heatmap Model (GHM) 和非均匀多抓取生成器 (NMG)。
B GHM
GHM 是一个编码器-解码器模型,包含两个输出分支,一个是旨在构建抓取置信度热力图 Qc 的置信度分支,另一个是旨在生成属性热力图(Qθ、Qw、Qd)的属性分支。由于热力图之间的特性不同,我们应用了高斯编码和基于网格的策略来解耦这项任务。如上图所示,真实样本的 6 自由度抓取被投影到图像平面并编码为热力图(Qˆ c、Qˆ θ、Qˆw、Qˆ d)。
高斯编码策略采用 2D 高斯内核在训练前对投影的 grasp ground truth centers 进行编码。这种方法可以有效地突出显示抓取中心,而不会忽略附近的像素,因为附近的像素也将作为进一步抓取检测的有用指导。用于训练的置信度热力图中像素 (u, v) 的值可以通过以下方式计算:
其中 (u0, v0) 表示 grasp 真实抓取的中心点,σg 是标准差,取决于每个 grasp 的宽度。在 Qˆ c 的监督下,置信度分支应用像素分类来预测 Qc。
所提出的基于网格的策略编码是预测特定局部网格内的抓取属性 (θ, w, d),而不是直接的像素回归。由于几何结构相似,Grasp 属性通常在这些区域中具有高度相似性。因此,通过充分利用相邻抓取的相似性,可以实现更稳健的抓取属性预测。具体来说,将全尺寸图像分为边长为 r 的 Hr × Wr 网格单元。基于定向锚箱机制,对于每个网格单元,引入了具有均匀采样角度的多个定向锚点。因此,可以将真值 θ 分配给最近的锚点。我们得到每个网格中锚点的数量分布,然后应用一个 sigmoid 函数来获得 Qˆ θ。此外,我们计算网格中的平均归一化 w、d 以获得真实属性热图 (Qˆw, Qˆ d)。在这些热图的监督下,属性分支通过锚点分类和偏移回归的组合来预测 Qθ,并通过直接回归来估计 (Qw, Qd)。
以前的方法,将 grasps 编码为像素级矩形,存在两个缺陷。首先,他们没有强调在中心点处最可观的抓取概率的重要性。其次,真实抓取样本属性热力图(Qˆ θ、Qˆw、Qˆ d)不如置信度热图 Qˆ c 平滑,因为在杂乱的场景中有相对密集的抓取注释。相比之下,设计的 GHM 可以突出显示抓取中心并预测更强大的抓取属性,尤其是在杂乱的场景中。
C NMG
NMG 以热力图和场景点云为输入,在热力图的引导下高效聚合多个可抓取的局部区域。随后,利用每个格网中的抓取属性,NMG 预测剩余的抓取旋转属性,并优化由局部要素生成的先前属性以生成多个抓取。所提出的非均匀锚点采样机制提高了抓取质量,新颖的语义到点特征融合有助于提高检测到的抓取的鲁棒性。根据功能的不同,NMG 的整体结构可以分为两部分,Heatmap-Guided Region Aggregation 和 Non-uniform Multi-Grasp Generator。
c1 Heatmap-Guided Region Aggregation
NMG 的第一部分将热力图和点云处理成有用的本地特征,包括两个步骤:区域聚合和特征融合。
首先,区域聚合在GHM 热力图的指导下,将局部点聚合为可抓取区域,用于后续的多抓生成器;具体来说,抓取置信度热图通过双线性插值下采样 为 Hr × Wr,其形状与属性热图相同。然后,选择预测置信度最高的前 k个网格,其中包含作为区域中心的 k个局部峰值总数。这种基于网格的选择会抑制中心密度,以减少重复区域的聚集。在训练期间,k设置为更大的数字,以确保提取大多数可掌握的局部区域。在推理过程中,可以方便地调整 k,实现不同覆盖率的抓取检测。
之后,我们使用相机内参 c 在 3D 空间中将具有相应深度 d 的像素中心 (u, v) 转换为点中心 (x, y, z),使用球查询来裁剪球体内的点,每个中心的半径为预测的抓取宽度 w。在每个局部球区中,通过最远点采样对 Ng 点进行采样,以降低后续计算的复杂度,同时最大程度地保持局部几何信息。
此外,GHM 中提取的像素级特征包含丰富的语义信息,可以合理地补充局部点云。因此,我们设计了一种新的基于PointNet的轻量级网络,具有语义到点特征融合,用于局部特征提取。整个过程如上面的上图所示,其中像素特征通过 KNN作分组到每个局部点。然后,我们通过逐点连接将池化特征与点特征集成,以便进一步提取特征。通过进行 KNN 分组并将共享 MLP(多层感知器)与最大池化相结合,我们在以下抓取生成器中考虑了局部几何和语义信息,从而提高了抓取的鲁棒性,尤其是在点云输入不可靠时。
c2 Non-uniform Multi-Grasp Generator
NMG 的第二部分采用基于锚点的方法通过局部特征检测抓取,由非均匀锚点采样和多抓取生成器组成。如上图所示,我们通过迭代锚点移位生成非均匀旋转锚点,并在每个局部区域进行多标签分类以生成多个抓取。值得注意的是,中心点细化是为了减轻第一阶段产生的误差并获得更精确的结果。
聚合局部区域后,只需确定 2D 旋转(γ、β)。因为在 [− π/2 , π/2 ] 中两个角度都是连续的,所以基于锚点的方法被证明比直接回归具有更好的定位精度。大多数前者在球面上均匀地预定义接近向量以进行抓取旋转预测,而实际分布被证明是不均匀的。因此,旋转预测精度和时间效率之间不可避免地存在权衡,这意味着更密集的锚点提供更好的准确性,但速度较慢。与之前的方法不同,我们提出了一种在训练过程中应用的新型 anchor shifting算法,逐渐移动我们的 anchor 以最小化 anchor 与获得的抓取旋转分布之间的拟合误差,成功地以更少的 anchor 获得更高的性能。为了简化这个问题,我们同等考虑 γ 和 β,并以 γ 为例。累积 K 个抓取和 kr 定义的锚点 γ ̃ 的锚点移动目标可以表述如下:
其中,我们的抓取锚点定义为 γ ̃ ∈ [− π /2 , π /2 ] kr×1 ,Bγ ∈ {0, 1} kr×K 表示每个抓取真实值的最近锚点索引的one-hot编码。γˆ ∈ [− π /2 , π /2 ] K×1 是训练过程中累积 K 个选定的抓取真实值的旋转角度。
我们在整个训练过程中进行 anchor shift 移动,在算法 1 中表示为 python 风格的伪代码:
同时,通过锚点移位,在局部抓取地面事实的监督下,我们的多抓生成器以区域聚合特征为输入,并将两个角度的锚点组合在一起,形成更高维度 (k 2 r-class) 多标签分类问题。然后,利用 MLP 生成多标签分类结果,并在每个局部区域形成多个抓取。第一阶段的误差,尤其是中心定位的误差,可能会影响抓取生成器的性能,这是不可忽视的。因此,我们的多抓生成器不仅预测抓握旋转属性,还通过回归每个锚点的 3 维中心偏移来优化第一阶段估计的抓握中心。
4)实验
Dataset:GraspNet-1Billion和自定义构建的仿真数据集TS-ACRONYM。
首先,我们将 HGGD 与 TSATUNEM 上最先进的技术进行比较,包括 GPD、PointNetGPD、S4g 和 REGNet。如上表所示,HGGD 在 CR、AS 和 CFR 指标上明显优于其他方法,这表明 HGGD 可以产生更精确和密集的抓取。
同时,上图表明,当 CR 增加时,HGGD 对抓握质量的下降影响更可接受。至于时间效率,由于其轻量级架构和避免冗余点处理,HGGD 可以以大约 28 毫秒的实时速度检测抓取,比以前的任何工作都快得多。我们在 GraspNet-1Billion 数据集上训练的模型由 AP 进行评估,并与其他方法进行比较。如下表所示,在保证方法效率的前提下,与 REGNet 相比,我们的方法在所有可见的、相似的和未见的数据集上实现了不可忽视的 AP 性能提升,证明了 HGGD 的有效性。与抓取性能相当的模型相比,HGGD 的速度几乎快了三倍,并且可以实时运行,并且在困难的场景(AP0.4,意味着更低的摩擦系数)和未见场景中表现更好。
如下图所示,可视化结果还证明,HGGD 可以预测比 REGNet 更密集、更高质量的抓取,这得益于所提出的全局到局部和语义到点方案的有效性
如下表所示,基线方法在每个评估指标上的性能都如预期般糟糕。当为局部区域聚合提供热图指导时,所有性能指标都会显著提高,这证明热图指导对于抓取检测管道挖掘可抓取区域至关重要。NMG 中心精修模块的消融实验证明,局部几何特征可以显著提高 GHM 中抓取位置精度并降低预测误差的影响。然后,通过在训练过程中调整锚点,HGGD 成功降低了锚点拟合误差,提高了检测到的抓取质量,尤其是在 CR 和 AS 中。得益于非均匀锚点采样机制,将传统的单标签分类扩展到多标签分类非常简单,使 HGGD 能够检测每个局部区域中的多个潜在可抓取旋转。多标签分类成功地将 HGGD 的抓取质量和多样性提升到更高的水平。
5)结论
该文章提出了一种新颖的端到端 6-Dof 抓取位姿检测框架,适用于杂乱场景。通过全局到局部和语义到点方案,HGGD 在两个具有代表性的数据集中实现了最先进的性能,比以前的所有方法都快得多。但是,我们的框架是基于单视图的开环,阻碍了更复杂场景中的应用程序。未来,我们打算将其用于闭环抓取检测,赋予机器人在接近目标物体时调整预测的抓取姿势,并巧妙地对不断变化的环境做出反应。