当前位置: 首页 > news >正文

论文笔记(八十六)V-HOP: Visuo-Haptic 6D Object Pose Tracking

V-HOP: Visuo-Haptic 6D Object Pose Tracking

  • 文章概括
  • 摘要
  • 1. 引言
  • 2.背景
    • A. 问题定义
    • B. 触觉表示
      • 基于单元阵列的传感器
      • 基于视觉的传感器
  • 3. 方法学
    • A. 手爪表示
    • B. 物体表示
    • C. 网络设计
    • D. 训练范式
  • IV. 实验
    • A. 多形态数据集
    • B. 位姿跟踪比较
    • C. 模态消融
    • D. 融合策略消融
    • E. 遮挡对性能的影响
    • F. 在 FeelSight 上的位姿跟踪
  • V. 仿真到现实迁移实验
    • A. 位姿跟踪实验
    • B. 双臂移交实验
    • C. 杯中插罐实验
    • D. 各模态贡献
  • VI. 相关工作
  • VII. 局限性
  • VIII. 结论
  • 致谢

文章概括

引用:

@article{li2025v,title={V-HOP: Visuo-Haptic 6D Object Pose Tracking},author={Li, Hongyu and Jia, Mingxi and Akbulut, Tuluhan and Xiang, Yu and Konidaris, George and Sridhar, Srinath},journal={arXiv preprint arXiv:2502.17434},year={2025}
}
Li, H., Jia, M., Akbulut, T., Xiang, Y., Konidaris, G. and Sridhar, S., 2025. V-HOP: Visuo-Haptic 6D Object Pose Tracking. arXiv preprint arXiv:2502.17434.

主页:
原文: https://arxiv.org/abs/2502.17434
代码、数据和视频: https://ivl.cs.brown.edu/research/v-hop

系列文章:
请在 《 《 文章 》 》 专栏中查找



宇宙声明!


引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!


摘要

人类在操作过程中自然而然地融合视觉和触觉,以实现对物体的鲁棒感知。任一感知模态的缺失都会显著降低性能。受这种多感官融合的启发,先前的物体位姿估计研究尝试将视觉与触觉/触感反馈结合。尽管这些方法在受控环境或合成数据集上取得了性能提升,但在真实世界场景中,往往因手爪类型、传感器布局或仿真到现实差异的泛化能力不足,而不如仅视觉的方法表现优异。此外,它们通常对每一帧独立估计物体位姿,导致在真实序列跟踪时连贯性较差。

为了解决这些局限,我们提出了一种新颖的统一触觉表示,该表示能够有效处理多种手爪形态。在此基础上,我们引入了一种基于可视-触觉 Transformer 的物体位姿跟踪器,能够无缝融合视觉和触觉输入。我们在自有数据集和 Feelsight 数据集上验证了该框架,在具有挑战性的序列上取得了显著的性能提升。值得注意的是,我们的方法在新的手爪形态、物体和传感器类型(包括基于单元阵列的触觉传感器和基于视觉的触觉传感器)上均表现出优异的泛化性和鲁棒性。在真实世界实验中,我们的方法较最先进的视觉跟踪器大幅领先。此外,我们还展示了如何将我们的实时物体跟踪结果整合到运动规划中,以实现精确的操作任务,进一步凸显了可视-触觉感知的优势。项目网站:https://ivl.cs.brown.edu/research/v-hop。


1. 引言

精确跟踪物体位姿是机器人操控的核心能力,将使基于高效模仿学习或强化学习的接触丰富和灵巧操作成为可能 [68,31,23]。最近的最先进物体位姿估计方法,如 FoundationPose [70],通过利用大规模数据集显著推进了视觉跟踪。但仅依赖视觉信息感知物体在接触丰富或手中操作场景中,尤其是在存在严重遮挡和快速动态变化时,仍然具有挑战性。

认知科学研究表明,人类在操作过程中自然而然地融合视觉和触觉信息,以实现对物体的鲁棒感知 [46,12,28]。例如,Gordon 等人 [15] 证明了人类使用视觉来假设物体属性,再利用触觉来优化精确抓取。人类的“触觉”由两种不同的感受组成 [42,6]:皮肤感受(cutaneous sense),用于检测皮肤表面的刺激;以及本体感受(kinesthesis),提供静态和动态的身体姿态信息。这种融合被称为触觉感知,使人类能够有效地感知和操控物体 [28]。在机器人领域,类似能力通过触觉传感器(皮肤感受)和关节传感器(本体感受)来实现 [46]。

受人类触觉感知能力的启发,研究者几十年来一直探索视觉与触觉在机器人中的集成。早在 1988 年,Allen [1] 就提出了结合这两种模态的物体识别系统。最近,数据驱动方法出现,用于利用视触信息进行物体位姿估计 [32,54,8,61,50,59,14,33]。尽管这些方法前景可观,但它们面临两大障碍,限制了更广泛的应用:

  1. 跨手爪适配性: 大多数方法过拟合于特定的手爪或触觉传感器布局,降低了适应性。
  2. 域泛化能力: 与仅视觉基线相比,视触方法在泛化方面表现不佳,受到数据多样性不足和模型可扩展性差的限制。

此外,它们通常对每一帧独立处理,这会导致在现实序列跟踪中位姿连贯性较差。因此,现有方法难以广泛部署,往往需要针对特定机器人平台进行大量定制。

为了解决这些挑战,我们提出了 V-HOP(图1):一种可泛化的可视-触觉 6D 物体位姿跟踪的双重解决方案。


在这里插入图片描述图1:用于6D物体位姿跟踪的可视-触觉感知。我们融合自我中心视觉和触觉感知,实现精确的实时手内物体跟踪。


首先,我们引入了一种新颖的统一触觉表示,以促进跨手爪形态的学习。我们将触觉和本体感受以点云的形式结合,解决了可视-触觉学习中一个关键但常被忽视的方面。 其次,我们提出了一种基于 Transformer 的物体位姿跟踪器,用于融合视觉和触觉特征。我们利用视觉基础模型捕捉到的鲁棒视觉先验,同时引入触觉信息。V-HOP 能够适应多种手爪形态和不同物体,并能够泛化到新的手爪形态和物体。

我们使用 NVIDIA Isaac Sim 仿真器构建了一个包含八种手爪形态的多形态数据集,用于训练和评估。在我们的数据集中,与 FoundationPose [70] 相比,我们的方法在 ADD-S [72] 指标上实现了 5% 的位姿估计精度提升。这些结果突显了融合视觉与触觉传感的优势。

在 FeelSight 数据集 [54] 上,我们以 NeuralFeels [54](一种基于优化的可视-触觉物体位姿跟踪器)为基准测试,ADD-S 指标提升了 32%,运行速度提升了十倍。 最后,我们使用 Barrett Hands 进行了仿真到现实的迁移实验。我们的方法表现出卓越的鲁棒性,并显著优于 FoundationPose,后者在一些情况下会完全丢失物体跟踪(图5)。将我们的位姿跟踪结果集成到运动规划中后,我们的方法实现了平均成功率提高 40%。 据我们所知,V-HOP 是首个在基于单元阵列的触觉传感器(如 Barrett Hand)和基于视觉的触觉传感器(如 DIGIT 传感器),以及在新的手爪形态和物体上均展示出鲁棒泛化能力的数据驱动可视-触觉方法。

总之,本文的贡献有两方面:

  1. 统一的触觉表示:我们引入了一种新颖的触觉表示,支持跨手爪形态学习,通过提升对不同手爪形态和物体的适应性来应对跨形态挑战。
  2. 可视-触觉 Transformer:我们提出了一种融合视觉与触觉数据的 Transformer 模型,提升了位姿跟踪的一致性,并解决了领域泛化的难题。

2.背景

在本节中,我们首先给出问题的正式定义,然后回顾现有触觉表示及我们提出的统一表示。

A. 问题定义

我们研究基于模型的可视-触觉 6D 物体位姿跟踪问题,假设可获取:

  • 视觉观测:环境中由 RGB-D 传感器观测到的物体。
  • 触觉反馈:由安装有触觉传感器的刚性机械手操控的物体。

我们的方法以以下内容作为输入:

    1. 物体的 CAD 模型 M o \mathcal{M}_o Mo
    1. 一系列 RGB-D 图像 O = { O i } i = 1 t \mathcal{O}=\{\mathrm{O}_i\}_{i=1}^t O={Oi}i=1t,其中每个观测 O i = [ I i , D i ] \mathrm{O}_i=[\mathrm{I}_i,\mathrm{D}_i] Oi=[Ii,Di] 包含 RGB 图像 I i \mathrm{I}_i Ii 和深度图 D i \mathrm{D}_i Di
    1. 初始 6D 位姿 T 0 = ( R 0 , t 0 ) ∈ S E ( 3 ) \mathrm{T}_0=(\mathrm{R}_0,\mathrm{t}_0)\in \mathrm{SE}(3) T0=(R0,t0)SE(3),其中 R 0 ∈ S O ( 3 ) \mathrm{R}_0\in \mathrm{SO}(3) R0SO(3) 表示三维旋转, t 0 ∈ R 3 \mathrm{t}_0\in\mathbb R^3 t0R3 表示三维平移。

在实践中,真实初始位姿 T 0 \mathrm{T}_0 T0 难以获取,只能通过位姿估计方法 [72,62,48,36,63,30,70,27,18,40,37,57,67] 来估计。因此,以下我们将估计值 T ^ 0 \hat{\mathrm{T}}_0 T^0 视为 T 0 \mathrm{T}_0 T0。在每个时间步 i i i,模型根据所有输入估计物体位姿 T ^ i \hat{\mathrm{T}}_i T^i,其中初始位姿取前一时间步的估计 T ^ i − 1 \hat{\mathrm{T}}_{i-1} T^i1

以上输入为基于模型的视觉位姿跟踪问题中的标准输入 [66,7],下面的输入将用于我们的触觉表示,并将在后续章节中详细说明。

    1. 机械手在统一机器人描述格式(URDF)中的描述。
    1. 机械手关节位置 j = { j 1 , j 2 , … , j D o F } j=\{j_1,j_2,\dots,j_{DoF}\} j={j1,j2,,jDoF}
    1. 触觉传感器数据 S \mathcal{S} S,包括触觉传感器的位置 S p \mathcal{S}_p Sp 和读数 S r \mathcal{S}_r Sr,将在下一节中正式定义。
    1. 通过手眼标定 [44] 获得的相机与机器人坐标系之间的变换。

B. 触觉表示

触觉学习的有效性取决于其表示方式。以原始数值 [38]、图像 [16] 或基于图的 [75,33,50] 表示为特征的先前方法,常常难以在多种手爪形态上实现泛化。例如,Wu 等 [71] 和 Guzey 等 [16] 将 Xela 传感器的触觉信号投影为二维图像形式。这虽然能利用现有视觉模型高效处理,但要扩展到不同手爪或传感器布局却十分困难。同样地,Li 等 [33] 和 Rezazadeh 等 [50] 采用基于图的映射,将单元视为图顶点。然而,传感器布局的差异导致图的分布不同,从而产生显著的泛化差距。

与此相反,我们采用点云表示,该表示天然编码了三维位置,并且能够灵活适应多种手爪形态。我们将触觉传感器大致分为基于单元阵列(taxel-based)和基于视觉(vision-based)两类。有关触觉传感器的更全面综述,请参见 [74]。下面,我们概述了先前工作 [8,54,64,13] 中如何将它们转换为点云,为我们的统一框架铺路。

基于单元阵列的传感器

触觉数据定义为
S = { s i } i = 1 n t \mathcal{S}=\{s_i\}_{i=1}^{n_t} S={si}i=1nt
,包含 n t n_t nt 个单元, s i s_i si 表示单个单元。触觉数据由 S = ( S p , S r ) \mathcal{S}=(\mathcal{S}_p,\mathcal{S}_r) S=(Sp,Sr) 构成:

  • 位置 ( S p \mathcal{S}_p Sp):在机械手坐标系中定义,并通过正向运动学转换到相机坐标系。
  • 读数 ( S r \mathcal{S}_r Sr):捕捉接触值。通常根据阈值 τ \tau τ 将读数二值化为接触或非接触状态 [78,73,32,8,34]。

与机械手接触的单元集合:
S c = { s i ∈ S ∣ S r ( s i ) > τ } , \mathcal{S}_c=\{s_i\in \mathcal{S}\mid \mathcal{S}_r(s_i)>\tau\}, Sc={siSSr(si)>τ},
对应的触觉点云 S p , c \mathcal{S}_{p,c} Sp,c 定义为:
S p , c = { S p ( s i ) ∣ s i ∈ S c } . \mathcal{S}_{p,c}=\{\mathcal{S}_p(s_i)\mid s_i\in \mathcal{S}_c\}. Sp,c={Sp(si)siSc}.

基于视觉的传感器

对于基于视觉的触觉传感器 [29,79,10,56],触觉数据包括 S = ( S p , S I ) \mathcal{S}=(\mathcal{S}_p,\mathcal{S}_I) S=(Sp,SI)

  • 位置 ( S p \mathcal{S}_p Sp):在相机坐标系中的传感器位置,与基于单元阵列的情况类似。
  • 图像 ( S I \mathcal{S}_I SI):使用常规 RGB 图像表示捕捉接触状态。利用触觉深度估计模型 [3,54,26,53,52,2],我们可以将 S I \mathcal{S}_I SI 转换为触觉点云 S p , c \mathcal{S}_{p,c} Sp,c

先前工作 [8,54,64,13] 虽然也采用点云表示进行触觉学习,但它们只关注单一类型传感器,忽略了机械手姿态。我们的关键贡献是提出一个跨基于单元阵列和基于视觉传感器、覆盖多种手爪形态的统一表示,并借助我们的多形态数据集来赋能这一表示。我们在真实世界实验中演示了该表示在 Barrett 手(基于单元阵列)上的泛化能力,并在 Feelsight 数据集 [54] 上演示了在 Allegro 手(基于视觉的 DIGIT 传感器)上的泛化能力。我们新颖的触觉表示无缝整合了触觉信号与机械手姿态,使机械手与物体的交互推理更加有效。在后续章节中,我们将描述方法并提供实验证据,证明我们的表示能够提升泛化能力,弥合异构触觉传感模态之间的差距。


3. 方法学

我们提出 V-HOP,一种数据驱动方法,用于融合视觉和触觉模态,实现精确的 6D 物体位姿跟踪。我们的目标是构建一个可泛化的可视-触觉位姿跟踪器,以适应多种手爪形态和物体。我们首先概述触觉模态中使用的核心表示:手爪表示和物体表示。我们对表示的选择遵循渲染-比较范式 [35] 的思路。随后,我们介绍可视-触觉模型及其训练方式。

A. 手爪表示

触觉信号仅代表皮肤感受,而触觉感知结合了触觉和本体感受,以提供更全面的空间接触与操控信息。我们提出了一种新颖的触觉表示,将触觉信号和手爪姿态集成为统一的点云表示。该以手爪为中心的表示能够高效地推理空间接触和手爪–物体交互。

通过 URDF 定义和关节位置 j \text{j} j,我们利用正向运动学生成手爪网格 M h \mathcal{M}_h Mh 并计算其表面法线。

想象一下,你有一个机器人的 3D 模型文件(比如 OBJ 文件),它描述了机器人在“标准姿态”(比如所有关节都伸直)时的样子。这个模型是静止的。 现在,机器人手爪动起来了,它的关节会弯曲、伸展。“当前手爪姿态”就是指手爪所有关节(比如手指关节、腕部关节)在某一瞬间的具体角度或位置。


“当前手爪姿态对应的三维网格模型 M h \mathcal{M}_h Mh ​ ” 的意思就是: 当机器人手爪的关节处于某个特定的配置(即当前的关节角度 j)时,通过正向运动学(Forward Kinematics),我们可以计算出手爪上所有部分(比如手掌、每个手指、每个指节)在三维空间中的精确位置和方向。 然后,我们用这些计算出的位置和方向,“组装”出整个手爪在当前姿态下的完整 3D 几何模型。这个模型就是实时“摆出”当前姿势的机器人手爪的三维形状。

它是什么样子的?

它就是一个和你看上去的 3D 机器人手爪一模一样的模型,但它的姿态(手指弯曲、手腕倾斜等)是根据当前的关节角度实时变化的。你可以把它看作: 像一个 3D 打印模型:但这个模型是虚拟的,而且可以瞬间改变姿势。 像游戏里的 3D 角色模型:当角色挥拳、踢腿时,它的 3D 模型会根据骨骼关节的运动而变化形状,这里的机器人手爪模型也是类似。
与 OBJ 文件的关系:

手爪的原始几何形状(比如指节的圆柱体、手掌的方块等)可能确实存储在 OBJ 文件中。但 OBJ 文件只描述了部件本身的形状。 M h \mathcal{M}_h Mh 是将这些部件根据关节角度“拼装”起来,得到的一个完整的、当前姿态下的、统一的 3D 网格模型

下采样(Downsampling)就是减少数据点的数量,同时尽量保留数据的主要特征。对于三维网格,这意味着减少构成网格的顶点(vertices)和面(faces)的数量。

然后对网格进行下采样,以生成 9 维手爪点云 ( P h \mathcal{P}_h Ph 整体代表手爪的形状)
P h = { p i } i = 1 n h , p i = ( x i , y i , z i , n i x , n i y , n i z , c ) ∈ R 9 , (3) \mathcal{P}_h=\{\text{p}_i\}_{i=1}^{n_h},\quad \text{p}_i=(x_i,y_i,z_i,n_{ix},n_{iy},n_{iz},\text{c})\in\mathbb R^9, \tag{3} Ph={pi}i=1nh,pi=(xi,yi,zi,nix,niy,niz,c)R9,(3)
其中 x i , y i , z i x_i,y_i,z_i xi,yi,zi 表示点的三维坐标, n i x , n i y , n i z n_{ix},n_{iy},n_{iz} nix,niy,niz 表示三维法向量, c ∈ R 3 c\in\mathbb R^3 cR3 是一个独热编码的点标签:

  • [ 1 , 0 , 0 ] [1,0,0] [1,0,0]:接触中的手爪点;
  • [ 0 , 1 , 0 ] [0,1,0] [0,1,0]:未接触的手爪点;
  • [ 0 , 0 , 1 ] [0,0,1] [0,0,1]:物体点(用于后续与物体点云的融合)。

为了获得每个点的接触状态,我们将表示触觉传感器检测到的接触点的触觉点云 S p , c \mathcal{S}_{p,c} Sp,c(见第 II-B 节)映射到下采样的手爪点云 P h \mathcal{P}_h Ph。具体地,对于 S p , c \mathcal{S}_{p,c} Sp,c 中的每个点,我们寻找其在半径 r r r 范围内的 P h \mathcal{P}_h Ph 邻域点。这些邻域点被标记为“接触中”,其余点标记为“未接触”。半径 r r r 在训练过程中随机选择,而在机器人部署时根据每个单元的实际有效半径确定。最终得到的触觉点云 P h \mathcal{P}_h Ph 作为触觉和本体感受数据的统一表示(图 2)。


在这里插入图片描述图2:V-HOP 的网络设计。视觉模态基于 FoundationPose [70],使用视觉编码器将 RGB-D 观测(真实与渲染)转换为特征图,然后通过一个 ResBlock 进行拼接和精炼,以生成视觉嵌入 [11]。 触觉模态将统一的手爪–物体点云(由 9 维手爪点云 P h \mathcal{P}_h Ph 和物体点云 P o \mathcal{P}_o Po 导出)编码为触觉嵌入,以捕捉手爪与物体的交互。图中红点表示激活的触觉传感器。 这些视觉和触觉嵌入由 Transformer 编码器处理,用于估计三维平移和旋转。


B. 物体表示

我们将物体模型点云表示为
P Φ = { q i } i = 1 n o . \mathcal{P}_Φ=\{\text{q}_i\}_{i=1}^{n_o}. PΦ={qi}i=1no.
与手爪点云类似, q i \text{q}_i qi 也遵循相同的 9 维定义(式(3)):
q i = ( x i , y i , z i , n i x , n i y , n i z , c ) ∈ R 9 , \text{q}_i=(x_i,y_i,z_i,n_{ix},n_{iy},n_{iz},\text{c})\in\mathbb R^9, qi=(xi,yi,zi,nix,niy,niz,c)R9,
其中对于所有物体点, c = [ 0 , 0 , 1 ] \text{c}=[0,0,1] c=[0,0,1]。在每个时间步 i > 0 i>0 i>0,我们根据上一步的位姿 T i − 1 \text{T}_{i-1} Ti1 将模型点云转换为假设点云
P o = { q i ′ } i = 1 n o , \mathcal{P}_o=\{\text{q}'_i\}_{i=1}^{n_o}, Po={qi}i=1no,
对于假设点云中的每个点 q i ′ \text{q}'_i qi
q i ′ = ( x i ′ , y i ′ , z i ′ , n i x ′ , n i y ′ , n i z ′ , c ) , (4) \text{q}'_i=(x'_i,y'_i,z'_i,n'_{ix},n'_{iy},n'_{iz},\text{c}), \tag{4} qi=(xi,yi,zi,nix,niy,niz,c),(4)
其空间坐标和法向量变换为:
[ x i ′ y i ′ z i ′ ] = R i − 1 [ x i y i z i ] + t i − 1 , [ n i x ′ n i y ′ n i z ′ ] = R i − 1 [ n i x n i y n i z ] . (5) \begin{bmatrix} x'_i\\ y'_i\\ z'_i \end{bmatrix} =\text{R}_{i-1} \begin{bmatrix} x_i\\ y_i\\ z_i \end{bmatrix} +\text{t}_{i-1}, \quad \begin{bmatrix} n'_{ix}\\ n'_{iy}\\ n'_{iz} \end{bmatrix} = \text{R}_{i-1} \begin{bmatrix} n_{ix}\\ n_{iy}\\ n_{iz} \end{bmatrix}. \tag{5} xiyizi =Ri1 xiyizi +ti1, nixniyniz =Ri1 nixniyniz .(5)

系统会取物体的“理想”模型点云 ( P Φ \mathcal{P}_Φ PΦ),并应用这个估计的位姿 T i − 1 T_{i−1} Ti1,将其从物体自身坐标系转换到相机坐标系(或世界坐标系,如果相机坐标系就是世界坐标系)。转换后的点云就是 P o \mathcal{P}_o Po ​ 。 因此, P o \mathcal{P}_o Po 代表了:如果物体处于 T i − 1 T_{i−1} Ti1 这个位姿,那么它在相机视野中看起来会是怎样的点云。

为了能够推理手爪–物体的交互,我们将手爪点云 P h \mathcal{P}_h Ph 与假设物体点云 P o \mathcal{P}_o Po 融合,创建手爪–物体点云
P = P h ∪ P o . (6) \mathcal{P}=\mathcal{P}_h\cup \mathcal{P}_o.\tag{6} P=PhPo.(6)

这一新颖的统一表示遵循视觉方法中的“渲染-比较”范式 [35,66,27,70,58]:渲染图像(基于位姿假设)与视觉观测进行对比。假设物体点云 P o \mathcal{P}_o Po 相当于“渲染”的位姿假设(见图2),而手爪点云 P h \mathcal{P}_h Ph 则代表使用触觉反馈得到的真实观测。通过利用这一表示,模型能够学习在触觉反馈指导下的可行物体位姿,从而捕捉手爪与物体之间丰富的接触交互。

C. 网络设计

视觉模态。 与以往从头训练整套可视-触觉网络的方法不同,我们的方法能够有效利用预训练的视觉基础模型。我们的设计扩展了 FoundationPose [70] 的框架,因为该模型在未见过的物体上具有出色的泛化能力,并且仿真到现实的差距很小。为了利用其捕捉到的高质量视觉先验,我们使用其视觉编码器 f v f_v fv 并在训练过程中将其参数冻结。利用该编码器,我们将 RGB-D 观测 O O O 转换为视觉嵌入 Z v = f v ( O ) \text{Z}_v=f_v(\text{O}) Zv=fv(O)

触觉模态。 与此同时,我们使用触觉编码器 f h f_h fh 对手爪–物体点云 P \mathcal{P} P 进行编码,得到触觉嵌入 Z h = f h ( P ) \text{Z}_h=f_h(\mathcal{P}) Zh=fh(P)。通过在点云空间中表示所有交互,我们的新型触觉表示提供了使用任何基于点云的网络进行编码的灵活性。为此,我们选择 PointNet++ [49] 作为触觉编码器 f h f_h fh。为了提高学习效率,我们使用手爪点的质心对点云进行规范化,确保在处理过程中 P \mathcal{P} P 空间上围绕手爪中心。

可视-触觉融合。 然而,融合视觉和触觉模态存在重大挑战。现有方法常常采用固定或偏置的权重来平衡这两种模态 [32,54,8,59],但在特定情况下可能失效。例如,当没有接触时,应仅依赖视觉模态;当遮挡严重时,应更多依赖触觉。受人类多感官“最优整合”原则的启发 [12,19,28,55,20],即大脑会动态调整视觉和触觉输入的权重以最大化感知可靠性,我们采用自注意力机制 [60] 来自适应地融合视觉和触觉嵌入。这确保了在无论物体处于接触状态还是清晰可见时模型的鲁棒性。

为实现这种融合,我们提出了“触觉指令微调”方法,灵感来自视觉指令微调 [39]。在保持视觉编码器 f v f_v fv 冻结的同时,我们将视觉嵌入 Z v \text{Z}_v Zv 和触觉嵌入 Z h \text{Z}_h Zh 一同输入到原有的仅视觉 Transformer 编码器 [60,70] 中,这些编码器以 FoundationPose 的预训练权重初始化。然后,我们对 Transformer 编码器和触觉编码器 f h f_h fh 进行联合微调。通过这种方式,视觉和触觉信息在自注意力模块中被自适应地融合,模型能够根据上下文动态调整各模态的权重(见图9)。

遵循 FoundationPose,我们将 6D 位姿拆分为 3D 平移和 3D 旋转,并分别通过两个输出头来估计它们(见图2)。

D. 训练范式

我们通过向真实位姿 T = ( R , t ) \text{T}=(\text{R},\text{t}) T=(R,t) 添加噪声 ( R ϵ , t ϵ ) (\text{R}_\epsilon,\text{t}_\epsilon) (Rϵ,tϵ) 来生成假设位姿 T ~ = ( R ~ , t ~ ) \tilde{\text{T}}=(\tilde{\text{R}},\tilde{\text{t}}) T~=(R~,t~)
R ~ = R ϵ − 1 ⋅ R , t ~ = − t ϵ + t . (7) \tilde{\text{R}}=\text{R}_\epsilon^{-1}\cdot \text{R},\quad \tilde{\text{t}}=-\text{t}_\epsilon+\text{t}. \tag{7} R~=Rϵ1R,t~=tϵ+t.(7)
渲染图像使用 T ~ \tilde{\text{T}} T~ 生成,而物体点云也根据 T ~ \tilde{\text{T}} T~ 进行变换;相比之下,RGB-D 图像和机械手点云表示真实观测。模型估计假设位姿与观测之间的相对位姿 Δ T ^ = ( Δ R ^ , Δ t ^ ) \Delta \hat{\text{T}}=(\Delta \hat{\text{R}},\Delta \hat{\text{t}}) ΔT^=(ΔR^,Δt^)。模型通过以下 L 2 L_2 L2 损失进行优化:
L T = ∥ Δ R ^ − R ϵ ∥ 2 + ∥ Δ t ^ − t ϵ ∥ 2 , (8) \mathcal{L}_\text{T}=\|\Delta \hat{\text{R}} - \text{R}_\epsilon\|_2 + \|\Delta \hat{\text{t}} - \text{t}_\epsilon\|_2, \tag{8} LT=∥ΔR^Rϵ2+∥Δt^tϵ2,(8)
其中旋转使用四元数表示。估计得到的位姿 T ^ = ( R ^ , t ^ ) \hat{\text{T}}=(\hat{\text{R}}, \hat{\text{t}}) T^=(R^,t^) 为:
R ^ = Δ R ^ ⋅ R ~ , t ^ = Δ t ^ + t ~ (9) \hat{\text{R}} =\Delta \hat{\text{R}} \cdot \tilde{\text{R}},\quad \hat{\text{t}}=\Delta \hat{\text{t}} +\tilde{\text{t}} \tag{9} R^=ΔR^R~,t^=Δt^+t~(9)

  1. 制造误差: 首先,人为地给一个真实位姿引入一个已知的“误差”或“噪声”,得到一个“不那么准确”的假设位姿。
  2. 生成假设观测: 根据这个假设位姿,生成模型所期望的物体点云和渲染图像(即“渲染”)。
  3. 比较与学习: 模型接收假设观测、真实的传感器观测(手爪点云、RGB-D 图像),然后学习如何估计从假设姿态到真实姿态的“校正量”(即 Δ T ^ \Delta \hat{\text{T}} ΔT^ )。
  4. 优化: 通过最小化 Δ T ^ \Delta \hat{\text{T}} ΔT^ 和最初添加的噪声之间的差异,模型学会了如何从一个不准确的假设姿态出发,逐步逼近物体的真实姿态。

我们进一步引入吸引损失 L a \mathcal{L}_a La 和穿透损失 L p \mathcal{L}_p Lp,以鼓励物体与触觉点云 S p , c \mathcal{S}_{p,c} Sp,c 接触并避免穿透机械手点云 P h \mathcal{P}_h Ph

  1. 触觉传感器实际检测到接触的地方,物体真的在那里。 (吸引损失)
  2. 物体不会不合理地穿透机械手。 (穿透损失)

首先,使用估计的位姿将初始假设物体点云 P o \mathcal{P}_o Po 变换为
P ^ o = T ^ T ~ − 1 P o , \hat{\mathcal{P}}_o = \hat{\text{T}}\,\tilde{\text{T}}^{-1}\,\mathcal{P}_o, P^o=T^T~1Po,
其中 P o \mathcal{P}_o Po 以齐次坐标形式表示。

吸引损失强制每个激活的单元必须与物体接触:
L a = 1 ∣ S p , c ∣ ∑ s p , c ∈ S p , c min ⁡ p ∈ P ^ o ∥ s p , c − p ∥ 2 , (10) \mathcal{L}_a = \frac{1}{|\mathcal{S}_{p,c}|} \sum_{\mathcal{s}_{p,c}\in \mathcal{S}_{p,c}} \min_{p\in \hat{\mathcal{P}}_o}\|\mathcal{s}_{p,c} - p\|^2, \tag{10} La=Sp,c1sp,cSp,cpP^ominsp,cp2,(10)
该项可视为触觉点云与物体点云之间的单向 Chamfer 距离。

1. 目的:这个损失的目的是强制每个被触觉传感器激活的单元(即 S p , c \mathcal{S}_{p,c} Sp,c 中的点)必须与物体模型点云( P ^ o \hat{\mathcal{P}}_o P^o)发生接触。换句话说,如果传感器说“这里碰到了”,那么模型预测的物体就必须真的在那个地方。
2. S p , c \mathcal{S}_{p,c} Sp,c:这是真实触觉点云,包含了所有被机械手触觉传感器检测到有接触的点的三维位置。
3. 求和符号 ( ∑ s p , c ∈ S p , c \sum_{\mathcal{s}_{p,c}\in \mathcal{S}_{p,c}} sp,cSp,c):这表示对 S p , c \mathcal{S}_{p,c} Sp,c 集合中的每一个触觉接触点 s p , c \mathcal{s}_{p,c} sp,c 都进行计算。
4. min ⁡ p ∈ P ^ o ∥ s p , c − p ∥ 2 \min_{p\in \hat{\mathcal{P}}_o}\|\mathcal{s}_{p,c} - p\|^2 minpP^osp,cp2

  • 对于 S p , c \mathcal{S}_{p,c} Sp,c 中的每一个点 s p , c \mathcal{s}_{p,c} sp,c,它都会在模型预测的物体点云 P ^ o \hat{\mathcal{P}}_o P^o 中寻找距离它最近的点 p p p
  • ∥ s p , c − p ∥ 2 \|\mathcal{s}_{p,c} - p\|^2 sp,cp2:计算这两个点之间的欧几里得距离的平方。
  • 含义:这一项确保每个真实触觉接触点 s p , c \mathcal{s}_{p,c} sp,c 必须非常靠近模型预测的物体表面上的某个点。

5. 1 ∣ S p , c ∣ \frac{1}{|\mathcal{S}_{p,c}|} Sp,c1:这是对损失进行归一化,除以触觉接触点的总数。这确保了损失值不会因为触觉接触点的数量变化而剧烈波动,使得不同样本的损失具有可比性。
6. 总结: L a \mathcal{L}_a La 是所有真实触觉接触点到模型预测的物体点云之间最短距离平方的平均值。当这个损失很小时,就意味着模型预测的物体姿态使得物体的表面与真实触觉传感器检测到的接触点非常吻合。

1. Chamfer 距离是一种衡量两个点云之间相似性的指标。它通常是双向的:计算点云 A 中每个点到点云 B 的最近距离之和,再加上点云 B 中每个点到点云 A 的最近距离之和。
2. 单向 Chamfer 距离:这里 L a \mathcal{L}_a La 仅仅计算了触觉点云 S p , c \mathcal{S}_{p,c} Sp,c 中的每个点到物体点云 P ^ o \hat{\mathcal{P}}_o P^o 的最近距离。它没有反过来计算 P ^ o \hat{\mathcal{P}}_o P^o 中的点到 S p , c \mathcal{S}_{p,c} Sp,c 的最近距离。
3. 含义:这种单向性强调的是覆盖性:确保所有被激活的触觉传感器都“碰到了”物体模型。它不强制物体模型上的所有点都必须有对应的触觉接触(这在真实世界中也是不现实的,因为传感器只覆盖手爪表面的一小部分)。

吸引损失的目的和意义
吸引损失确保了模型的姿态估计与实际的物理接触信息保持一致。如果模型预测的物体位姿与触觉反馈不符(比如物体移开了,但传感器显示仍在接触),这个损失就会很大,从而“吸引”模型调整其估计的物体姿态,使其与触觉反馈对齐。这对于提高物体位姿跟踪的精度和鲁棒性至关重要,特别是在物体与机械手发生接触时。

穿透损失用于避免物体与机械手之间的穿透 [76,77,4]:
p o = arg ⁡ min ⁡ q ∈ P ^ o ∥ q − p h ∥ 2 , L p = ∑ p h ∈ P h exp ⁡ ( max ⁡ { 0 , − n o ⋅ ( p h − p o ) } ) − 1 , (11) \text{p}_o = \arg\min_{\text{q}\in \hat{\mathcal{P}}_o}\|\text{q} - \text{p}_h\|_2,\quad \\ \mathcal{L}_p = \sum_{\text{p}_h\in \mathcal{P}_h}\exp\bigl(\max\{0,-\text{n}_o\cdot(\text{p}_h-\text{p}_o)\}\bigr) - 1, \tag{11} po=argqP^ominqph2,Lp=phPhexp(max{0,no(phpo)})1,(11)
其中 p o \text{p}_o po 表示机械手点云 P h \mathcal{P}_h Ph 中点 p h \text{p}_h ph 的最近邻。

穿透损失的目的很直接: 防止模型估计出的物体姿态导致物体与机械手模型发生不合理的重叠或穿透。

1. 找到最近的物体点 ( p o \text{p}_o po)
p o = arg ⁡ min ⁡ q ∈ P ^ o ∣ q − p h ∣ 2 \text{p}_o = \arg\min_{\text{q}\in \hat{\mathcal{P}}_o}|\text{q} - \text{p}_h|_2 po=argqP^ominqph2

  • 对于机械手点云 ( P h \mathcal{P}_h Ph) 中的每一个点 p h \text{p}_h ph (这些点代表机械手几何体的真实观测),我们会在模型估计的物体点云 ( P o ^ \hat{\mathcal{P}_o} Po^​ ) 中,找到离 p h \text{p}_h ph 最近的那个点 q \text{q} q。这个最近点就是 p o \text{p}_o po
  • 作用:这一步是为后续计算准备的,它找到了机械手表面上每个点对应的物体表面上最近点。

2. 计算穿透惩罚
L p = ∑ p h ∈ P h exp ⁡ ( max ⁡ { 0 , − n o ⋅ ( p h − p o ) } ) − 1 \mathcal{L}_p = \sum_{\text{p}_h\in \mathcal{P}_h}\exp\bigl(\max\{0,-\text{n}_o\cdot(\text{p}_h-\text{p}_o)\}\bigr) - 1 Lp=phPhexp(max{0,no(phpo)})1

  • 遍历所有机械手点:这个求和符号 ∑ p h ∈ P h \sum_{\text{p}_h\in \mathcal{P}_h} phPh 表示对机械手点云中的所有点 p h \text{p}_h ph 都进行一次计算。
  • n o \text{n}_o no:这是物体在 p o \text{p}_o po 点处的表面法向量。它指明了物体表面在该点“朝向哪个方向”。
  • p h − p o \text{p}_h-\text{p}_o phpo: 这是一个从物体点 p o \text{p}_o po 指向机械手点 p h \text{p}_h ph 的向量。
  • 点积 − n o ⋅ ( p h − p o ) -\text{n}_o\cdot(\text{p}_h-\text{p}_o) no(phpo):
    • 这个点积项是核心。它衡量了从物体到手爪的向量与物体法向量方向的反向一致程度。
    • 如果机械手点 p h \text{p}_h ph 穿透到物体内部:那么向量 ( p h − p o \text{p}_h-\text{p}_o phpo) 通常会指向物体内部。如果 n o \text{n}_o no 指向外部(物体表面通常向外),那么 n o ⋅ ( p h − p o ) \text{n}_o\cdot(\text{p}_h-\text{p}_o) no(phpo) 会是负值。前面的负号会使整个项变为正值。正值表示有穿透。
    • 如果机械手点 p h \text{p}_h ph在物体外部:那么向量 ( p h − p o \text{p}_h-\text{p}_o phpo ) 通常指向外部,点积 n o ⋅ ( p h − p o ) \text{n}_o\cdot(\text{p}_h-\text{p}_o) no(phpo) 为正,前面负号使整个项变为负值。负值表示没有穿透。
  • max ⁡ { 0 , value } \max\{0, \text{value}\} max{0,value}:这个函数确保只有当点积项为正(即有穿透迹象)时才会有惩罚,否则为 0。这意味着只惩罚穿透,不惩罚分离。
  • exp ⁡ ( value ) − 1 \exp(\text{value}) - 1 exp(value)1:使用指数函数是为了让惩罚随着穿透深度的增加而快速增长。即使是很小的穿透,惩罚也会迅速变大,迫使模型避免穿透。 − 1 -1 1 是为了在没有穿透时 (value=0),损失项也为 0 (exp(0)-1 = 0)。

我们的总体损失为:
L = L T + α L a + β L p , (12) \mathcal{L} = \mathcal{L}_\text{T} + \alpha\,\mathcal{L}_a + \beta\,\mathcal{L}_p, \tag{12} L=LT+αLa+βLp,(12)
我们经验性地设置 α = 1 \alpha=1 α=1 β = 0.001 \beta=0.001 β=0.001。模型使用初始学习率为 0.0004 的 AdamW [43] 优化器训练 20 个 epoch。

总体损失 ( L \mathcal{L} L) L = L T + α L a + β L p , \mathcal{L} = \mathcal{L}_\text{T} + \alpha\,\mathcal{L}_a + \beta\,\mathcal{L}_p, L=LT+αLa+βLp,

这是 V-HOP 模型在训练时试图最小化的总损失函数。它是三个独立损失分量的加权和。

  • L T \mathcal{L}_\text{T} LT​ (变换损失):
    • 主要目的:这是最主要的损失,它驱动模型去预测正确的物体位姿变换。
    • 测量:模型预测的相对位姿与最初添加到真实位姿上的噪声之间的差异。
  • L a \mathcal{L}_a La (吸引损失):
    • 主要目的:确保模型估计出的物体姿态与实际的触觉接触信息吻合。
    • 测量:所有被触觉传感器激活的真实接触点,到模型估计的物体表面上的最近距离。它将物体模型“吸引”到检测到的接触点。
  • L p \mathcal{L}_p Lp (穿透损失):
    • 主要目的:防止模型估计出的物体姿态导致物体与机械手模型之间发生不合理的物理重叠。
    • 测量:机械手点云中所有点与模型估计物体表面之间,指示穿透程度的特定距离。它将物体模型“推开”机械手。
  • α α α β β β (权重):
    • 它们是超参数,用来控制吸引损失和穿透损失在总损失中的相对重要性。
    • α = 1 α=1 α=1:表示吸引损失与主变换损失具有相同的权重。
    • β = 0.001 β=0.001 β=0.001:表示穿透损失的权重非常小。这很常见,因为穿透损失通常比较敏感,过大的权重可能导致训练不稳定,而一个小权重通常足以阻止穿透。

IV. 实验

A. 多形态数据集

在本工作完成时,现有的可视-触觉数据集尚未公开[8,33,61],且大多只关注单一手爪[54],因此其在新形态泛化能力方面仍未得到验证。因此,我们使用 NVIDIA Isaac Sim 构建了一个多形态数据集(图3),以支持跨形态学习和全面评估。我们的数据集包含来自八种手爪和十三种物体的约155万张图像,其中85%用于训练,其余用于验证。相机轨迹在手爪周围的半球面上随机采样,半径在0.5米到2.5米之间。我们选择了可抓取的YCB物体[5]和先前工作中使用的手爪[9,45]。更多数据集的详细信息可参见附录。


在这里插入图片描述图3:数据集样本可视化。(顶行)Barrett 机械手、Shadow 机械手、Allegro 机械手、SHUNK SVH。(底行)D’Claw、LEAP 机械手、Inspire 机械手、Robotiq 三指夹爪。


在本文中,我们遵循仿真到现实的范式,仅使用合成数据进行训练。虽然增加真实世界训练数据确实可以缓解仿真到现实的差距,但如最新研究所示[70],利用富含域随机化的大规模合成数据集,往往能在现实中取得优于小规模真实数据集的性能。我们的合成数据集即体现了这一原则,并支撑了我们在现实场景中的鲁棒表现。收集具有同等规模和多样性的真实数据既具有挑战性,又耗费资源。此外,我们的统一触觉表示利用点云保持了不同触觉传感器之间的表示不变性。因此,我们的仿真到现实实验(第V节)展示了出色的性能,并无需昂贵的真实数据收集。

B. 位姿跟踪比较

在以下实验中,我们使用以下指标评估性能:

  • ADD 和 ADD-S [21,72] 下的曲线下面积(AUC);
  • ADD(-S)-0.1d [18]:小于物体直径 10% 的 ADD/ADD-S。

我们将 V-HOP 与当前最先进的视觉位姿跟踪方法 FoundationPose [70](简称 FP)和视触觉位姿估计方法 ViTa [8] 进行对比。为了保证公平,我们对 FoundationPose 进行了微调,并在我们的多形态数据集上训练了 ViTa。为验证对新物体和新手爪的泛化能力,我们在训练中剔除了一种物体(布丁盒)和一种手爪(D’Claw)。

由于尚无可视-触觉位姿跟踪方法,我们以实例级的 ViTa 作为对比,该方法在不同设置下单独对每个物体训练模型,并使用真实分割信息。相比之下,FoundationPose 和 V-HOP 都可一次性训练,直接泛化到新物体。为公平起见,两种方法均在每个跟踪步运行两次迭代:V-HOP 为一次可视-触觉迭代加一次纯视觉迭代。

在表 I 中,我们展示了按物体分类的性能对比。V-HOP 在大多数物体的 ADD 指标上以及所有物体的 ADD-S 指标上均优于 ViTa 和 FP。平均来看,相较于 FP,我们的方法在 ADD 上提升了 4%,在 ADD-S 上提升了 5%。尤其是在未见过的物体上,V-HOP 依然表现出强大的泛化能力。


在这里插入图片描述表 I:按物体划分的 ADD 和 ADD-S AUC 指标比较。新物体所在行为灰色。指标值越高越好,最优结果以加粗表示。


在表 II 中,我们给出了按手爪分类的性能。与物体结果一致,V-HOP 在大多数手爪的 ADD 指标以及所有手爪的 ADD-S 指标上均优于其他方法,并且在未见过的手爪上仍保持稳健表现,进一步验证了我们统一触觉表示的跨形态泛化能力。


在这里插入图片描述表 II:按手爪划分的 ADD 和 ADD-S AUC 指标比较。数据集中包含八种手爪,训练时剔除 D’Claw 作为未见手爪。


C. 模态消融

我们对输入模态进行了消融研究,以评估触觉表示的有效性。具体而言,我们训练了两种 V-HOP 的消融版本:一种去除触觉反馈,另一种去除视觉输入,如表 III 所示。为排除触觉输入,我们移除了所有“接触中”点标签(式(3))。结果表明,视觉输入对性能有显著贡献,这可能归因于视觉信息的丰富性,包括纹理和空间细节。这一发现与以往关于人类感知系统的研究一致,表明视觉在视触整合中起主导作用[24]。同样,触觉反馈也至关重要;在没有触觉反馈的情况下,性能显著下降,因为在交互过程中推理手爪–物体接触变得更加困难。


在这里插入图片描述表 III 对输入模态进行了消融研究,结果确认了视觉与触觉模态结合的有效性。


D. 融合策略消融

我们对不同的模态融合策略进行了消融研究:早期融合和后期融合。早期融合指在输入或特征层面进行融合,如图2所示;后期融合策略则在结果层面融合视觉和触觉模态,每个模态拥有独立分支来估计其结果[59]。如表 IV 所示,后期融合的平均 ADD 得分为 47.56,ADD-S 得分为 70.43,分别比我们的早期融合设计在 ADD 上低 30.97%、在 ADD-S 上低 18.69%。结果证明了在特征层面融合视觉和触觉模态的必要性。


在这里插入图片描述表 IV 对融合策略进行了消融研究,评估了早期融合与晚期融合策略的性能。


E. 遮挡对性能的影响

我们评估 V-HOP 和 FoundationPose 在不同遮挡比例下的性能(图4)。遮挡比例定义为基于真实位姿渲染的物体图像中,分割掩码像素数占总像素数的比例。我们的结果表明,在不同的遮挡程度下,V-HOP 在 ADD 和 ADD-S 指标上均始终优于 FoundationPose。这些结果强调了在高遮挡场景中融合视觉与触觉信息以提升性能的重要性。


在这里插入图片描述图4:在不同遮挡比例下的性能。在本实验中,我们使用直接的 ADD 和 ADD-S 指标(单位:米)。


F. 在 FeelSight 上的位姿跟踪

为评估 V-HOP 的泛化能力,我们使用 Feelsight 数据集中的遮挡子集(FeelSight-Occlusion)与 NeuralFeels [54] 进行对比,后者是一种基于优化的可视-触觉位姿跟踪方法。该子集具有显著挑战性——包含新的手爪形态(配备 DIGIT 指尖的 Allegro 手)、新传感器类型(基于视觉的触觉传感器)和新物体(魔方)。为保证公平,我们对比的方法都使用与 V-HOP 几乎相同的输入,但 NeuralFeels 使用真实分割掩码(GT Seg)。

表 V 中展示了结果。与 NeuralFeels 相比,V-HOP 在 ADD-S 指标上误差降低了 32%,在 ADD-S-0.1d 上也取得相近成绩。值得注意的是,NeuralFeels 利用真实分割掩码来获得更准确的物体定位,而 V-HOP 并不依赖此输入,这进一步突显了其鲁棒性和适应性。

在计算效率方面,V-HOP 在 NVIDIA RTX 4070 GPU 上以 32 FPS 的速度运行,约为 NeuralFeels(3 FPS)速度的十倍。这一显著的速度提升突出了 V-HOP 在真实世界操作应用中的实用价值,如后续章节所示。


在这里插入图片描述表V:Feelsight 数据集上的性能。为与 NeuralFeels [54] 中使用的指标保持一致,本实验报告直接的 ADD-S 指标 [72](单位:毫米),而非其他实验中使用的 ADD-S AUC。



V. 仿真到现实迁移实验

为了验证我们方法在真实环境中的有效性,我们在机器人平台上进行了仿真到现实的迁移实验(图1)。我们的双臂平台由两台 Franka Research 3 机械臂[17]和 Barrett Hands BH8-282 组成。所用 Barrett Hand 具有 4 个自由度(DoF)和 96 个阵元(taxel):每个指尖 24 个,手掌 24 个。每个阵元由电容单元构成,能够以 0.01 N 的分辨率检测 10 N/cm² 范围内的力。对于第一人称视觉输入,我们使用 MultiSense SLB RGB-D 相机,该相机结合了 MultiSense S7 立体相机和 Hokuyo UTM-30LX-EW 激光扫描仪。我们使用 FoundationPose 提供初始帧的位姿估计,并使用 CNOS [47,25] 完成分割任务。

A. 位姿跟踪实验

在本实验中(图5),机械爪稳健地抓取物体,同时由人工操作员以随机轨迹引导机械臂移动。此过程引入了严重遮挡和高速动态运动,以模拟具有挑战性的真实操作场景。在这种条件下,由于仅依赖视觉输入,FoundationPose 经常丢失跟踪。相比之下,V-HOP 在整个轨迹中保持稳定的物体跟踪,展示了其可视-触觉感知的鲁棒性。


在这里插入图片描述图5:位姿跟踪序列的定性结果。 我们在真实世界中使用YCB物体验证性能。图中突出显示了杯子和电钻,更多物体的结果见附录。


B. 双臂移交实验

在此实验中(图6),一个物体被放置在机器人右臂可触及的桌面上。 该任务要求机器人执行以下操作序列:

  1. 使用右臂抓取物体并将其移至桌面中心。
  2. 使用左臂从右夹爪接管物体并将其放入指定的箱子中。

机器人采用基于模型的抓取策略,该策略依赖于实时物体位姿估计。此任务提出了两个关键挑战:

  1. 如果抓取尝试失败,机器人必须根据实时位姿检测失败并重新尝试抓取。
  2. 在将物体运输到中心的过程中,机器人必须保持对物体位姿的精确跟踪,以确保左臂能够准确抓取,否则跟踪不准确可能导致移交时发生碰撞。

在这里插入图片描述图6:双臂移交实验。 在此实验中,机器人执行双臂操作,将目标物体移动到箱内。V-HOP融合视觉和触觉输入,实时精确跟踪手内物体的位姿,从而实现稳定的移交性能。更多物体的结果见附录。


V-HOP使运动规划器能够处理随机位置的物体并适应动态场景,例如人为干扰。例如,在任务执行过程中,操作者可能会移动物体、将其从夹爪中移出或重新放置在桌面上(图7)。由于融合了触觉反馈,V-HOP能够准确跟踪物体位姿,使机器人能够及时检测并响应这些变化,如物体离开夹爪。相反,FoundationPose在移交或抓取失败过程中会丢失跟踪(图6),并导致碰撞。

在表VI中,我们展示了每个物体在五次试验中的成功率。与FoundationPose相比,V-HOP的平均成功率提高了40%。


在这里插入图片描述表七:Can-in-Mug 任务的成功率。



在这里插入图片描述图7:双臂移交任务的鲁棒性测试。(左)物体被放置在不同随机位置。(右)在机器人尝试抓取时,人为干扰物体,将其移动到另一个位置。


C. 杯中插罐实验

“杯中插罐”任务(图8)涉及抓取一个番茄罐并将其插入杯中。双臂版本要求机器人同时抓取杯子,并将罐子插入杯子中央。任务成功的关键在于对两个物体的精确位姿估计,因为位姿的任何噪声都会导致任务失败。我们的结果(表VII)表明,通过融合视觉和触觉输入,V-HOP 提供了更稳定的跟踪并获得了更高的整体成功率。


在这里插入图片描述图8:“杯中插罐”任务。(顶)机器人抓取罐子并将其插入杯中。(底)机器人使用双臂分别抓取罐子和杯子,并将罐子插入杯中央。


D. 各模态贡献

在本研究中,我们考察了视觉和触觉输入对最终预测的贡献。我们采用 Grad-CAM [51],以 Transformer 编码器的最终归一化层作为目标层。图9 展示了视觉和触觉模态的权重分布。我们的发现表明:当机械爪未与物体接触时,模型主要依赖视觉输入;而当机械爪建立接触并且遮挡变得更严重时,模型越来越依赖触觉输入。这一发现验证了我们采用自注意力机制以模拟人类“最优整合”原则的选择。


在这里插入图片描述图9:视觉和触觉模态对最终预测的权重分布。图中右上角叠加了使用 Grad-CAM [51] 计算的模态权重。



VI. 相关工作

在本研究中,我们关注于 6D 物体位姿跟踪问题,该问题已作为视觉问题被广泛研究 [66,35,70,7]。我们尤其聚焦于基于模型的跟踪方法,这类方法假设可以获取物体的 CAD 模型。虽然存在无模型方法 [65,69,54],但它们超出了本文的研究范围。视觉位姿跟踪在已有基准(如 BOP [22])上取得了显著进展。尽管如此,在高遮挡和动态交互(如手中操作)等真实机器人应用场景中部署此类系统仍具有挑战性。

为应对这些挑战,先前的研究探索了将视觉和触觉信息结合以提高位姿跟踪鲁棒性的方法 [32,54,8,61,50,59,14,33]。这些方法利用学习技术,通过融合视触输入来估计物体位姿。然而,它们通常在每帧独立估计位姿,缺乏时间一致性。此外,跨手爪形态泛化和领域泛化依然是显著障碍,限制了它们的大规模部署和实用性。

更近的工作旨在克服其中一些局限。例如,Liu 等人 [41] 提出了一种基于优化的方法,使用专门的滑移检测器和速度预测器,将触觉数据与视觉位姿跟踪结合。Suresh 等人 [54] 在位姿图优化框架中,将视觉和触觉点云融合,扩展了无模型跟踪框架 BundleTrack [65] 和 BundleSDF [69]。然而,这些方法仅在单一手爪形态上进行了验证,且存在计算效率低下的问题 [54],难以满足动态操作任务的实时部署需求。


VII. 局限性

我们遵循基于模型的物体位姿跟踪设置,假设可以获得物体的 CAD 模型。虽然这种假设可能限制在野外应用中的泛化能力,但在仓库或装配线等工业环境中,这是一个成熟并被广泛采用的前提 [3,54]。克服此局限的一个潜在方向是同时进行物体重建和位姿跟踪,如 BundleSDF [69] 和 NeuralFeels [54] 等方法所示,它们为我们的方法提供了兼容且前景良好的模型获取方式。


VIII. 结论

我们提出了 V-HOP,一种可视-触觉 6D 物体位姿跟踪器,集成了统一的触觉表示和可视-触觉 Transformer。实验证明,V-HOP 能有效泛化到新的传感器类型、手爪形态和物体上,超越了最先进的纯视觉和可视-触觉方法。消融研究强调了视觉和触觉模态在框架中的关键作用。在仿真到现实的迁移实验中,V-HOP 展现出鲁棒性,在高遮挡和动态环境下提供稳定跟踪。此外,将 V-HOP 的实时位姿跟踪集成到运动规划中,可实现如双臂移交和插入等准确操作任务,展示了其实用性和有效性。


致谢

本工作由美国国家科学基金会(NSF)CAREER 项目 #2143576、项目 #2346528 及美国海军研究办公室(ONR)项目 #N00014-22-1-259 资助。感谢 Ying Wang、Tao Lu、Zekun Li 和 Xiaoyan Cong 的宝贵讨论,也感谢领域主席和审稿人对提升本文质量和清晰度所提供的建设性反馈。本研究使用了布朗大学计算与可视化中心的计算资源和服务。

相关文章:

  • 枣庄手机网站建设报价新手销售怎么和客户交流
  • 湖北现代城市建设集团网站如何做电商赚钱
  • 在网站插入微博静态的网页出的来到服务器出不来北京seo优化诊断
  • 做网站企业重庆seo优化效果好
  • 手机建网站公司网络互联网推广
  • wordpress连连支付账号seo是什么
  • vue 3 计算器
  • MySql:DDL,增删改查:创建表
  • 【大模型学习】项目练习:套壳DeepSeek
  • 火山 RTC 引擎14 设置CB
  • (LeetCode 面试经典 150 题 )121. 买卖股票的最佳时机 (遍历)
  • 自然语言处理入门
  • 【开源项目】比 PyInstaller 更方便:图形界面打包 Python 脚本的体验
  • 工程优化——WebSocket、WSS(WebSocket Secure)和SSE(Server-Sent Events)通信对比
  • PyEcharts教程(009):PyEcharts绘制水球图
  • 常见网络知识,宽带、路由器
  • 【教学类-89-08】20250624新年篇05——元宵节灯笼2CM黏贴边(倒置和正立数字 )
  • 内存泄漏和内存溢出的区别
  • 五种 IO 模式的简单介绍 -- 阻塞 IO,非阻塞 IO,信号驱动 IO,IO 多路复用,异步 IO
  • 使用 PyFluent 自动化 CFD
  • FPGA基础 -- Verilog 验证平台之 **cocotb 验证 `阶乘计算模块(factorial)` 的例子**
  • CRMEB PHP多门店版v3.2.1系统全开源+Uniapp前端+搭建教程
  • 用vscode破解最新typora1.10.8
  • 前端vue2每三十秒被动接受后端服务器发送过来得数据
  • 服务器数据恢复——异常断电导致服务器故障的数据恢复案例
  • 编程语言的发展逻辑:从人类认知到人工智能协同