当前位置：首页 > news >正文

Deep End-to-End Alignment and Refinement for Time-of-Flight RGB-D Module，2019

news 2025/10/21 8:20:02

摘要

最近，将移动 RGB 相机配备飞行时间 (ToF) 传感器以进行主动深度传感越来越受欢迎。然而，对于现成的ToF传感器，必须解决两个问题，以获得相对于RGB相机的高质量深度，即1)在线校准和对齐；2)ToF深度传感的复杂纠错。在这项工作中，我们提出了一个通过深度学习联合对齐和细化的框架。首先，估计RGB图像和ToF振幅图像之间的跨模态光流进行对齐。然后，通过改进的核预测网络来细化对齐的深度，该网络执行核归一化并在动态卷积之前应用偏差。为了丰富我们的端到端训练数据，我们还使用计算机图形学的工具合成了数据集。实验结果表明了我们方法的有效性，在 TOF 细化方面达到了最先进的水平。

1. 引言

如今，基于飞行时间 (ToF) 传感器的 RGB-D 相机模块在移动设备上越来越受欢迎。以负担得起的成本，它提供了便携式主动深度测量。一般来说，与单目或立体相机模块[12,18,22,29,30]相比，ToF传感器为近距离距离传感[16]提供了更高的精度深度值。然而，现成的ToF RGB-D相机模块有两个问题:

(i)视角差异:深度测量最初是从ToF传感器的角度定义的，因此需要深度图像和RGB图像之间的对齐;

(ii)错误测量:ToF传感器的深度测量存在不同类型的误差，如多径干扰、噪声等。

这两个问题阻碍了ToF RGBD相机模块在计算摄影、增强现实和视频娱乐等应用中的直接使用。

多视图几何揭示了第一个问题。事实上，RGB图像和ToF振幅图像之间的像素对应关系可以从伴随全套相机参数[17]的图像的角度计算出真实的深度。然而，在部署过程中动态变化下，移动ToF RGBD相机参数很少校准一次和全部。事实上，现代 RGB 相机通常配备光学图像稳定 (OIS) 系统，该系统动态改变主点，以及 TToF RGB-D 相机模块的其他温和校准退化。这些影响可以通过 RGB 相机的主点 cx、cy 和相对平移参数 tx、ty [7, 37] 的变化充分建模；而其余参数可以被视为不变的。因此，它需要对ToF RGB-D相机模块执行在线校准和对齐。

通过上述实际设置，我们假设ToF传感器和RGB相机已经使用标准程序进行校准，例如，使用[38]，因此具有已知的初始相机参数。但是，部署过程中参数集 {cx, cy , tx, ty } 会发生变化。我们称这种ToF RGB-D相机模块为弱校准。因此，在下文中，我们还假设ToF振幅图像和ToF深度图像都是根据初始相机参数，我们的框架已经被校正并扭曲到 RGB 相机的视点 1 然而，对 {cx, cy , tx, ty } 的随机扰动会导致错位；因此执行在线对齐必须

虽然一个简单的解决方案是动态匹配它们的关键点，但这种方法在实践中失败了，因为ToF相机的成像过程与标准RGB相机[16]的成像过程有很大的不同。最重要的是，ToF振幅图像由位于模块上的单个光源照亮。此外，由于使用了红外频率，相同的材料在ToF振幅图像和彩色图像中可能具有不同的外观。

为了直接应用多视图几何，另一个困难是第二个问题——瞬时测量——如上所述。ToF传感器通过估计接收到的红外光的相移来近似真实深度，该光由场景几何、材料、光源本身等决定。除了电子设备常见的热噪声外，一个主要的误差来源是多径干扰(MPI)——源于ToF传感器的机制——使深度测量比实际测量更远[16]。

鉴于对齐和细化问题的耦合性质，借助高质量的 ToF RGB-D 数据来解决这些问题将是有益的。在本文中，我们提出了一种新的端到端深度学习框架，解决了现成的ToF RGB-D模块产生的深度图像的对齐和细化任务。我们的主要贡献包括：

(i)为了解决对齐问题，我们提出了一种有效的两阶段方法来估计ToF振幅和RGB图像之间的交叉模态流，利用原始深度测量，并使用专用的数据增强技术进行训练。

(ii) 对于 ToF 深度细化问题，我们提出了一种有效的架构 ToF 内核预测网络 (ToF-KPN)，它也使用了 RGB 图像。通过对原始KPN的简单更改，我们在提高深度质量的同时，在降低MPI方面实现了最先进的性能。

(iii) 很难收集足够的真实数据和高质量的地面实况进行训练。因此，我们使用计算机图形学中的工具为我们的问题合成数据集。我们称我们的数据集为ToF-FlyingThings3D，因为我们让各种物体漂浮在类似于FlyingThings3D数据集[25]的场景中。

2. 相关工作

据我们所知，我们是第一个提出 ToF RGB-D 相机模块的端到端深度对齐和细化框架的文献。由于现有的工作都没有与我们的设置相同，我们简要回顾了与我们框架的两个组件相关的工作，即跨模态对应匹配和ToF深度图像细化。

跨模态对应匹配。我们的工作在ToF振幅图像和RGB图像之间执行在线跨模态密集对应匹配，即光流估计，以解决对齐问题。在[5]中，作者提出了Log-Gabor直方图描述符(LGHD)，它采用多尺度、面向多的Log-Gabor滤波器从多光谱图像对中提取特征描述子，而Shen等人[31]利用多模态图像集中存在的结构变化。在 [8] 中，Chiu 等人。提出了跨模态立体，通过结合红色、绿色和蓝色的三个通道来模拟红外图像来提高 Microsoft Kinect [39] 的准确性。最近的工作[40]应用深度神经网络来解决使用校正后的近红外和RGB图像的跨光谱立体匹配的挑战性问题，其中提出了一种新的材料感知损失函数，专门用于车辆视觉的应用。上述工作都没有将ToF振幅作为替代模态，也没有在弱校准立体下匹配对应关系。此外，我们的方法通过利用ToF传感器获得的深度图像来估计流量，而其他工作没有考虑它。

ToF深度图像细化。已经有一些关于减轻连续波ToF深度图像误差的工作。早期的工作，如[13,11,10,27]，通常采用简化的假设，如MPI的两条路径公式，导致封闭形式的解决方案或昂贵的优化。另一项工作侧重于采集端，例如使用 GHz频段的信号而不是 MHz频段来减轻扩散环境中的 MPI [15, 20]，或者以牺牲顺序多重捕获为代价利用光路的极线几何 [3]。这些方法可以产生物理上准确的结果，但还没有准备好用于市场。与我们的方法密切相关的是最近基于深度学习的工作，它利用了物理上准确的合成数据。在[24]中，自动编码器(U-Net)用于直接学习MPI校正深度，而[34]则从针对端到端ToF成像管道的原始相关测量开始。郭等人。 [14] 提出了深度学习方法来解决多伪影帧融合。所有这些工作都旨在纯粹细化ToF传感器的深度图像，因此它们没有考虑相应的彩色图像。

3.对齐和细化

本节说明了我们的端到端框架，用于联合对齐和细化。特别是，我们首先估计用于图像对齐的跨模态密集光流，然后提出了一种新的架构——ToF 内核预测网络（ToF-KPN）用于深度细化。

3.1。跨模态密集流估计

我们通过估计一个流（表示为 W ∈ Rh×w×2）来解决对齐问题，其中 RGB 图像（用 IRGB 表示）和 ToF 幅度图像（用 IToF 表示）分别被视为第一和第二图像。我们将单通道 h × wimage I 的翘曲操作表示为 Iwarped = I ◦ W ，即，

其中 Iwarped(p) 表示图像 I 的第 p = (m, n) 个像素，类似于 I(p); Wx, Wy ∈ Rh×w 是估计的光流的 x 和 y 分量。如(1)所示的翘曲操作相对于翘曲场[19]是可微的。与经典的光流估计方法相比，最近基于卷积神经网络(CNNs)的方法不仅具有较强的学习/适应能力，而且在在多个尺度上利用空间和非局部信息方面也更好[23,9]。因此，我们将匹配任务视为使用 CNN 估计跨模态密集光流。我们将估计任务分为两个阶段：1）粗略的光流Wrough ∈ Rh×w×2 估计，2）流细化。在第一阶段，我们只基于 IRGB 和 IToF 计算流，而在第二阶段，我们利用 ToF 传感器的深度图像来细化流细节。

为了计算粗流，我们采用了具有代表性的架构FlowNetC[9]，尽管更高级的选择，如PWC-Net[35]，也适用。FlowNetC 是一个具有跳跃连接的 U-Net，其中编码器部分包含一个 Siamese 塔，然后是一个计算成本量的相关层。这种粗略的流量估计模块如图 2a 所示。

在第二阶段，我们通过使用轻量级融合 CNN 结合 ToF 传感器获得的深度图像来细化流。特别是，我们首先从ToF相机的角度扭曲深度图像，用DToF表示，到RGB相机DRGB的角度，即DRGB = DToF◦Wrough。对于弱校准模块，我们可以通过解决以下最小二乘问题，轻松地估计ToF振幅图像(初始校正后)和RGB图像之间的一组新的相机参数{t百科x, t百科y, c百科x, c百科y}

解决这个问题等价于求解可微线性系统。因此，它被嵌入到我们的细化网络中的组件中。然后我们可以将 DRGB 转换为另一个估计流 Wconvt（下标 convt 表示它从深度图像转换），由下式给出

最后，我们将 Warrough 和 Wconvt 连接起来并将它们馈送到轻量级融合 U-Net 中，该融合输出细化流 Wrefn。这种融合 CNN 的架构如图 2b 所示。在计算了精化流之后Wrefn，它应用于输入深度进行后期深度细化，即DToF◦Wrefn。为方便起见，在本文的其余部分中，我们简单地使用 D 来表示最终的扭曲深度 DToF ◦ Wrefn。

图2:跨模态流量估计的体系结构概述。首先通过FlowNetC估计粗略的光流。然后通过合并ToF传感器的深度测量来细化它。对于流细化，我们通过估计扰动相机参数来进行深度流转换。将转换后的流和粗流输入到一个小的融合网络中，得到细化流。

3.2.通过ToF核预测网络进行细化

众所周知，ToF深度测量存在MPI、“飞行像素”伪影和热噪声[16]等误差。此外，扭曲的深度D不能保证与RGB图像紧密对齐。因此，深度细化的后处理过程是必不可少的。内核预测网络(KPN)是最近提出的一种模型，它以数据驱动的方式对图像执行边缘感知自适应滤波[6,26,36]。给定深度图像 D，vanilla（原始）KPN 使用具有跳跃连接的 U-Net 来预测每个像素，该内核仅在其周围补丁上运行。具体来说，对于输出内核大小 k(k = 3 的 KPN，在我们的工作中使用），

其中Dout是输出深度，Dout(p)是它的第p个像素，patch(D(p))∈Rk2表示以像素p为中心的D的向量化补丁。像素级核wp∈Rk2和偏置b∈Rh×w是KPN的输出。换句话说，KPN 输出是一个大小为 h × w × (k2 + 1) 的 3-D 体积。我们将提出一种改进的KPN用于ToF深度图像细化，这在两个主要方面与(4)不同。

首先，我们凭经验发现，在深度细化任务中，vanilla KPN 内联以产生幅度非常小的内核 wp。在这种情况下，(4) 退化为 Dout ≈ b，KPN 的行为类似于 U-Net。为了充分利用KPN的滤波，我们对核权值进行归一化通过它们的绝对值之和，即

其中wp(i)是wp的第i个条目。其次，解决 MPI 具有挑战性，因为它在大范围内几乎均匀地引入了大误差，并且很难通过过滤来解决。因此，我们建议首先添加偏置项 b(p) 旨在校正 MPI，然后使用内核 ̂ wp 进行边缘感知过滤：

其中 patch([D + b](p)) 表示以像素 p 为中心的 D + b 上的补丁。我们将改进后的KPN称为ToF-KPN，因为它是为ToF深度图像细化而设计的。它以RGB图像IRGB、扭曲的ToF振幅图像IToF◦Wrefn和扭曲的深度D作为输入，输出D上元素滤波的参数。它的过滤方案如图3所示。我们进行了广泛的消融研究，并将在第5.2节中讨论修改的影响。这种简单的变化可以显著提高普通KPN的结果。

图 3：使用所提出的 ToF 内核预测网络（ToF-KPN）的深度细化架构概述。这里“Im2col”沿通道维度重新排列每个补丁，而“Sum3”沿通道维度求和。

3.3.损失函数

在我们的工作中，训练数据由具有完美地面真实和真实数据的合成数据组成。为了实现流量估计和深度细化的鲁棒性，我们在图像大小上平均应用ℓ1损失进行训练。跨模态光流估计。该模块使用了跨多个尺度的 ℓ1-loss。特别是，我们用 W (s) Ω 表示尺度 s 处的网络输出，用 W (s) gt 表示相应的基本事实，其中 Ω ∈ {粗糙, refn}。然后给定一个训练样本，其相关的损失为

这里 W (s) Ω (p) 和 W (s) gt (p) 都是 R2 向量，Ns 表示该尺度的像素数。我们使用与FlowNetC[9]相同的权重因子αs。

深度细化。选择合适的损失函数对于在没有MPI的情况下学习正确的几何图形和来自RGB图像的不相关纹理至关重要。该模块使用了输出深度上的ℓ1损失及其梯度。特别是，给定输出深度Dout和相应的groundtruth深度Dgt，其相关损失为

其中 N 是像素数，梯度是使用离散 Sobel 算子 [33] 计算的。在我们的实验中，我们设置λ = 10，让ToF-KPN以最小的MPI学习正确的几何图形，同时保留细节。我们将三个损失函数 L粗糙、Lrefn 和 Ldepth 相加以进行整体端到端训练。

4.数据集和增强

4.1. 合成数据

生成由于ToF深度传感的机制，缓解ToF深度测量的误差并不容易，例如，通过使用更长的曝光时间或更高的调制频率[15,20]。因此，为ToF相机收集大量地面真实深度图像是非常具有挑战性的。以前关于ToF信号处理的工作[4,34,14,24]我们选择使用计算机图形学的瞬态渲染来合成数据[19,32]。我们从这些先前工作的经验中学习来合成我们的数据集。

从技术上讲，我们遵循Su等人[34]在合成数据生成中提供的方法。此外，我们将不同大小的各种对象随机放入公开可用的Blenderscenes中，总共6250个不同的视图来训练我们的框架。我们以类似于为光流估计设计的FlyingThings3D数据集[25]的方式放置我们的对象。因此，我们称我们的数据集为 TFFingThings3D。我们还使用Blender中的Cycles渲染相应的RGB图像。这些共同形成了 {ToF 幅度、RGB、ToF 深度} 三元组，模仿现成的 ToF RGB-D 相机模块的输出。相应的地面真实深度是从Blender的Z-pass中获得的。每个数据点由ToF振幅、RGB图像、ToF深度图像和groundtruth深度图像组成，所有大小为640 × 480，在同一视点生成。我们随机留出 20% 的数据实例进行测试，而其余的用于训练。我们的合成数据的一个例子如图4的第一行所示。关于合成数据集的更多细节可以

4.2. 真实的数据收集

我们还收集了一个真实的数据集，其中包含几个智能手机，配备了RGB相机和Panasonic ToF深度传感器[1]。每个数据点由一个RGB图像、ToF振幅图像、深度图像和一个大小为640×480的二进制掩码组成。二进制掩码表示高置信度深度测量的位置。在训练期间，只有高置信度的深度测量被认为是基本事实。通过在每个数据样本的集合过程中仔细校准，我们通过扭曲将深度图像、ToF振幅图像、二进制掩码和RGB图像对齐到相同的视点。我们的真实数据集包括在不同光照下收集的 400 个场景，其中 42% 的样本属于室内，其余属于室外。这些数据样本补充了上述合成数据集。同样，20% 的真实数据被保留用于测试，其余用于训练。图 4.的第二行显示了真实数据的一个实例。

图 4：我们的数据集示例。第一行显示了我们的合成数据集的一个实例，从左到右分别是 RGB 图像、ToF 幅度、ToF 深度图像和地面实况深度。第二行显示了我们的真实数据集的一个实例，从左到右分别是 RGB 图像、ToF 幅度、ToF 深度图像和置信度掩码。我们使用青色来指示掩码上的可用像素。

4.3 通过多视图几何进行数据增强

我们现在配备了合成数据（第 4.1 节）和真实数据（第 4.2 节），其中每个数据样本都很好地对齐。在训练对齐模块和端到端训练期间，我们动态地从对齐的训练样本中生成未对齐的训练样本。通过这种方式，我们通过确保未对齐的ToF和RGB训练数据尽可能地覆盖相机参数的允许扰动来增强鲁棒性。

扰动范围由所使用的设备确定。具体来说，对于每个样本，我们在输入图像大小的 ±2.5% 内统一采样 cx, cy。对于大小为640 × 480的图像，这些扰动可能导致真正的对齐偏离初始校准20像素或更多。在我们的ToF RGB-D相机模块的所有初始tx中，我们表示绝对值最大的t 'x，类似于t 'y。然后我们分别在 t′x 和 t′y 的 ±30% 内均匀采样 tx 和 ty。通过多视图几何，我们使用生成的 {tx, ty , cx, cy } 从 ToF 传感器到虚拟 RGB 相机的视图计算前向光流。有了这个流，我们将地面真实深度和RGB图像扭曲到虚拟RGB相机的视图，从而得到地面真实深度和RGB图像进行训练。我们还将RGB图像的groundtruth逆流计算为第一个图像，ToF振幅图像计算为第二个图像。该逆光流用作训练对齐模块的监督信号。请注意，我们还更新了置信度掩码，该掩码指示由于扭曲而导致的遮挡像素或无效深度值。这些掩码用于优化(2)和损失计算，其中不考虑无效像素的贡献。

5.实验

5.1。训练规范

我们对对齐模块和细化模块都采用了预训练策略。在预训练期间，对齐模块以阶段方式进行训练，即我们首先只训练 FlowNetC 进行粗略流估计，然后我们包括流细化模块，两个 epoch。同时，我们对 ToF-KPN 进行了 40 个 epoch 的预训练。最后，我们将对齐和细化模块堆叠在一起，以进行 10 个 epoch 的整体端到端微调。对于所有训练，我们使用批量大小为 3 的 ADAM 优化器 [21]，其中图像随机裁剪为 384 × 512。从头开始训练时，学习率设置为 4 × 10−4，而在整体微调期间，学习率设置为 1 × 10−5。在这两种情况下，我们在每两个 epoch 之后对学习率采用 0.7 的阶梯衰减率。我们的实现基于 TensorFlow 框架 [2]。所有模型都在 Nvidia GTX1080 Ti GPU 上进行训练。5.2 节和第 5.3 节中报告的结果基于单独训练的对齐和细化模块，在第 5.4 节中，联合微调的 DEAR 框架。

5.2. 消融研究

与融合网络进行流细化。图2b中的摄像机参数估计是一个中间步骤，将原始深度信息引入流量估计，以及融合网络对粗糙光流进行细化。在此，我们在真实数据集和合成数据集上定量评估添加光流细化前后的流量估计结果，以及直接使用深度作为融合网络的输入。平均端点误差 (AEPE) 被用作客观评估的指标。

我们首先使用合成数据和真实数据验证了我们的对齐模块的准确性。具体来说，我们应用第 4.2 节中描述的方法从随机采样的相机参数中生成测试数据。为了对不同级别的扰动进行建模，我们生成了 6 组数据，每组数据包含 1000{ToF 幅度、RGB、ToF 深度} 三元组以及地面实况流，其中扰动是从正态分布中采样的，标准偏差增加。我们的实验表明，流细化模块始终可以提高准确性（表 1）。我们还定性地展示了图 5 中流细化的效果。

使用 ToF-KPN 进行深度细化。回想一下，对于深度细化，我们不仅通过利用RGB图像来增强深度细节，还减少了MPI和传感器噪声等ToF深度传感误差。这实验表明，我们提出的ToF-KPN架构可以实现卓越的细化质量。具体来说，我们针对几个网络和超参数变化验证了我们的细化模块（由 TOF-KPN 表示）的性能，它们是：

• U-NET：一个结构与我们的TOF-KPN的主干相同的U-Net，但它直接回归深度。它使用与TOFKPN相同的损失函数(8)进行监督。

•NOGRAD:与TOF-KPN的TOF-KPN相同，只是没有使用与TOF-KPN的(8)相比的额外梯度损失进行训练。

•非orm:与TOF-KPN相同，除了应用内核后添加偏差外，还不执行FTBIAS:与TOF-KPN相同。•非ormbias:应用内核后添加除偏差外的NONORM相同，即(4)中的香草KPN。

•非ormnobias:与NONORM相同，只是不添加偏置项。

我们遵循 [4, 34] 中的实验方法来分析模型行为。具体来说，我们以升序对输入深度和4米范围内的地面真实深度之间的像素误差进行排序，并将它们分为四个分位数，其中像素被分类。第一个分位数 (0 ∼ 25%) 由被识别为具有低误差的像素组成，而第二个分位数 (25 ∼ 50%) 和第三个 (50 ∼ 75%) 分位数是中误差和高误差像素。最后一个分位数中的错误被视为异常值。在我们的合成ToF-FlyingThings3D数据集的测试拆分上，我们计算单个类的整体MAE和MAE，并在表2中报告它们。

表2:ToF-FlyingThings3D数据集上深度细化模块的模型设计定量研究。

我们首先观察到我们的TOF-KPN在所有误差级别上提供了最好的MAE。通过比较TOF-KPN和 NOGRAD，我们注意到最大增益来自加权梯度损失，而不会导致 MAE 增加至少 60.9%。在相同的损失函数下，不同的模型架构也会导致不同的性能。行为最差的 KPN 变体是 NONOR-MAFTBIAS，即 vanilla KPN (4)，它们既没有核归一化，也没有首先添加偏差。对于这个模型，我们凭经验发现偏差很快占主导地位，而内核在训练期间退化为零。因此，网络的行为与 U-NET 非常相似，如第 3.2 节所述。为了减轻这种现象并充分利用 KPN 的力量，可以使用核归一化或事先应用偏差，导致 MSE 略小（AFTBIAS 和 NONORM）。然而，我们进一步注意到，对于 NONM，偏置项的贡献很小，因为它的性能与没有偏置项的模型相似，即 NONORMNOBIAS。执行核归一化并首先添加偏差，因为我们的 TOFKPN 导致最佳性能，比第二好的模型 AFTBIAS 有 6.8% 的显着优势。非ORFTBIAS和TOF-之间的主观比较KPN 也显示在图 6 中，其中 NONORMAFTBIA 具有主导偏差，而我们的 TOF-KPN 给出了更忠实的结果。

图6：图像片段的深度细化结果。vanilla KPN，即 (c) 中的 NONORMAFTBIAS，产生主导偏差项和递减核，其行为非常接近简单的 U-Net。如 (f) 所示，偏差图像与深度本身非常相似。相比之下，我们的方法产生了行为良好的偏差图像 (g)

5.3. ToF深度图像细化的比较

我们将我们提出的ToF-KPN与基于深度神经网络的最先进的ToF深度图像细化方法进行了比较。

ToF-FlyingThings3D 的实验。我们将我们的建议与其他两种代表性方法进行比较。第一个是Su等人[34]提出的深度端到端ToF管道，它将原始相关测量作为输入。在实验中，我们直接使用他们发布的模型，因为我们的 ToF-FlyingThings3D 数据集是使用与 [34] 相同的设置生成的。第二个竞争方法是基于自动编码器的 DEEPTOF 框架，它直接处理现成的 ToF 深度图像 [24]。原始 DEEPTOF 采用比我们的模型更小的模型，并在其真实数据集上进行训练。为了公平比较，我们用我们的 U-NETbackbone 替换他们的模型，并在我们的合成数据集上进行训练。我们还将欧几里得范数作为损失函数，如[24]所示。请注意，这两种方法将ToF深度图像和ToF幅度作为输入，即它们不使用RGB图像。为了公平起见，我们训练了TOF-的一个版本不以RGB图像作为输入的KPN。

表 3：与 ToF-FlyingThings3D 数据集上具有竞争力的 ToF 深度图像细化方法的定量比较。请注意，在此比较中，没有使用彩色图像作为输入。

在MAE方面的客观结果如表3所示。我们看到，我们的方法TOF-KPN以最小的模型参数实现了最佳性能。在图 7 中，我们展示了我们通过沿扫描线绘制深度值来减少 MPI 的能力。

图 7：显示了扫描线上不同方法的深度值，以及基本事实。绿色箭头表示MPI效应严重的位置。

FLAT[14]的实验。我们在 FLAT 数据集中提供的 120 个静态测试图像上将我们的细化与 FLAT 中的多反射模块 (MRM) 进行比较。MRM 使用 KPN 架构，但对原始相关测量执行过滤。我们使用从libfreenect2[28]中使用的默认去锯齿算法获得的深度作为输入，在FLAT的静态训练数据集上微调我们的模型。请注意，我们不会在没有完整背景环境的情况下对对象的图像进行训练和测试，这几乎没有 MPI 错误，而是占用整个 FLAT 数据集的大约一半。在测试中，我们实现了0.69 cm的MAE，而MRM的MAE为3.88 cm

5.4. 深度端到端对齐和细化框架的评估

在最后一个实验中，我们评估了我们的深度端到端对齐和细化 (DEAR) 框架在合成和真实数据集上的整体性能。为此，我们生成了 150 个额外的错位{ToF 幅度、RGB、ToF 深度} 三元组（与地面实况深度一致）进行测试。它们以随机抽样相机参数定义的新视图呈现。视觉结果如图8所示，其中前两行显示了合成数据的结果，而其余两行显示了我们真实数据的结果。为了可视化对齐质量，在图 8 的最后两列中，我们分别将 RGB 图像与相应的输入深度 DToF 和输出深度 Dout 混合。

图 8：我们的深度端到端对齐和细化框架的视觉结果。在前两行中，我们展示了合成数据的结果，而最后两行是弱校准ToF RGB-D相机模块拍摄的真实数据。

从数量上讲，通过组合单独训练的对齐和细化模块然后将它们应用于合成数据，平均深度 MAE 从 14.61 cm 减少到 2.90 cm。通过联合微调整体 DEAR 框架，平均 MAE 进一步减少到 2.81 cm。这表明我们的建议能够产生高质量的精细化深度，这些深度也与相应的RGB图像很好地对齐。更多的结果可以在补充材料中找到。

6.结论

我们提出了DEAR，一种用于弱校准ToF RGBD相机模块的深度端到端对齐和细化框架。我们的对齐模块估计跨模态光流，整合来自ToF深度的信息;我们的细化模块基于专门设计的核预测网络，解决了错误的ToF深度测量。为了获得用于训练的高质量数据，我们使用计算机图形学的工具合成了一个数据集 ToF-FlyingThings3D。进行了综合实验以证明我们的建议的有效性。

查看全文

http://www.dtcms.com/a/507256.html