当前位置：首页 > news >正文

双层BEV启发式具身导航路径规划新范式！Dual-BEV Nav：非结构化户外环境中的机器人导航

news 2025/8/21 16:30:20

作者：Jianfeng Zhang $^{1}$ , Hanlin Dong $^{1}$ , Jian Yang $^{2}$ , Jiahui Liu $^{3}$ , Shibo Huang $^{1}$ , Ke Li $^{2}$ , Xuan Tang $^{1}$ , Xian Wei $^{1}$ , Xiong You $^{2}$
单位： $^{1}$ 华东师范大学软件工程学院， $^{2}$ 信息工程大学地理空间信息学院， $^{3}$ 福建师范大学计算机与网络安全学院
论文标题：Dual-BEV Nav: Dual-layer BEV-based Heuristic Path Planning for Robotic Navigation in Unstructured Outdoor Environments
论文链接：https://arxiv.org/pdf/2501.18351

双层BEV启发式路径规划（Dual-BEV Nav）：结合了局部和全局的BEV表示，用于在无结构户外环境中进行机器人导航。通过将局部和全局的可行驶性识别结合起来，实现了长距离导航。
局部BEV规划模型（LBPM）：基于BEV的端到端导航模型，能够显著增强机器人在复杂环境中识别可行驶性的能力，而不需要进行可驾驶区域的显式分割，提高了路径规划的精度和适应性。
全局BEV规划模型（GBPM）：通过概率图提供全局提示的全局BEV模型，有效减少了机器人对精确先验地图的依赖。通过从俯视图中学习可行驶性，提供了全局的可行驶性信息。
通过在公共数据集和现实世界场景中进行实验，与基线方法相比，Dual-BEV Nav在时间距离预测准确性上提高了高达18.7%，并且在现实世界部署中成功实现了65米长的户外导航。

该问题的研究难点包括：

输入：包括上下文观察（ $o_{t-P:t-1}$ ）和当前观察（ $o_t$ ）。
BEV视图变换：通过BEV视图变换方法增强机器人识别可行驶性和适应无结构环境的能力。
特征提取：使用LSS方法提取BEV特征，通过EfficientNet从前置摄像头提取图像特征，并预测每个像素的离散深度分布。深度估计后，将2D像素特征（ $Fea_{i}^{2D}$ ）提升到3D特征（ $Fea_{i}^{3D}$ ）：
$Fea_{i}^{3D} = D_{i}^{\text{estimate}} \cdot Fea_{i}^{2D}$
BEV投影：将3D特征点云投影到2D BEV平面上，并使用BEV池化操作整合每个BEV网格上的所有特征。

输入：对于导航任务，输入包括环境上下文表示（ $o_{t-P}$ ）、当前观察（ $o_t$ ）和目标观察（ $o_w$ ）。
BEV视图变换模块：提高潜在特征的准确性。
目标函数：采用VIB方法训练目标函数，以建立输出之间的强相关性，并最小化KL散度，确保潜在特征的一致性：
$\mathcal{L}_{VIB}(\theta, \phi) = E_{\tau} \left[ -E_{p_{\phi}} \left[ \log q_{\theta} \left( \{d\}_{t:t+H} | z_{t}^{w}, o_{t-P:t} \right) + \lambda \log q_{\theta} \left( \{a, x\}_{t:t+H} | z_{t}^{w}, o_{t-P:t} \right) \right] + \beta \text{KL} \left( p_{\phi} \left( z_{t}^{w} | o_{w}, o_{t-P:t} \right) || r \left( z_{t}^{w} \right) \right) \right]$
其中， $\tau, p_{\phi}, q_{\theta}, z_{t}^{w}, d, a, x, H, \lambda, \beta$ 分别代表小批量数据、编码器、解码器、潜在特征、时间距离、路径点、GPS偏移、预测步长、平衡参数和KL散度调整参数。

通过U-Net模型实现可行驶性分割。U-Net是一种用于图像分割的卷积神经网络，适用于从俯视图中提取可行驶性信息。
为了避免前景和背景之间的像素不平衡问题，GBPM使用二值焦点损失（Binary Focal Loss）进行训练。焦点损失的公式如下： $\text{Focal Loss} = -\alpha \cdot (1 - p_{t})^{\gamma} \cdot \log(p_{t})$
其中， $p_{t}$ 是通过sigmoid函数获得的可行驶性预测概率， $\alpha$ 是一个因子， $\gamma$ 调整对分类良好的样本和难分类样本的重视程度。

路径生成和评分：LBPM生成多个潜在的可行路径，提供时间距离、GPS偏移和路径点信息。GBPM将俯视图编码为全局概率图，并将这些路径投影到该图上。
路径评分公式：使用以下公式评估路径的成本，并选择最优路径：
$KaTeX parse error: Expected 'EOF', got '_' at position 67: … \text{temporal_̲distance}$
其中， $k$ 是预设参数，用于调整GBPM和LBPM之间的重要性。

公共数据集上的模拟：
- 使用RECON数据集进行模型训练和测试。RECON数据集包含来自9个不同真实场景的超过5,000条轨迹，包括车载摄像头图像、GPS坐标和其他维度特征。
- 使用Google Maps API获取俯视图像。
- 数据集分为训练集和测试集，每个模型在训练集上进行训练，并在测试集上评估其性能。
现实世界部署：
- 在学校环境中进行实验，该环境包括大量草地、林地和建筑物。
- 选择一个树荫下的轨迹作为导航实验的预期轨迹，并在同一场景中选择几个目标点进行信号-目标探索实验。

时间距离预测：时间距离表示从当前位置到达子目标所需的时间步数，反映了到达子目标的难度。通过比较不同方法在时间距离预测上的表现来验证所提方法的改进。
远/近目标分类准确率：评估目标图像的时间距离分类准确率，具体来说，时间距离在0到10之间的目标被标记为“近”，在10到20之间的被标记为“远”。
时间距离预测准确率：在不同误差阈值下评估预测的准确性。结果显示，使用上下文信息的方法（本文方法和GNM）在时间距离预测上优于仅基于当前观察的方法（ViKiNG）。

导航任务：
- 在导航任务中，尽管测试环境与训练数据集在建筑风格和地表植被上有显著差异，所提方法表现出显著的鲁棒性，并在所有方法中表现最佳。
- 在65米长的路径上成功完成导航任务，展示了在多急转弯路径上的优异性能。
- 与其他基线方法相比，ViKiNG和GNM在识别可行驶性方面能力较低，导致路径偏离预期。而LBPM在没有全局提示的情况下可以实现一定距离的导航，但在路径偏离和碰撞方面存在不足。LBPM和GBPM的结合成功地完成了导航任务。

单目标探索任务：
- 设置不同距离的目标，目标分为三个级别：Easy（距当前位置小于10米）、Medium（10-20米）和Hard（大于20米）。
- 在没有全局提示的情况下，LBPM在Hard和Medium级别上优于基线方法。加入全局提示后，LBPM+GBPM在中等难度级别上实现了100%的任务完成率，在Hard级别上达到了80%的成功率，平均位移为31米。