当前位置：首页 > news >正文

基于全局拓扑图和双尺度图Transformer的视觉语言导航

news 2025/7/10 13:50:59

前言

本工作的主要贡献有：

（1）实时构建拓扑图，以便在全球行动空间中进行高效探索；

（2）使用图Transformer对拓扑图进行编码，并学习与指令的跨模态关系，以便动作预测可以依赖于远程导航记忆。

一、模型整体框架

1.1 任务描述

在VLN的离散情况下，环境是无向图 $G=\begin{Bmatrix} V, E \end{Bmatrix}$ ，其中 $V=\begin{Bmatrix} V_{i} \end{Bmatrix}^{K}_{i=1}$ 表示 $K$ 个可导航节点， $E$ 表示连接边。在时间步 $t$ ：

（1） $W=\begin{Bmatrix} w_{i} \end{Bmatrix}^{L}_{i=1}$ 是具有 $L$ 个单词的指令嵌入；

（2）代理接收其当前节点 $V_{t}$ 的全景图和位置坐标。其中全景图被分成 $n$ 个图像 $R_{t}=\begin{Bmatrix} r_{i} \end{Bmatrix}^{n}_{i=1}$ ，每个图像由图像特征向量 $r_{i}$ 和唯一方向表示；

（3）为了实现精细的视觉感知，使用带注释的对象边界框或自动对象检测器在全景图中提取 $m$ 个对象特征 $O_{t}=\begin{Bmatrix} o_{i} \end{Bmatrix}^{m}_{i=1}$ ；

（4）此外，代理还感知与其邻近节点集 $N(V_{t})$ 对应的若干可导航视图，以及这些节点的空间坐标，可能的局部动作空间 $A_{t}$ 包含导航到 $V_{i}\in N(V_{t})$ 并在 $V_{t}$ 停止；

（4）在代理决定在某个位置停止后，它需要预测全景中目标对象的位置。

1.2 模型介绍

模型的整体框架如下图所示：

可以看出，主要由以下几部分组成：

（1）视觉编码器：多层Transformer，输入为RGB特征和目标特征，输出为总的视觉特征；

（2）文本编码器：多层Transformer，输出为文本特征；

（3）拓扑图映射模块：动态构建已访问、当前、未访问节点，并输出节点的特征；

（4）细尺度多模态注意力模块 + 局部动作预测模块：整合对齐局部视觉特征和文本特征，并得到局部预测动作；

（5）粗尺度多模态注意力模块 + 全局动作预测模块：整合对齐全局视觉特征和文本特征，并得到全局预测动作；

（6）动态融合模块：融合局部和全局动作预测，得到最终动作预测结果。

二、难点

2.1 图谱图映射

环境图 $G$ 最初是代理未知的，代理沿路径逐渐构建自己的映射：

（1）总共包含三类节点：（a）访问过的节点；（b）当前节点；（c）可导航的节点：

（2）代理可以访问已访问节点和当前节点的全景视图。可导航节点还未经探索，只能从已访问的位置部分观察到；

（3）当代理到达新的节点后，需当前访问过的节点和可导航节点的视觉表示，如下图所示：

上图表示由节点 $d$ 到达节点 $e$ 后，将节点 $e$ 及其邻近的节点一同添加到当前时刻的环境图 $G$ 中。

2.1.1 节点的视觉表示

在时间步 $t$ ，代理接受节点 $V_{t}$ 的图像特征 $R_{t}$ 和目标特征 $O_{t}$ ：

（1）使用多层Transformer建模图像和目标的空间关系：

为了表示方便，将通过注意力层后的图像和目标特征仍然表示为 $R_{t}$ 和 $O_{t}$ 。

然后，通过 $R_{t}$ 和 $O_{t}$ 的平均池化来更新当前节点的视觉表示。由于代理也在 $V_{t}$ 处部分观察到 $N(V_{t})$ ：

（1）根据 $R_{t}$ 中相应的视图嵌入来累积这些可导航节点的视觉表示；

（2）如果从多个位置看到了一个可导航节点，将所有部分视图嵌入的平均作为其视觉表示。使用 $v_{i}$ 来表示每个节点 $V_{i}$ 的合并视觉表示。

2.2 粗交叉模态编码器

节点视觉特征 $v_{i}$ 添加位置编码和导航步编码：

（1）位置编码：将节点在地图中的位置嵌入到以自我为中心的视图中，即相对于当前节点的方向和距离；

（2）导航步编码：对于访问过的节点，编码最后一次访问时间步，对于未访问过的节点，编码为0。通过这种方式，访问的节点被编码为不同的导航历史，以提高与指令的一致性。

在图中添加一个“停止”节点 $v_{o}$ 来表示停止动作，并将其与所有其他节点连接。

2.2.1 图感知交叉模态编码器

（1）标准注意力仅考虑节点之间的视觉相似性，因此它可能会忽略比远处节点更相关的附近节点；

（2）为了解决这个问题，我们提出了图感知自注意力（GASA），它进一步考虑了图的结构来计算注意力。公式如下：

其中 $E$ 是从 $\varepsilon _{t}$ 得到的成对距离矩阵。

2.3 细交叉模态编码器

在 $R_{t}$ 中添加了两种类型的位置嵌入：

（1）第一种类型是地图中相对于起始节点的当前位置。这种嵌入有助于理解指令中的绝对位置，例如“去一楼的客厅”；

（2）对于 $V_{i}\in N(V_{t})$ ，我们添加了第二个位置嵌入，即每个相邻节点与当前节点的相对位置。它有助于编码器实现以自我为中心的方向，如“右转”。

为停止操作添加了一个特殊的“停止”标记 $r_{0}$ 。

2.4 动态融合

动态融合粗尺度和细尺度动作预测，以获得更好的全局动作预测。

（1）由于细尺度编码器预测是在局部空间，与粗尺度编码器的全局空间不匹配，因此，首先将局部动作得分转换为空间动作得分：

（2）计算融合预测的加权标量：

（3）得到最终动作的预测：

三、总结

（1）怎么判断一个模型是连续VLN还是离散VLN？

（2）拓扑图具体怎么实现的？

（2）拓扑图能应用到连续VLN中吗？

http://www.dtcms.com/a/53097.html

相关文章：

深度融合，智领未来丨zAIoT 全面集成 DeepSeek，助力企业迎接数据智能新时代

Qt6.8.2创建WebAssmebly项目使用FFmpeg资源

文件操作（详细讲解）（2/2）

使用LSTM对2D pose sequence进行行为分类

计算机毕业设计Python+Django+Vue3微博数据舆情分析平台微博用户画像系统微博舆情可视化(源码+ 文档+PPT+讲解)

html css网页制作成品——非遗文化京剧网页设计（5页）附源码

DeepSeek安全：AI网络安全评估与防护策略

大模型 LoRA

对WebSocket做一点简单的理解

Halcon:HObject与opencv:Mat互转

Linux下安装elasticsearch（Elasticsearch 7.17.23）

出现FullGC的排查思路

MATLAB程序介绍，三维环境下的IMM（交互式多模型），使用CV和CT模型，EKF作为滤波

如何在web页面下做自动化测试？

OCR识别技术在集装箱号码识别中的应用

LLM run

利用Postman和Apipost进行API测试的实践与优化-动态参数

SpringMvc的设计模式

Blazor-全局路由跳转事件

污酸提铼系统提升改造工艺

k8s面试题总结（十）

TDengine SQL查询语法

基于Spring Boot + Vue的图书个性化推荐系统(LW+PPT)

flask实现mvc模式

JVM内存结构和各种结构的作用

蓝桥备赛（11）- 数据结构、算法与STL

VMware虚拟机中CentOS8系统账户，忘记密码怎么找回

[内网安全] Windows 域认证 — Kerberos 协议认证

Objective-C 中 @synthesize VS @dynamic

每日一题——缺失的第一个正数