当前位置: 首页 > wzjs >正文

手机架设网站工业互联网建设

手机架设网站,工业互联网建设,施工企业搭建的彩钢房如何做账务,莱州网站建设教程前言 本工作的主要贡献有: (1)实时构建拓扑图,以便在全球行动空间中进行高效探索; (2)使用图Transformer对拓扑图进行编码,并学习与指令的跨模态关系,以便动作预测可以…

前言

本工作的主要贡献有:

(1)实时构建拓扑图,以便在全球行动空间中进行高效探索;

(2)使用图Transformer对拓扑图进行编码,并学习与指令的跨模态关系,以便动作预测可以依赖于远程导航记忆。


一、模型整体框架

1.1 任务描述

在VLN的离散情况下,环境是无向图 G=\begin{Bmatrix} V, E \end{Bmatrix},其中 V=\begin{Bmatrix} V_{i} \end{Bmatrix}^{K}_{i=1} 表示 K 个可导航节点,E 表示连接边。在时间步 t :

(1)W=\begin{Bmatrix} w_{i} \end{Bmatrix}^{L}_{i=1}是具有 L 个单词的指令嵌入;

(2)代理接收其当前节点 V_{t} 的全景图和位置坐标。其中全景图被分成 n 个图像R_{t}=\begin{Bmatrix} r_{i} \end{Bmatrix}^{n}_{i=1},每个图像由图像特征向量 r_{i} 和唯一方向表示;

(3)为了实现精细的视觉感知,使用带注释的对象边界框或自动对象检测器在全景图中提取 m 个对象特征O_{t}=\begin{Bmatrix} o_{i} \end{Bmatrix}^{m}_{i=1}

(4)此外,代理还感知与其邻近节点集N(V_{t})对应的若干可导航视图,以及这些节点的空间坐标,可能的局部动作空间 A_{t} 包含导航到 V_{i}\in N(V_{t})并在 V_{t} 停止;

(4)在代理决定在某个位置停止后,它需要预测全景中目标对象的位置。


1.2 模型介绍

模型的整体框架如下图所示:

可以看出,主要由以下几部分组成:

(1)视觉编码器:多层Transformer,输入为RGB特征和目标特征,输出为总的视觉特征;

(2)文本编码器:多层Transformer,输出为文本特征;

(3)拓扑图映射模块:动态构建已访问、当前、未访问节点,并输出节点的特征;

(4)细尺度多模态注意力模块 + 局部动作预测模块:整合对齐局部视觉特征和文本特征,并得到局部预测动作;

(5)粗尺度多模态注意力模块 + 全局动作预测模块:整合对齐全局视觉特征和文本特征,并得到全局预测动作;

(6)动态融合模块:融合局部和全局动作预测,得到最终动作预测结果。


二、难点

2.1 图谱图映射

环境图 G 最初是代理未知的,代理沿路径逐渐构建自己的映射:

(1)总共包含三类节点:(a)访问过的节点;(b)当前节点;(c)可导航的节点:

(2)代理可以访问已访问节点和当前节点的全景视图。可导航节点还未经探索,只能从已访问的位置部分观察到

(3)当代理到达新的节点后,需当前访问过的节点和可导航节点的视觉表示,如下图所示:

上图表示由节点 d 到达节点 e 后,将节点 e 及其邻近的节点一同添加到当前时刻的环境图 G 中。

2.1.1 节点的视觉表示

在时间步 t ,代理接受节点 V_{t} 的图像特征 R_{t} 和目标特征 O_{t}

(1)使用多层Transformer建模图像和目标的空间关系:

为了表示方便,将通过注意力层后的图像和目标特征仍然表示为 R_{t} 和 O_{t} 。

然后,通过 R_{t} 和 O_{t} 的平均池化来更新当前节点的视觉表示。由于代理也在 V_{t} 处部分观察到N(V_{t})

(1)根据 R_{t} 中相应的视图嵌入来累积这些可导航节点的视觉表示;

(2)如果从多个位置看到了一个可导航节点,将所有部分视图嵌入的平均作为其视觉表示。使用 v_{i} 来表示每个节点 V_{i} 的合并视觉表示。


2.2 粗交叉模态编码器

节点视觉特征v_{i} 添加位置编码和导航步编码:

(1)位置编码:将节点在地图中的位置嵌入到以自我为中心的视图中,即相对于当前节点的方向和距离;

(2)导航步编码:对于访问过的节点,编码最后一次访问时间步,对于未访问过的节点,编码为0。通过这种方式,访问的节点被编码为不同的导航历史,以提高与指令的一致性。

在图中添加一个“停止”节点 v_{o} 来表示停止动作,并将其与所有其他节点连接。

2.2.1 图感知交叉模态编码器

(1)标准注意力仅考虑节点之间的视觉相似性,因此它可能会忽略比远处节点更相关的附近节点;

(2)为了解决这个问题,我们提出了图感知自注意力(GASA),它进一步考虑了图的结构来计算注意力。公式如下:

其中 E 是从 \varepsilon _{t} 得到的成对距离矩阵。


2.3 细交叉模态编码器

在 R_{t} 中添加了两种类型的位置嵌入:

(1)第一种类型是地图中相对于起始节点的当前位置。这种嵌入有助于理解指令中的绝对位置,例如“去一楼的客厅”;

(2)对于V_{i}\in N(V_{t}),我们添加了第二个位置嵌入,即每个相邻节点与当前节点的相对位置。它有助于编码器实现以自我为中心的方向,如“右转”。

为停止操作添加了一个特殊的“停止”标记 r_{0}


2.4 动态融合

动态融合粗尺度和细尺度动作预测,以获得更好的全局动作预测。

(1)由于细尺度编码器预测是在局部空间,与粗尺度编码器的全局空间不匹配,因此,首先将局部动作得分转换为空间动作得分:

(2)计算融合预测的加权标量:

(3)得到最终动作的预测:


三、总结

(1)怎么判断一个模型是连续VLN还是离散VLN?

(2)拓扑图具体怎么实现的?

(2)拓扑图能应用到连续VLN中吗?


文章转载自:

http://IvwxqsR6.phLwj.cn
http://Mn3aRDbR.phLwj.cn
http://A6UGxqgR.phLwj.cn
http://kIvnDkoE.phLwj.cn
http://yJHe1Ltg.phLwj.cn
http://N2dqe44Z.phLwj.cn
http://WdbZ17AZ.phLwj.cn
http://SzaItSLQ.phLwj.cn
http://wpeLqOc5.phLwj.cn
http://n4JuaTXf.phLwj.cn
http://1tzs6a4D.phLwj.cn
http://DSlcTFBd.phLwj.cn
http://AXRCiSBM.phLwj.cn
http://tbLvvc5v.phLwj.cn
http://mKGTK3E6.phLwj.cn
http://csKesxjX.phLwj.cn
http://6YOWHGuZ.phLwj.cn
http://BbX3l9gV.phLwj.cn
http://0w3goEgg.phLwj.cn
http://ELIttn62.phLwj.cn
http://jVpgatU7.phLwj.cn
http://mRSbRbfM.phLwj.cn
http://lsL4xI9H.phLwj.cn
http://gKG3WqJB.phLwj.cn
http://bQk4fZBU.phLwj.cn
http://0kWcQpL5.phLwj.cn
http://3L8phZsG.phLwj.cn
http://LFOuGuMa.phLwj.cn
http://FdQtla7x.phLwj.cn
http://A3fRxUiy.phLwj.cn
http://www.dtcms.com/wzjs/627165.html

相关文章:

  • 中国空间站航天员app网站建设宣传方案
  • 株洲网站建设服务公司沈阳模板 网站建设
  • 北京公司网站如何制作有什么做设计接任务的网站
  • 青海省建设局网站怎么做云购网站吗
  • 想找人做网站做体育类网站素材
  • 红河州网站建设重庆网站托管外包公司哪家好
  • 武威市住房和建设局网站高校网站群建设的公司有哪些
  • 苏州网站建设风兰wordpress 调用文章第一张缩略图
  • 望牛墩做网站个人做电商网站
  • 做网站珊瑚橙颜色怎么搭配好看服务网络是什么意思
  • 做淘宝类网站的步骤网站的导航栏设计文本
  • 网站建设合同交什么印花税网站开发的实训内容
  • 贵阳微信网站制作中信建设内部网站
  • 1688货源网网站排名优化外包
  • 如何建设网站赚钱浙江高端建设网站
  • 网站建设与运营合同源码时代培训机构官网
  • 阿里巴巴能拿货在家里做的网站单位网站建设内容
  • 免费推广平台网站wordpress教程 导航
  • 周浦做网站公司在线制作简历模板免费
  • 网站推广计划包含的主要内容房产网贷平台
  • 建立网站备案的法律依据服装网站建设比较好
  • 公司网站建设需要哪些绵阳 网站建设
  • 自助建站软件自动建站系统永久免费asp空间
  • 网站的主色调四川在线城市论坛
  • 相亲网站怎么建设新增接入 新增网站
  • 网站建设询价采购竞价单页制作
  • 江西网站建设公司费用沈阳建设网站费用
  • 网站改版要重新备案吗福田欧曼官网
  • 网站架构推荐山西做网站
  • 网站用途seo搜论坛