当前位置：首页 > wzjs >正文

临安网站开发百度一下打开网页

wzjs 2025/8/8 2:16:49

临安网站开发,百度一下打开网页,外贸网站国际化怎么做,微信客户管理作者：Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang 单位：北京工业大学信息科学与技术学院，北京工业大学计算智能与智能系统北京市重点实验室，中科院自动化研究所模式识别国家重点实验室与多智…

作者：Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang
单位：北京工业大学信息科学与技术学院，北京工业大学计算智能与智能系统北京市重点实验室，中科院自动化研究所模式识别国家重点实验室与多智能体系统实验室，湘潭大学自动化与电子信息学院，上海科技大学信息科学与技术学院
论文标题：Multimodal Pretrained Knowledge for Real-world Object Navigation
论文链接：https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf
出版信息：Machine Intelligence Research (2025)

主要贡献

提出了基于多模态预训练知识的现实世界物体导航方法，通过在关键点进行视觉-语言跨模态对齐，有效地监督机器人导航。
构建了室内物体数据库，并开发了多模态对齐概念知识（MACK(indoor)），以支持各种场景下的物体检索。
提出了目标位置预测策略，能够准确预测机器人接近目标物体的最佳位置和方向。
在物理机器人上实现了该方法，并通过实验验证了其在现实世界环境中的优越性，成功率达到66.7%，优于现有方法。

研究背景

视觉-语言导航（VLN）的挑战：大多数VLN研究集中在模拟环境，但在现实世界中，由于视觉和语言之间的错位，导致路径偏差，方法难以泛化。
现有方法的局限性：现有方法在动态或复杂环境中泛化能力有限，尤其是在关键位置的语义概念理解、大规模空间导航和复杂决策过程中。
多模态预训练知识的潜力：多模态预训练技术在未配对图像-文本匹配中表现出色，但尚未应用于现实世界的VLN任务。

研究方法

多模态预训练知识（MACK(indoor)）

通过Open Images V7数据集和实验室数据，收集了100个常见室内物体的词-区域对，构建了MACK(indoor)。
每个语义概念的视觉原型表示通过平均相关区域表示获得，用于支持物体检索。

关键点筛选与优化

在预先构建的2D网格地图上随机生成多个航点，去除非可导航区域的航点，并将剩余航点指定为关键点。
通过战略性优化，确保生成的航点在关键位置（如交叉口、入口和视觉复杂区域）有效。

视觉-语言跨模态匹配

使用Kinect v2.0相机捕获的RGB图像，应用自下而上的注意力机制提取图像区域特征。
将语音命令转换为文本，通过MACK(indoor)映射到相应的特征表示，计算目标文本表示与图像区域特征之间的相似性。

目标可导航位置预测

在成功匹配目标物体后，利用深度信息辅助路径规划，使机器人能够高效地接近目标物体。
提出了一种结合目标物体深度信息和SLAM地图数据的方法，预测机器人接近目标物体的最佳位置和方向。

实验平台与实现

在物理机器人上实现了该方法，机器人平台包括Kinect v2.0 RGB-D相机、支持杆、升降平台、联想9000P电脑、夹持器、专用支架和移动底盘。

实验

数据集与评估指标

使用Open Images V7数据集和实验室收集的数据进行评估。
采用“R@1”、“R@3”和“R@5”等指标评估多模态预训练知识在关联图像区域与文本描述方面的有效性，并记录平均最大相似度分数。
通过平均路径长度（APL）、成功率（SR）、路径长度加权成功率（SPL）和平均导航时间等指标评估导航性能。

关键点密度的影响

评估了不同关键点密度范围对导航效率的影响，发现优化后的关键点密度范围在3.5~4.5 m/point时，导航成功率最高，为66.7%。

与SOTA方法的比较

与Sim-to-Real方法相比，所提出的方法在成功率和SPL方面分别提高了19.9和16.6个百分点。

不同物体对导航效率的影响

发现较大物体更容易检索，导航性能更好，而较小或较远的物体匹配相似度分数较低，影响导航成功率，但通过“先裁剪后匹配”的策略可以提高性能。

动态和视觉复杂环境中的鲁棒性分析

在不同光照条件和环境布局下进行导航实验，结果表明所提出的方法具有较强的泛化能力，在语义遮挡、相似干扰和复杂背景环境下，平均跨模态对齐相似度始终超过0.6。

讨论与未来工作

讨论

所提出的方法在现实世界环境中表现出色，尤其是在关键点的视觉-语言对齐和目标位置预测方面。
实验结果表明，该方法在动态和视觉复杂环境中具有较强的鲁棒性，但仍需进一步优化以应对极端条件（如黑暗环境）。

未来工作

计划为机器人配备全景相机和高精度3D雷达系统，以提高感知能力。
将现有的VLN模型（如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav）扩展到现实世界环境，以扩大其适用性。
持续改进视觉-语言导航的鲁棒性、可靠性和适应性，缩小理论与实践之间的差距，最大化其现实世界的影响。

http://www.dtcms.com/wzjs/260853.html

相关文章：

比较好的wordpress插件网络优化seo薪酬

淘宝网商务网站建设目的电商平台建设方案

德国网站建设seo外包公司优化

win7系统下动网站建设河北seo网络优化师

给企业做网站前景搜索关键词技巧

阿拉伯语网站怎么做百度明星人气榜入口

广州越秀建网站的公司多层次网络营销合法吗

网站做抢红包活动广告语做推广

中国建设官方网站首页seo sem优化

有做二手厨房设备的网站吗怎么推广自己的店铺

wordpress零食模版百度seo排名工具

怎么把别人网站源码弄出来seo短视频发布页

网站建设开发电脑培训班零基础

园林景观设计公司排名关键词优化武汉

挂网站需要什么服务器seo排名哪家正规

北京建设银行网站田村百度免费推广登录入口

网站怎么seo网络营销服务有哪些

网站建设金手指排名信誉负面口碑营销案例

东莞排名seo网站关键词优化网络营销章节测试答案

成都优化网站常用网站推广方法及资源

荆门网站建设电话咨询石家庄网站建设方案

做商业网站的服务费维护费国家培训网官网

贵阳做网站需要多少钱seo网站优化培训多少价格

大叔 wordpressseowhy官网

做ppt的模板网站seo基础入门教程

网站名百度搜不到搜索引擎营销的方法不包括

使用微信做网站第三方登录网络宣传推广方案

网站收银系统建设怎样开自己的网站

龙华网站制作公司百度灰色关键词排名推广

东营做网站seo链接优化建议