当前位置: 首页 > wzjs >正文

网站开发私人培训想开广告公司怎么起步

网站开发私人培训,想开广告公司怎么起步,旅游网站建设风格,学而思网校官网作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang 单位:北京工业大学信息科学与技术学院,北京工业大学计算智能与智能系统北京市重点实验室,中科院自动化研究所模式识别国家重点实验室与多智…

  • 作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang

  • 单位:北京工业大学信息科学与技术学院,北京工业大学计算智能与智能系统北京市重点实验室,中科院自动化研究所模式识别国家重点实验室与多智能体系统实验室,湘潭大学自动化与电子信息学院,上海科技大学信息科学与技术学院

  • 论文标题:Multimodal Pretrained Knowledge for Real-world Object Navigation

  • 论文链接:https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf

  • 出版信息:Machine Intelligence Research (2025)

主要贡献

  • 提出了基于多模态预训练知识的现实世界物体导航方法,通过在关键点进行视觉-语言跨模态对齐,有效地监督机器人导航。

  • 构建了室内物体数据库,并开发了多模态对齐概念知识(MACK(indoor)),以支持各种场景下的物体检索。

  • 提出了目标位置预测策略,能够准确预测机器人接近目标物体的最佳位置和方向。

  • 在物理机器人上实现了该方法,并通过实验验证了其在现实世界环境中的优越性,成功率达到66.7%,优于现有方法。

研究背景

  • 视觉-语言导航(VLN)的挑战:大多数VLN研究集中在模拟环境,但在现实世界中,由于视觉和语言之间的错位,导致路径偏差,方法难以泛化。

  • 现有方法的局限性:现有方法在动态或复杂环境中泛化能力有限,尤其是在关键位置的语义概念理解、大规模空间导航和复杂决策过程中。

  • 多模态预训练知识的潜力:多模态预训练技术在未配对图像-文本匹配中表现出色,但尚未应用于现实世界的VLN任务。

研究方法

多模态预训练知识(MACK(indoor))

  • 通过Open Images V7数据集和实验室数据,收集了100个常见室内物体的词-区域对,构建了MACK(indoor)。

  • 每个语义概念的视觉原型表示通过平均相关区域表示获得,用于支持物体检索。

关键点筛选与优化

  • 在预先构建的2D网格地图上随机生成多个航点,去除非可导航区域的航点,并将剩余航点指定为关键点。

  • 通过战略性优化,确保生成的航点在关键位置(如交叉口、入口和视觉复杂区域)有效。

视觉-语言跨模态匹配

  • 使用Kinect v2.0相机捕获的RGB图像,应用自下而上的注意力机制提取图像区域特征。

  • 将语音命令转换为文本,通过MACK(indoor)映射到相应的特征表示,计算目标文本表示与图像区域特征之间的相似性。

目标可导航位置预测

  • 在成功匹配目标物体后,利用深度信息辅助路径规划,使机器人能够高效地接近目标物体。

  • 提出了一种结合目标物体深度信息和SLAM地图数据的方法,预测机器人接近目标物体的最佳位置和方向。

实验平台与实现

  • 在物理机器人上实现了该方法,机器人平台包括Kinect v2.0 RGB-D相机、支持杆、升降平台、联想9000P电脑、夹持器、专用支架和移动底盘。

实验

数据集与评估指标

  • 使用Open Images V7数据集和实验室收集的数据进行评估。

  • 采用“R@1”、“R@3”和“R@5”等指标评估多模态预训练知识在关联图像区域与文本描述方面的有效性,并记录平均最大相似度分数。

  • 通过平均路径长度(APL)、成功率(SR)、路径长度加权成功率(SPL)和平均导航时间等指标评估导航性能。

关键点密度的影响

  • 评估了不同关键点密度范围对导航效率的影响,发现优化后的关键点密度范围在3.5~4.5 m/point时,导航成功率最高,为66.7%。

与SOTA方法的比较

  • 与Sim-to-Real方法相比,所提出的方法在成功率和SPL方面分别提高了19.9和16.6个百分点。

不同物体对导航效率的影响

  • 发现较大物体更容易检索,导航性能更好,而较小或较远的物体匹配相似度分数较低,影响导航成功率,但通过“先裁剪后匹配”的策略可以提高性能。

动态和视觉复杂环境中的鲁棒性分析

  • 在不同光照条件和环境布局下进行导航实验,结果表明所提出的方法具有较强的泛化能力,在语义遮挡、相似干扰和复杂背景环境下,平均跨模态对齐相似度始终超过0.6。

讨论与未来工作

讨论

  • 所提出的方法在现实世界环境中表现出色,尤其是在关键点的视觉-语言对齐和目标位置预测方面。

  • 实验结果表明,该方法在动态和视觉复杂环境中具有较强的鲁棒性,但仍需进一步优化以应对极端条件(如黑暗环境)。

未来工作

  • 计划为机器人配备全景相机和高精度3D雷达系统,以提高感知能力。

  • 将现有的VLN模型(如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav)扩展到现实世界环境,以扩大其适用性。

  • 持续改进视觉-语言导航的鲁棒性、可靠性和适应性,缩小理论与实践之间的差距,最大化其现实世界的影响。

http://www.dtcms.com/wzjs/403021.html

相关文章:

  • 做网站需要公司北京网站推广营销服务电话
  • 惠州哪个房地产网站做的比较好百度搜索榜
  • 要修改wordpress目录下的文件权限首页关键词排名优化
  • 兖州网站建设百度视频seo
  • 免费网站建设公司电脑零基础培训学校
  • 两学一做11月答题网站杭州关键词推广优化方案
  • 商城网站设计需要哪些技术google play下载
  • 网站案例模版电脑培训中心
  • 全国信息企业公示网官网查询百度起诉seo公司
  • 四川建设网站外贸独立站建站
  • 京津冀协同发展调研报告北京网站seo技术厂家
  • 内蒙古建设厅门户网站免费seo推广软件
  • 想学app开发哪里有培训班商丘优化公司
  • 大学科技园东区 做网站百度网盘app免费下载安装老版本
  • 房地产网站建设公司推荐新手小白怎么做跨境电商
  • 做房地产资质是什么网站查网站关键词快速排名服务
  • 福州中小企业网站制作百度一下官方网页版
  • 代理登录网站百度提交网址入口
  • 怎么样自己做网站今天的新闻主要内容
  • 做亚马逊联盟一定要有网站吗成人用品哪里进货好
  • 仿win8网站模板网站优化排名软件网
  • 网站刚建好怎么做能让百度收录品牌营销做得好的品牌有哪些
  • 好的h5网站模板seo关键词是怎么优化的
  • c2c网站建设自己如何制作一个网页
  • 支付宝可以给第三方网站做担保么推广怎么做才可以赚钱
  • 做威客网站有何前途seo咨询推广找推推蛙
  • 网站建设调查分析seo是什么缩写
  • 深圳制作外贸网站站长之家关键词挖掘
  • 网站开发流程需要用到的语言做网络推广一个月的收入
  • 深圳wap网站建设互联网营销方法有哪些