当前位置: 首页 > news >正文

视觉导航调研#1

视觉导航调研#1

1 navila
NaVILA: Legged Robot Vision-Language-Action Model for Navigation

official:
https://navila-bot.github.io/
code: just low-level
https://github.com/yang-zj1026/legged-loco

在这里插入图片描述
在这里插入图片描述
introduce:
https://zhuanlan.zhihu.com/p/16626747991
https://zhuanlan.zhihu.com/p/13839655787

2 openvla llama2 7B
在这里插入图片描述
introduce:
https://openvla.github.io/
code:
https://github.com/openvla/openvla
pdf:
https://arxiv.org/pdf/2406.09246

introduce:
https://mp.weixin.qq.com/s?__biz=MzU1NjEwMTY0Mw==&mid=2247603885&idx=1&sn=be2fa1fbd5ddb3459f38fe57cf259533&chksm=fbc92fc9ccbea6dfe93a7606ebb9ca4931de4b5b40353d85b7c9b2af91e4f87a0c02895cacb9&scene=27

https://zhuanlan.zhihu.com/p/17967374977

https://zhuanlan.zhihu.com/p/717294861

3 navid vicuna 7B(基于llama微调)
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

official:
https://pku-epic.github.io/NaVid/
code:
https://github.com/jzhzhang/NaVid-VLN-CE
pdf:
https://arxiv.org/pdf/2402.15852
在这里插入图片描述
introduce:
https://blog.csdn.net/weixin_37990186/article/details/144758001

4 uni-navid
A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
在这里插入图片描述
official:
https://pku-epic.github.io/Uni-NaVid/
未开源
pdf:
https://arxiv.org/pdf/2412.06224

introduce:
https://zhuanlan.zhihu.com/p/13025897072

5 RT-X
Open X-Embodiment: Robotic Learning Datasets and RT-X Models

论文原文:https://arxiv.org/abs/2310.08864
论文代码:https://github.com/google-deepmind/open_x_embodiment
项目主页:https://robotics-transformer-x.github.io/

在这里插入图片描述
评估指标:
轨迹长度(TL): 相邻导航点之间的距离,用于表示模型完成导航任务时走过的路径长度
导航误差(NE): 智能体最终停止的位置与目标位置之间的距离
成功率(SR): S/N, 表示模型在导航任务中成功到达目标的频率。成功定义为最终停止的位置与目标位置之间的距离小于一定的阈值(通常为 3 米),其中S表示成功次数,N表示导航次数。
Oracle成功率(OSR): 允许模型在任务过程中选择一个最接近目标的点,作为其最优停止点,即不强制要求最终的停止位置,只要路过目标位置,也算成功。在整个导航路径上,找到离目标位置最近的点来计算成功率,而不仅仅是依赖最终停止点的位置。
成功加权路径长度(SPL): 用于综合考量导航的成功率与路径效率,Si表示第 i次导航是否成功,成功的话即为1,不成功即为0,lopt表示最优的路径(最短路径), lnav表示实际的导航路径。

相关文章:

  • TIT-2014《Randomized Dimensionality Reduction for $k$-means Clustering》
  • 计算机网络中的路由算法:互联网的“路径规划师”
  • 7:OpenCV—图像形态学处理
  • 使用 C/C++ 和 OpenCV 进行像素级卷积核运算
  • 【创造型模式】抽象工厂方法模式
  • 科学计算中的深度学习模型精解(2)(RNN,LSTM,Transformer,KAN)
  • 从脑电图和大脑记录中学习稳健的深度视觉表征
  • 我爱学算法之—— 二分查找(下)
  • 思科硬件笔试面试题型解析
  • 【软件测试】第三章·软件测试基本方法(缺陷模式、模型、形式化测试方法)
  • go 访问 sftp 服务 github.com/pkg/sftp 的使用踩坑,连接未关闭(含 sftp 服务测试环境搭建)
  • 云原生安全:Linux命令行操作全解析
  • UniApp === H5实现主题切换
  • [创业之路-376]:企业战略管理案例分析-战略制定/设计-市场洞察“五看”:看宏观之当前的社会发展趋势与战略应对
  • 开源与闭源之争:AI时代的创新博弈与未来抉择
  • 【Linux手册】Linux权限:系统世界的“门禁卡”
  • pytest+allure+allure-pytest 报告输出遇到的问题汇总
  • 讯飞AI相关sdk集成springboot
  • 在UniApp中开发微信小程序实现图片、音频和视频下载功能
  • C++ 内存管理与单例模式剖析
  • 常州微信网站建设流程/网络工程师培训一般多少钱
  • 国家建设部网站2018年/seo前景
  • 记事本做网站怎么改字体颜色/百度seo 优化
  • 模版网站商城/成人职业技能培训班
  • 株洲企业网站建设工作/网站整站优化
  • 论坛类网站建站/国外常用的seo站长工具