当前位置：首页 > news >正文

视觉导航调研#1

news 2025/7/10 2:26:58

视觉导航调研#1

1 navila
NaVILA: Legged Robot Vision-Language-Action Model for Navigation

official:
https://navila-bot.github.io/
code: just low-level
https://github.com/yang-zj1026/legged-loco

在这里插入图片描述

introduce:
https://zhuanlan.zhihu.com/p/16626747991
https://zhuanlan.zhihu.com/p/13839655787

2 openvla llama2 7B
在这里插入图片描述
introduce:
https://openvla.github.io/
code:
https://github.com/openvla/openvla
pdf:
https://arxiv.org/pdf/2406.09246

introduce:
https://mp.weixin.qq.com/s?__biz=MzU1NjEwMTY0Mw==&mid=2247603885&idx=1&sn=be2fa1fbd5ddb3459f38fe57cf259533&chksm=fbc92fc9ccbea6dfe93a7606ebb9ca4931de4b5b40353d85b7c9b2af91e4f87a0c02895cacb9&scene=27

https://zhuanlan.zhihu.com/p/17967374977

https://zhuanlan.zhihu.com/p/717294861

3 navid vicuna 7B(基于llama微调)
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation

official:
https://pku-epic.github.io/NaVid/
code:
https://github.com/jzhzhang/NaVid-VLN-CE
pdf:
https://arxiv.org/pdf/2402.15852
在这里插入图片描述
introduce:
https://blog.csdn.net/weixin_37990186/article/details/144758001

4 uni-navid
A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
在这里插入图片描述
official:
https://pku-epic.github.io/Uni-NaVid/
未开源
pdf:
https://arxiv.org/pdf/2412.06224

introduce:
https://zhuanlan.zhihu.com/p/13025897072

5 RT-X
Open X-Embodiment: Robotic Learning Datasets and RT-X Models

论文原文：https://arxiv.org/abs/2310.08864
论文代码：https://github.com/google-deepmind/open_x_embodiment
项目主页：https://robotics-transformer-x.github.io/

在这里插入图片描述
评估指标:
轨迹长度(TL): 相邻导航点之间的距离，用于表示模型完成导航任务时走过的路径长度
导航误差(NE): 智能体最终停止的位置与目标位置之间的距离
成功率(SR): S/N, 表示模型在导航任务中成功到达目标的频率。成功定义为最终停止的位置与目标位置之间的距离小于一定的阈值（通常为 3 米），其中S表示成功次数，N表示导航次数。
Oracle成功率(OSR): 允许模型在任务过程中选择一个最接近目标的点，作为其最优停止点，即不强制要求最终的停止位置，只要路过目标位置，也算成功。在整个导航路径上，找到离目标位置最近的点来计算成功率，而不仅仅是依赖最终停止点的位置。
成功加权路径长度(SPL): 用于综合考量导航的成功率与路径效率，Si表示第 i次导航是否成功，成功的话即为1，不成功即为0，lopt表示最优的路径(最短路径)， lnav表示实际的导航路径。