视觉导航调研#1
视觉导航调研#1
1 navila
NaVILA: Legged Robot Vision-Language-Action Model for Navigation
official:
https://navila-bot.github.io/
code: just low-level
https://github.com/yang-zj1026/legged-loco
introduce:
https://zhuanlan.zhihu.com/p/16626747991
https://zhuanlan.zhihu.com/p/13839655787
2 openvla llama2 7B
introduce:
https://openvla.github.io/
code:
https://github.com/openvla/openvla
pdf:
https://arxiv.org/pdf/2406.09246
introduce:
https://mp.weixin.qq.com/s?__biz=MzU1NjEwMTY0Mw==&mid=2247603885&idx=1&sn=be2fa1fbd5ddb3459f38fe57cf259533&chksm=fbc92fc9ccbea6dfe93a7606ebb9ca4931de4b5b40353d85b7c9b2af91e4f87a0c02895cacb9&scene=27
https://zhuanlan.zhihu.com/p/17967374977
https://zhuanlan.zhihu.com/p/717294861
3 navid vicuna 7B(基于llama微调)
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation
official:
https://pku-epic.github.io/NaVid/
code:
https://github.com/jzhzhang/NaVid-VLN-CE
pdf:
https://arxiv.org/pdf/2402.15852
introduce:
https://blog.csdn.net/weixin_37990186/article/details/144758001
4 uni-navid
A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks
official:
https://pku-epic.github.io/Uni-NaVid/
未开源
pdf:
https://arxiv.org/pdf/2412.06224
introduce:
https://zhuanlan.zhihu.com/p/13025897072
5 RT-X
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
论文原文:https://arxiv.org/abs/2310.08864
论文代码:https://github.com/google-deepmind/open_x_embodiment
项目主页:https://robotics-transformer-x.github.io/
评估指标:
轨迹长度(TL): 相邻导航点之间的距离,用于表示模型完成导航任务时走过的路径长度
导航误差(NE): 智能体最终停止的位置与目标位置之间的距离
成功率(SR): S/N, 表示模型在导航任务中成功到达目标的频率。成功定义为最终停止的位置与目标位置之间的距离小于一定的阈值(通常为 3 米),其中S表示成功次数,N表示导航次数。
Oracle成功率(OSR): 允许模型在任务过程中选择一个最接近目标的点,作为其最优停止点,即不强制要求最终的停止位置,只要路过目标位置,也算成功。在整个导航路径上,找到离目标位置最近的点来计算成功率,而不仅仅是依赖最终停止点的位置。
成功加权路径长度(SPL): 用于综合考量导航的成功率与路径效率,Si表示第 i次导航是否成功,成功的话即为1,不成功即为0,lopt表示最优的路径(最短路径), lnav表示实际的导航路径。