当前位置：首页 > news >正文

社交机器人具身导航新范式！AutoSpatial：通过高效空间推理学习实现机器人视觉语言推理和社交导航

news 2025/9/17 10:33:00

作者：Yangzhe Kong, Daeun Song, Jing Liang, Dinesh Manocha, Ziyu Yao, and Xuesu Xiao
单位：乔治梅森大学，马里兰大学
论文标题：AutoSpatial: Visual-Language Reasoning for Social Robot Navigation through Efficient Spatial Reasoning Learning
论文链接：https://arxiv.org/pdf/2503.07557
代码链接：https://github.com/Yanko96/AutoSpatial (coming soon)

主要贡献

提出了基于视觉语言模型（VLM）的方法AutoSpatial，通过结构化的空间定位和自动标注的视觉问答（VQA）对，显著提升了VLM在社会导航中的空间推理能力。
引入了自动数据标注策略，结合两轮VQA结构，高效解决了特定领域数据稀缺问题，同时分层增强了空间理解能力。
通过专家系统（如GPT-4o、Gemini 2.0 Flash、Claude 3.5 Sonnet）的交叉验证评分和人类评估者的相对排名，证明了AutoSpatial在感知与预测、推理、行动和解释等方面的显著优势。

研究背景

社会导航是人机交互中的一个基本挑战，要求机器人不仅能够避开障碍物，还要以符合社会规范的方式进行导航。尽管传统方法和基于学习的方法已经取得了一定进展，但在动态和社交环境中仍面临关键挑战。
近年来，视觉语言模型（VLM）在机器人推理方面展现出巨大潜力，但在社会导航中的应用受到限制，主要原因是缺乏空间推理能力，例如无法准确预测人类运动和人机交互，导致在动态社交环境中的决策不够理想。
此外，现有的自然语言注释数据集主要关注自动驾驶等结构化驾驶场景，而涉及行人交互、复杂社交规范的图像文本数据集尚未得到充分探索，这使得VLM难以在没有大量人工监督的情况下进行有效泛化。

研究方法

结构化空间定位

将空间关系分解为两个独立组件：人类的位置描述（包括角度位置和距离）以及人类运动方向的描述。
通过将机器人视野划分为五个区域和五级距离分类，并采用相对坐标系统描述行人运动方向，消除了相对方向描述中的模糊性，为感知和预测提供了统一的参考框架。

数据标注

自动标注的VQA对：
- 基于CODA数据集，利用规则启发式方法生成VQA对，涵盖空间感知、运动预测和交互描述三个方面。
- 空间感知包括行人的位置和运动方向描述；运动预测分析短期轨迹，识别运动模式；交互描述则识别各种交互模式，如轨迹冲突、路径交叉等。
手动标注：
- 从CODA数据集中挑选72个具有挑战性的场景进行手动标注，重点关注高行人密度环境、复杂社交分组模式以及需要从个体到群体理解的场景。
- 手动标注遵循结构化的5项任务格式：感知、预测、推理、最终行动和解释，并提供结构化空间定位指南以减少主观性。

两轮VQA结构

对于手动标注的场景，采用两轮VQA结构以实现分层学习。
第一轮是自动标注的VQA，关注个体行人的空间感知、预测和推理；
第二轮是手动标注，将个体描述整合为全面的场景描述，涵盖群体动态和高级空间推理。

实验

实验设置：
- 基于LLaVA-1.6 OneVision-7B模型进行实验，使用4个A100 80GB GPU。
- 采用AdamW优化器，学习率为2e-5，批大小为8，梯度累积步数为4。
- 评估框架包括自动化指标（针对CODA数据集的基本空间推理）和人类评估（针对SNEI基准的高级场景理解）。

结果：
- 在CODA基准测试中，AutoSpatial（AS-A72D1）在空间推理方面得分为0.710，显著优于仅使用手动标注的LLaVA-M（0.404）和原始LLaVA（0.376）。
- 在专家系统评估中，AutoSpatial在感知与预测、推理、行动和解释等方面均优于基线模型，平均交叉验证分数分别提高了10.71%、16.26%、20.50%和18.73%。
- 人类评估结果也显示，AutoSpatial在所有关键方面均优于基线模型。
- 消融研究表明，仅使用感知与预测VQA任务的模型在该方面表现良好，但在其他方面提升有限；仅使用推理VQA任务的模型在推理、行动和解释方面有所改善，但在基本空间理解上表现不佳。这表明不同类型的VQA任务与手动标注相结合才能实现最佳性能。
- 定性分析表明，AutoSpatial在识别关键参与者及其相对位置方面表现出色，能够提供更具体、符合社交规范的导航指令，但在理解人类微妙线索（如目光方向和身体姿态）方面仍存在不足。

结论与未来工作

结论：
- AutoSpatial通过结合自动标注数据和少量手动标注，显著提升了VLM在社会导航中的空间推理能力。
- 实验结果表明，自动标注的VQA对与手动标注相结合能够产生协同效应，即使在减少手动标注的情况下也能保持良好性能。
未来工作：
- 进一步改进人类行为理解能力，特别是对微妙社交线索的识别，以更好地处理复杂场景中的人类交互。
- 提高空间术语的一致性，确保模型在各种环境中都能准确使用标准化的空间描述。
- 融合时间序列信息，以更好地理解人类的连续运动和意图，并在多视角下保持一致的空间推理。

文章转载自：

http://XZU7U59Z.Lkxzb.cn
http://n92wBd7f.Lkxzb.cn
http://v7Z6G1ov.Lkxzb.cn
http://Qbgl12Gt.Lkxzb.cn
http://H58FX2Dc.Lkxzb.cn
http://GP408Xsb.Lkxzb.cn
http://7XQCBODu.Lkxzb.cn
http://bKVocZKC.Lkxzb.cn
http://Kg1cawdo.Lkxzb.cn
http://jQ6Ev0lK.Lkxzb.cn
http://X4B2u44x.Lkxzb.cn
http://r1veYoIx.Lkxzb.cn
http://Dxm2FPWe.Lkxzb.cn
http://RHxUKAcS.Lkxzb.cn
http://gkEZuPVI.Lkxzb.cn
http://dCxk6DiH.Lkxzb.cn
http://uxfaNsEt.Lkxzb.cn
http://Vx4SDy7G.Lkxzb.cn
http://aOO18yE4.Lkxzb.cn
http://5syw7xjg.Lkxzb.cn
http://zyGAA6eH.Lkxzb.cn
http://2XTDjvMc.Lkxzb.cn
http://7eBal6kF.Lkxzb.cn
http://aTFFtw04.Lkxzb.cn
http://ioNTVcaw.Lkxzb.cn
http://qKVktQUM.Lkxzb.cn
http://lmC4ojok.Lkxzb.cn
http://2GjHKm51.Lkxzb.cn
http://JGjw0nAV.Lkxzb.cn
http://dwLtqDuS.Lkxzb.cn

http://www.dtcms.com/a/245905.html

相关文章：

【编译原理】题目合集（一）

oracle 23ai json简单使用

Visual Studio 里面的 Help Viewer 提示Error: “.cab未经Microsoft签名” 问题解决

使用 Visual Studio 2019 修改 WebRTC 源码

安全-Linux基线核查项点

uni-app项目实战笔记2--使用swiper实现纵向轮播图

专业天猫代运营托管公司推荐

力扣HOT100之技巧：287. 寻找重复数

uni-app项目实战笔记3--使用scroll-view实现每日推荐左右滑动效果

Arduino入门教程：1-1、先跑起来（点亮LED打印Helloworld）

论文阅读：speculative decoding

Go语言同步原语与数据竞争：Mutex 与 RWMutex

Mac电脑-Office 2024 长期支持版 PPT、Excel、Word（Mac中文）

基于Django的购物系统

快速搭建运行Django第一个应用—投票

从实验室到实践：无人机固件越权提取技术解析

无人机接收机运行技术要点分析!

突破微小目标检测瓶颈：智能无人机在蓝莓产量估算中的解决方案

无人机避障——感知篇（Orin nx采用zed2双目相机进行Vins-Fusion定位，再通过位姿和深度图建图完成实时感知）

pikachu靶场通关笔记26 SQL注入09-时间盲注(base on time)

将创世SD NAND FLASH设计在无人机上，可从硬件适配、接口与协议兼容、性能匹配

时序数据库Apache IoTDB核心技术深度解析

小黑享受思考心流躲避迷茫:92. 反转链表 II

FFmpeg 压缩视频文件

中国第七次人口普查100m网格化人口数据集(Tif/分省/分市)

在Windows平台上使用MinGW编译C/C++项目，常见的构建工具

22、话题重名及解决方案

Python训练营---DAY52

nginx学习

【threejs】每天一个小案例讲解：常见材质