当前位置: 首页 > news >正文

VLMs距离空间智能还有多远的路要走?

VLMs距离空间智能还有多远的路要走?

  • 省流不看版本:
  • 我们的出发点:
  • 方法和任务的梳理:
  • 系列测评:
  • 写在最后:

在这里插入图片描述

省流不看版本:

1.详细梳理了在视觉空间推理任务上的方法,包括多模态信息融合,模型结构,训练方式以及推理策略;
2.对现有的空间推理任务进行分层次整理和介绍,包括基础感知,空间理解,以及规划;
3.整理了一个较为全面的测试基准 SIBench,涵盖23种任务设定(来源于近20个开源Benchmark ),
包含三种输入类型,三种问题类型;

👉👉关注我们的leaderboard
👉👉使用我们的测评工具
👉👉浏览论文更多细节
👉👉空间推理的论文集锦



在这里插入图片描述



我们的出发点:

VLM的空间推理能力在自动驾驶,具身应用中至关重要,近期也得到了社区的广泛关注,越来越多的工作从不同的方面对空间推理能力进行测评,从而出现了各种各样的任务设定。我们希望通过对这些工作做一个系统性的回顾,对改进方法,空间推理任务进行梳理,方便社区未来的研究。另外,现有的测评基准都集中于几个任务设定,缺少一个比较全面且方便的测评工具,于是我们收集了18个开源benchmark,并对其中的数据进行了筛选,最终组成了SIBench。
通过系列的测评,我们希望能够一定程度上回答这样一个问题:距离空间智能,我们到底还有多远?



在这里插入图片描述



方法和任务的梳理:

图2:对于方法,我们从输入模态,模型的结构,训练方式,以及推理策略进行了梳理。对于视觉空间推理任务而言,难点之一在于从2D的输入中恢复投影前的3D结构,里面许多工作围绕着一点展开。
图3:对于任务设定,按照推理的层次,我们将其划分为基础感知,空间理解,以及规划。
具体来说,基础感知只涉及某一个或某一类目标的属性,比如目标的大小,高度,状态等;
空间理解涉及两个目标以上,或者目标和环境之间的关系,比如距离,相对位置等;
规划则是在空间约束下,找寻满意解决方案。



在这里插入图片描述



系列测评:

经过初步的调研,发现其实有大概四五十个开源benchmark与空间推理任务相关,我们对任务设定的合理性,数据质量进行了评估,最终选择了近20个开源benchmark进行进一步的整合(剔除了一些类似于Visual Puzzles的数据,非视觉的输入,非人工标注的数据),得到了一个较为全面的测评基准,SIBench。
对许多模型进行了评测,比如GPT-5,Gemni2.5-Pro,Doubao-seed-1.6-Vision等等。实验数据欢迎查看我们的论文,以及项目页。基本的缺陷大概如下:
1.基础感知能力仍然有限,比如形状,目标的定位,计数等等。我们认为,即便许多模型已经取得了不错的效果,但是基础感知能力作为空间推理的基础,是累计误差最根源的一环,远未达到理想的水平。
2.量化推理能力不足,比如高度,距离等。由于尺度不明确,从单纯的视觉输入去估计这些数据本身是一件比较困难的事,或许应该寻求更有效的方法。
3.动态信息的处理能力弱,比如估计相机视角的变化,多视角推理,路径的描述等。这部分的难点一方面来自于从不同的视角理解视觉线索的差异以及共同点,从而构建对真实3D世界的理解;另一方面来自于对时序信息的理解不够充分。
4.空间想象能力的缺失。




在这里插入图片描述



写在最后:

完成这个课题,最大的感受其实是VLMs对于空间想象能力的严重缺失。具体而言,VLMs更擅长直接从图中读取问题相关的信息,我们暂且称之为事实查询类问题。而对于真实答案和提供的视觉线索稍有出入的问题,比如perspective taking(切换一个参考系回答问题),模型的表现就非常糟糕。
最后提供了一个有趣的例子,我们称之为数猴难题,博君一乐,欢迎大家讨论为什么VLMs对于这种需要空间想象的问题,或者说反事实推理问题,表现不尽人意呢?

在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/411668.html

相关文章:

  • 做网站北京德国网站建设
  • 网站建立安全连接失败软装设计公司加盟
  • 搭建个人博客:云服务器IP如何使用
  • iis网站asp.net部署网站建设运营费计入什么科目
  • 建设外贸营销型网站需要什么青岛网站设计定制
  • 券商 做网站圣都装饰的口碑怎么样
  • 【算法训练营Day26】动态规划part2
  • 河北衡水建设网站公司电话wordpress ajax登录插件
  • 网站源码怎么搭建最新新闻热点事件2023年10月
  • 城乡建设部网站广州市国外学校网站设计
  • 泊头网站建设公司wordpress删除主题之后
  • 一站式营销平台wordpress学校网站模板
  • LeetCode 算法题【简单】338. 比特位计数
  • 买房网站排名福州做网站建设公司
  • 爱思强交付第100套G10-SiC系统
  • 网站的建设要多少钱求推荐专门做借条的网站
  • 在线旅游攻略网站建设方案做网站要注册第35类商标吗
  • RocketMQ 核心知识整理:工作原理、常用命令与常见问题解决
  • 做养生网站怎么赚钱麻涌建设网站
  • 域名备案 没有网站网站建设意见建议表
  • Unity-Statemachinebehaviour状态机行为脚本
  • 网站问题图片房子网站有哪些
  • 孝感应城网站建设长春网站建设 找源晟
  • 如何设置网站服务器常州做网站哪家便宜
  • 单片机引脚的高电平和低电平范围值
  • 设计师可以做兼职的网站创建网站的基本步骤
  • 网站后台开发做什么凡科网网站建设
  • 什么是合同管理系统?6个核心功能介绍
  • 数据采集技术:03 有关实时采集
  • 双有源桥DAB仿真控制simulink模型大合集,simulink仿真模型。