当前位置: 首页 > news >正文

论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS

ICLR 2025 6668

本文提出了一种名为 CityAnchor 的三维视觉指定位方法,用于在城市级点云(city-scale point cloud)中定位城市物体。近年来多视图重建技术的发展使得构建大规模城市点云成为可能,但如何在如此大尺度的点云中进行视觉指定位仍是一个开放问题。

现有的 3D 视觉指定位系统主要集中于图像或小尺度点云中的目标定位,这种方法在精度和效率上都难以扩展至城市级点云的应用场景。

为解决这一挑战,本文提出了一种多模态大语言模型(LLM)驱动的两阶段方法,包括:

  1. 粗定位阶段(Coarse Localization):根据文本描述,在点云投影后的二维地图上定位可能的区域;

  2. 细粒度匹配阶段(Fine-Grained Matching):在这些候选区域中进一步精确匹配出与文本描述最相符的目标对象。

我们在 CityRefer 数据集以及我们新构建并标注的合成数据集上进行了实验,结果表明,CityAnchor 能够在城市级三维点云中实现准确的 3D 视觉指定位,验证了方法的有效性与可扩展性。

相关文章:

  • 渲染进阶内容——机械动力的渲染(1)
  • 小程序跳转链接实战:https://wxaurl.cn/、weixin://dl/business/ 跳转与明文 URL Scheme 生成指南
  • MaxCompute的Logview分析详解
  • K8S 专栏 —— Pod 篇
  • 人工智能学习20-Pandas-自定义的函数
  • 单片机电路设计
  • 剖析电商搜索要点并基于Es+Redis模拟电商搜索行为
  • 滚珠螺杆的预紧间隙如何调整?
  • python基础举例
  • 地理数据库 gdb mdb sde 名称的由来
  • gpt3大模型蒸馏后效果会变差么
  • MySQL从库复制延迟的监测
  • 如何在 ArcGIS 中使用 Microsoft Excel 文件_20250614
  • 青少年编程与数学 01-011 系统软件简介 20 编译系统
  • VMware虚拟机集群上部署HDFS集群
  • 【消息队列】——消息队列的高可用与容灾设计
  • RabbitMQ 知识详解(Java版)
  • FastGPT实战:从0搭建AI知识库与MCP AI Agent系统
  • 每日算法刷题Day31 6.14:leetcode二分答案2道题,结束二分答案,开始枚举技巧,用时1h10min
  • 【无标题】在 4K 高分辨率(如 3840×2160)笔记本上运行 VMware 虚拟机时平面太小字体太小(ubuntu)
  • 企业vi设计的作用与意义/兴安盟新百度县seo快速排名
  • 网站开发w亿玛酷1负责/打广告去哪个平台
  • 小企业网站建设公司/网站编辑seo
  • 做网站的属于什么行业/seo优化方向
  • 网页设计作品网站/seo如何优化
  • 网站做闪电电磁/山西seo优化公司