当前位置: 首页 > news >正文

论文略读: CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS

ICLR 2025 6668

本文提出了一种名为 CityAnchor 的三维视觉指定位方法,用于在城市级点云(city-scale point cloud)中定位城市物体。近年来多视图重建技术的发展使得构建大规模城市点云成为可能,但如何在如此大尺度的点云中进行视觉指定位仍是一个开放问题。

现有的 3D 视觉指定位系统主要集中于图像或小尺度点云中的目标定位,这种方法在精度和效率上都难以扩展至城市级点云的应用场景。

为解决这一挑战,本文提出了一种多模态大语言模型(LLM)驱动的两阶段方法,包括:

  1. 粗定位阶段(Coarse Localization):根据文本描述,在点云投影后的二维地图上定位可能的区域;

  2. 细粒度匹配阶段(Fine-Grained Matching):在这些候选区域中进一步精确匹配出与文本描述最相符的目标对象。

我们在 CityRefer 数据集以及我们新构建并标注的合成数据集上进行了实验,结果表明,CityAnchor 能够在城市级三维点云中实现准确的 3D 视觉指定位,验证了方法的有效性与可扩展性。

http://www.dtcms.com/a/249490.html

相关文章:

  • 渲染进阶内容——机械动力的渲染(1)
  • 小程序跳转链接实战:https://wxaurl.cn/、weixin://dl/business/ 跳转与明文 URL Scheme 生成指南
  • MaxCompute的Logview分析详解
  • K8S 专栏 —— Pod 篇
  • 人工智能学习20-Pandas-自定义的函数
  • 单片机电路设计
  • 剖析电商搜索要点并基于Es+Redis模拟电商搜索行为
  • 滚珠螺杆的预紧间隙如何调整?
  • python基础举例
  • 地理数据库 gdb mdb sde 名称的由来
  • gpt3大模型蒸馏后效果会变差么
  • MySQL从库复制延迟的监测
  • 如何在 ArcGIS 中使用 Microsoft Excel 文件_20250614
  • 青少年编程与数学 01-011 系统软件简介 20 编译系统
  • VMware虚拟机集群上部署HDFS集群
  • 【消息队列】——消息队列的高可用与容灾设计
  • RabbitMQ 知识详解(Java版)
  • FastGPT实战:从0搭建AI知识库与MCP AI Agent系统
  • 每日算法刷题Day31 6.14:leetcode二分答案2道题,结束二分答案,开始枚举技巧,用时1h10min
  • 【无标题】在 4K 高分辨率(如 3840×2160)笔记本上运行 VMware 虚拟机时平面太小字体太小(ubuntu)
  • Reqable・API 抓包调试 + API 测试一站式工具
  • 无监督 vs 有监督的本质区别
  • 深度学习——基于卷积神经网络实现食物图像分类【1】(datalodar处理方法)
  • 商用密码基础知识介绍(上)
  • 区块链与人工智能的融合:从信任到智能的IT新引擎
  • JAVA中关于Animal和Dog类的类型转换,可能出现ClassCastException的情况
  • PyTorch张量操作中dim参数的核心原理与应用技巧:
  • 使用DuckDB查询DeepSeek历史对话
  • 《生成式人工智能服务管理暂行办法》合规的“三重门”与破局之道
  • LeetCode面试经典150题—旋转数组—LeetCode189