当前位置：首页 > news >正文

论文略读： CITYANCHOR: CITY-SCALE 3D VISUAL GROUNDING WITH MULTI-MODALITY LLMS

news 2025/8/30 2:55:31

ICLR 2025 6668

本文提出了一种名为 CityAnchor 的三维视觉指定位方法，用于在城市级点云（city-scale point cloud）中定位城市物体。近年来多视图重建技术的发展使得构建大规模城市点云成为可能，但如何在如此大尺度的点云中进行视觉指定位仍是一个开放问题。

现有的 3D 视觉指定位系统主要集中于图像或小尺度点云中的目标定位，这种方法在精度和效率上都难以扩展至城市级点云的应用场景。

为解决这一挑战，本文提出了一种多模态大语言模型（LLM）驱动的两阶段方法，包括：

我们在 CityRefer 数据集以及我们新构建并标注的合成数据集上进行了实验，结果表明，CityAnchor 能够在城市级三维点云中实现准确的 3D 视觉指定位，验证了方法的有效性与可扩展性。

MaxCompute的Logview分析详解

K8S 专栏 —— Pod 篇

人工智能学习20-Pandas-自定义的函数

单片机电路设计

滚珠螺杆的预紧间隙如何调整？

python基础举例

地理数据库 gdb mdb sde 名称的由来

gpt3大模型蒸馏后效果会变差么

MySQL从库复制延迟的监测

VMware虚拟机集群上部署HDFS集群

RabbitMQ 知识详解（Java版）

无监督 vs 有监督的本质区别

商用密码基础知识介绍（上）

使用DuckDB查询DeepSeek历史对话