当前位置: 首页 > news >正文

清华大学大模型驱动的跨尺度空间智能研究最新综述:具身智能体、智慧城市和地球科学领域的进展

  • 作者:Jie Feng, Jinwei Zeng, Qingyue Long, Hongyi Chen, Jie Zhao, Yanxin Xi, Zhilun Zhou, Yuan Yuan, Shengyuan Wang, Qingbin Zeng, Songwei Li, Yunke Zhang, Yuming Lin, Tong Li, Jingtao Ding, Chen Gao, Fengli Xu, Yong Li

  • 单位:清华大学电子工程系,清华大学深圳国际研究生院,清华大学计算机科学系,芬兰赫尔辛基大学计算机科学系

  • 论文标题:A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science

  • 论文链接:https://arxiv.org/pdf/2504.09848

主要贡献

  • 建立结构化的分析框架:提出了一个系统的分析框架,用于理解跨学科和多尺度的空间智能。该框架从空间记忆和感知出发,逐步过渡到空间推理和更高层次的智能。这一框架有助于整合不同领域(如具身智能、城市智能和地球科学)的研究成果,为跨学科研究提供了一个统一的基础。

  • 综合现有文献并提供参考:综合了大量关于大模型(LLMs)在空间智能应用中的文献,涵盖了具身智能、城市智能和地球空间智能等多个领域。同时,文章还讨论了LLMs中的空间记忆、知识表示和空间推理能力,为研究人员提供了一个及时且有价值的参考资源。

  • 探索关键挑战和未来方向:深入探讨了跨学科空间智能研究中的关键挑战和开放性问题,揭示了具身智能、城市智能和全球尺度智能之间的联系,并为未来的研究方向提供了指导。这些挑战包括空间推理的形式、多模态数据融合、动态数据处理、模型可解释性等。

引言

空间智能的跨学科性

  • 定义与应用:空间智能是一个跨学科的研究领域,涉及多个领域的挑战、应用场景和方法。它在人类社会和物理世界中无处不在,例如在房间内导航、设计15分钟社区、预测图像位置以及分析气候空间模式等场景中都发挥着重要作用。

  • 研究历史:空间智能的研究具有深厚的历史根基。一方面,它帮助人类理解自身的认知和感知机制,如人类空间认知的研究为理解人类智能提供了基础。另一方面,空间智能在实际应用中具有重要意义,如机器人导航、地理信息系统(GIS)和气候预测等领域。

  • 研究进展:近年来,深度学习尤其是大模型(LLMs)的发展为空间智能研究带来了显著推动。LLMs在世界知识、规划和推理能力以及跨任务泛化能力方面取得了显著进展,推动了机器人导航、多模态感知和控制等领域的研究。

研究现状与挑战

  • 多尺度应用:LLMs不仅在个体智能领域取得了进展,还在城市和全球尺度的空间智能研究中发挥了作用。例如,在城市研究中,LLMs被用于优化城市规划、交通预测和基础设施管理;在全球尺度上,LLMs被用于增强遥感分析和灾害预测。

  • 缺乏统一框架:尽管空间智能在各个领域的研究不断增长,但目前仍缺乏一个统一的框架来全面理解和分析空间智能。现有的研究往往只关注特定方面,如基于视觉的个体智能、城市规划或遥感智能,而没有整合跨学科和跨尺度的见解。

背景与分类

人类的空间智能

  • 认知地图
    • 定义:认知地图是环境知识的内部表示,具有主观性和扭曲性。它由海马体和内侧内嗅皮层中的神经细胞(如位置细胞和网格细胞)支持,这些细胞共同构成了构建认知地图的神经基础。

    • 相关研究:Tolman在1948年首次提出认知地图的概念,后续研究强调了海马体在空间和非空间记忆中的作用。最近的研究(如Tolman-Eichenbaum Machine)展示了通过结构抽象和跨环境表示来泛化空间和关系记忆的能力。

    • 与LLMs的联系:LLMs通过Transformer架构模拟空间任务,如位置编码和导航,与海马体功能有相似之处。

  • 空间模式
    • 定义:空间模式是通过在不同环境中转移和泛化经验而形成的高级空间认知结构。它们是高度抽象的,超越了特定环境,例如现代城市的预期布局。

    • 相关研究:空间模式在新皮层的特定区域处理,与认知地图相互作用,共同促进人类的空间认知。

    • 与LLMs的联系:最近的研究探索了基于LLMs的空间智能与人类空间智能之间的相似性和联系,例如评估LLMs的认知绘图能力。

空间智能的分类

  • 基于人类空间记忆和智能的分类框架:本文提出了一个基于人类空间记忆和智能的LLMs空间智能分类框架,并基于此框架对当前研究进行了全面综述。

  • 基础能力
    • 空间记忆和知识:空间记忆是指回忆过去遇到的空间关系、实体和属性的认知能力,而空间知识是一个更广泛的概念,包括与空间相关的常识推理和逻辑思维。LLMs通过内部编码(在预训练或后训练阶段)和外部知识库获取空间记忆和知识,这些能力对于执行空间任务至关重要。

    • 抽象空间推理:抽象推理能力是将复杂现实简化为可操作的心理模型的关键认知能力。在空间智能中,抽象推理不仅简化了复杂的物理空间,还为空间认知提供了基础。当前对LLMs的空间抽象推理能力的评估主要集中在定性空间推理、几何推理和图论推理三个方向。

  • 实际应用
    • 个体空间智能:涉及空间感知和理解(如多模态LLMs通过整合视觉和文本数据提高空间推理能力)以及空间交互和导航(如基于LLMs的动作控制和导航任务)。

    • 城市空间智能:城市环境的复杂性要求LLMs具备从地理信息编码到执行城市特定任务(如交通模拟、服务分配优化和城市规划)的能力。

    • 地球空间智能:LLMs在地球科学中的应用包括气候科学、地理学、海洋学和地质学等领域,处理大规模时空数据并生成有意义的见解。

大模型在空间智能方面的基础能力

LLMs中的空间记忆和知识

  • 空间记忆与知识的定义
    • 空间记忆是指回忆过去遇到的空间关系、实体及其属性的认知能力。

    • 空间知识是一个更广泛的概念,不仅包括空间记忆,还涉及与空间相关的常识推理和逻辑思维。

  • 空间记忆和知识的来源
    • 内部编码:LLMs在预训练或后训练阶段将空间记忆和知识编码到模型参数中。例如,通过特定的训练方法将空间信息嵌入到模型中。

    • 外部集成:LLMs可以利用外部知识库来获取特定信息。例如,通过与外部地理信息系统(GIS)工具的结合来增强空间知识。

  • 空间记忆和知识的应用
    • 空间记忆和知识是LLMs执行各种任务的基础,包括问答、导航和地理定位等。

    • 例如,在问答任务中,LLMs需要准确的空间知识来回答与地理位置相关的问题;在导航任务中,空间记忆帮助模型规划路径。

  • 面临的挑战
    • 幻觉问题:LLMs可能会生成不真实或不可信的内容,这在空间上下文中尤其成问题,因为错误的空间信息可能导致严重的后果。

    • 知识编辑:由于空间环境的动态性,需要持续更新LLMs的知识库以反映准确的空间信息。然而,目前的知识编辑方法还存在局限性。

LLMs的抽象空间推理

  • 抽象空间推理的重要性
    • 抽象空间推理是将复杂的现实简化为可操作的心理模型的关键能力。在空间智能中,它不仅简化了物理空间,还为更高层次的空间认知提供了基础。

  • 抽象空间推理的评估方向
    • 定性空间推理:评估模型通过语言描述理解空间关系和变换的能力。例如,通过多步推理任务来测试模型的推理能力。

    • 几何推理:评估模型对几何概念的理解及其在空间问题解决中的应用。例如,通过GeoEval等工具测试LLMs在几何问题上的表现。

    • 图论推理:评估模型理解和操作图结构的能力。例如,通过GraphInstruct等工具测试LLMs在复杂图算法上的表现。

  • 当前研究进展
    • 研究表明,预训练的LLMs主要依赖语言理解来处理抽象空间问题,缺乏真正的空间认知能力。

    • 通过结构化推理框架、知识引导的训练和中间过程监督等方法,可以有效提高LLMs的空间推理能力。

  • 面临的挑战
    • LLMs在处理复杂的几何推理和图论推理任务时仍然存在局限性,尤其是在需要长推理链的任务中。

    • 需要更全面的评估标准和与人类表现的有意义的比较,以更好地理解和推进LLMs的空间推理能力。

LLMs在现实世界中的空间智能

具身空间智能

具身空间智能主要涉及在物理环境中直接交互和导航的智能体(如机器人),主要分为两个关键阶段:空间感知与理解,以及空间交互与导航。

空间感知与理解
  • 多模态空间感知
    • 结合RGB图像、深度信息和文本数据,以增强对象定位和理解能力。例如,LLMI3D模型能够从单张2D图像中估计3D对象位置。

    • SpatialBot通过深度感知提升机器人操作和空间推理能力。

  • 场景级空间推理
    • 使智能体能够理解场景中的空间关系、对齐多视角信息,并解释动态环境。例如,Video-3D LLM通过将3D空间坐标嵌入视频特征,支持3D问答和视觉定位。

    • Scene-LLM整合了以自我为中心和全局的3D场景表示,使用基于3D点的特征来更有效地理解场景并进行交互式规划。

  • 基于记忆的空间探索
    • 3D-MEM通过多视角记忆快照存储已探索的空间数据,并通过前沿快照识别未探索区域,帮助智能体平衡知识检索和主动探索。

空间交互与导航
  • 运动控制
    • RT-2和VIMA等模型通过视觉语言模型(VLMs)生成机器人动作,利用LLMs的感知能力直接生成目标动作。

    • VexPoser利用LLMs的推理和代码编写能力生成3D空间表示,并规划机器人动作。

  • 导航任务
    • Guide-LLM通过将结构化文本地图输入LLM,实现室内空间感知和路径规划。

    • NavGPT通过视觉模型将环境图像转换为文本,并利用LLM整合当前环境描述与历史环境摘要,进行轨迹规划。

    • NavGPT-2结合室内视觉观察与多模态LLMs,提升导航推理能力。

城市空间智能

城市空间智能涉及在更大尺度上处理和理解城市环境中的空间数据,主要分为空间理解与记忆、空间推理与智能两个方面。

空间理解与记忆
  • 区域特征理解
    • GeoLLM通过提示工程从LLMs中提取地理空间知识,用于理解区域特征。

    • 结合卫星图像和LLMs预测社会经济指标,例如通过Yan等人的工作。

  • 空间位置和关系推理
    • 利用LLMs的预训练先验知识推断空间结构,例如通过Ning和Liu的工作构建城市知识图谱。

    • 开发自动化工具构建和验证关系数据集,以增强地理推理能力。

空间推理与智能
  • 空间推理
    • GeoReasoner框架利用LLMs进行地理空间定位,通过高质量街景数据集增强空间推理能力。

    • 研究居民行为模式的推理,例如Wang等人的工作通过LLM建模个体移动模式并生成轨迹。

  • 空间智能
    • 城市规划任务需要基于空间数据进行决策,例如Zhou等人的多智能体协作框架用于参与式城市规划。

    • 交通信号控制动态调整以适应空间环境,例如LLMLight利用LLM的推理能力确定最优控制策略。

地球空间智能

地球空间智能涉及处理地球科学中的复杂挑战,如气候科学、地理学、海洋学和地质学。该部分讨论了LLMs在这些领域的应用。

全球编码
  • 在全球尺度上,LLMs需要正确编码位置信息以有效感知和理解空间信息。TorchSpatial基准测试显示,Sphere2VecsphereC+方法是一种有效的3D位置编码技术。

  • 尽管LLMs在显式空间学习任务中的表现有限,但在少样本和零样本场景中表现出色。

气候
  • LLMDiff利用预训练的LLM作为通用视觉编码器层,捕捉长期时间依赖关系,改进降水短时预报。

  • CLLMate结合LLM和VLM对气象栅格数据进行对齐和训练,以准确预测气候事件。

地理
  • LLMs直接应用于地理相关任务,如位置相关知识的提取和感知,以及涉及特定位置的判断和操作任务。

  • GeoGPT利用成熟的GIS工具处理地理空间任务,将LLMs的语义理解能力与GIS工具相结合。

其他学科
  • 在海洋科学中,LLMs用于控制自主水下机器人(AUV),例如OceanPlan通过自然语言命令控制AUV。

  • 在地质学中,LLMs用于预测地质条件,例如通过知识图谱嵌入和提示重编程增强LLMs的空间理解能力。

问题与讨论

基础空间智能

  • 核心问题
    • 空间推理的形式:当前基于语言的空间推理是否是最有效的形式?是否存在更通用、更有效的建模方法,例如基于图的表示或多模态框架?

    • 全面评估的挑战:缺乏统一的框架来评估不同上下文、领域和尺度下的空间智能。需要研究如何将基础空间能力(如心理旋转或空间记忆)转化为特定领域的高级应用。

  • 研究方向
    • 探索更有效的空间推理模型,如图神经网络或多模态融合方法。

    • 开发统一的评估标准,以全面衡量空间智能在不同任务中的表现。

具身空间智能

  • 核心挑战
    • 人类空间认知的整合:当前的具身智能研究仅部分借鉴了人类空间认知的原理,缺乏系统性的整合。需要更深入地将人类空间认知机制融入计算模型中。

    • 多级空间智能的统一:具身智能任务涵盖了从精细的机器人操作到大规模的无人机路径规划等多个层次。如何构建一个能够整合多级空间智能的通用模型是一个开放性问题。

  • 研究方向
    • 开发更贴近人类认知机制的模型,提升模型的鲁棒性和适应性。

    • 探索能够处理多粒度空间任务的通用模型架构。

城市空间智能

  • 核心挑战
    • 数据异质性:城市数据来源多样(如卫星图像、兴趣点、交通模式等),当前框架难以将这些多模态数据整合为统一的空间表示。

    • 动态性不足:LLMs依赖静态训练数据,难以捕捉实时交通流量或社会经济因素等动态现象。

    • 可解释性问题:LLMs在城市规划和导航任务中的决策过程缺乏可解释性,可能导致对模型的信任度降低。

  • 研究方向
    • 开发动态空间建模方法,将实时数据与LLMs结合,以适应城市动态变化。

    • 构建因果空间推理框架,揭示环境、社会和基础设施之间的相互依赖关系。

    • 系统性地审计和缓解地理偏见,确保城市智能应用的公平性。

地球空间智能

  • 核心挑战
    • 推理能力有限:在地理、地质等领域,LLMs在需要复杂推理的任务(如上下文推断和高级空间分析)中表现不佳。

    • 数据整合困难:不同地球科学领域(如海洋学、地质学)依赖于复杂且多模态的数据输入,如何将这些数据无缝整合到LLMs中是一个挑战。

  • 研究方向
    • 利用迁移学习,将预训练模型适应到相关的地球科学领域,减少数据需求并促进知识共享。

    • 开发标准化的基准平台和集成系统,如OceanBench和GeoGPT,以促进跨领域的评估和进步。

    • 引入人类在环系统和可解释AI(XAI)框架,增强模型的可解释性和可信度。

与世界模型的关系

  • 世界模型的定义
    • 世界模型是一种基于心理模型的计算框架,用于构建内部表示以解释世界运行机制,并预测未来状态以指导决策。

  • 当前研究的局限性
    • 本文主要关注构建内部表示以加深空间理解,而较少涉及生成能力(如预测未来结果)。

  • 未来研究方向
    • 将世界模型的生成能力整合到空间智能建模中,使系统不仅能够理解,还能预测和行动,从而克服当前基础模型的局限性,例如城市知识的粒度不足。

结论与未来展望

  • 结论
    • 本文通过回顾人类空间认知的研究,并结合LLMs在不同空间尺度(从具身智能到地球科学)中的应用,提供了一个全面的视角来理解空间智能。

    • 研究指出,尽管LLMs在空间智能领域取得了显著进展,但仍面临诸多挑战,如空间推理的局限性、多模态数据融合的困难、动态环境的适应性不足以及模型决策的可解释性问题。

    • 这些挑战不仅限制了LLMs在特定领域的应用,也阻碍了跨学科研究的深入发展。

  • 未来展望
    • 跨学科合作:加强认知科学、神经科学、人工智能等多学科合作,将人类空间认知机制更深入地融入LLMs设计,提升空间智能模型性能。

    • 多模态融合:开发先进多模态数据融合技术,使LLMs能更好地处理图像、文本、地理信息等复杂空间数据。

    • 动态适应性:提升LLMs对动态环境的适应能力,使其能够实时更新空间知识和推理能力。

    • 模型可解释性:提高LLMs空间推理过程的透明度,增强用户对模型决策的信任。

    • 应对全球挑战:探索LLMs在气候变化、资源管理等地球空间智能领域的应用,推动可持续发展和环境韧性。

相关文章:

  • 跨国应用程序的数据存储方案常见的解决方案
  • 什么是PMBus
  • JS 高级程序设计 设计模式
  • 读写锁应用场景,适合读多写少
  • 设计模式 - 单例模式 - Tips
  • [ctfshow web入门] web77
  • OpenCV 特征检测全面解析与实战应用
  • AI知识梳理——RAG、Agent、ReAct、LangChain、LangGraph、MCP、Function Calling、JSON-RPC
  • 【滑动窗口】LeetCode 209题解 | 长度最小的子数组
  • 系统架构设计(七):数据流图
  • 使用Docker部署Nacos
  • 【C++详解】string各种接口如何使用保姆级攻略
  • 区块链可投会议CCF C--IPCCC 2025 截止6.7 附录用率
  • 共享内存【Linux操作系统】
  • 【爬虫】DrissionPage-6
  • JavaScript【6】事件
  • 进阶-数据结构部分:​​​​​​​2、常用排序算法
  • 动态规划(3)学习方法论:构建思维模型
  • MATLAB2025新功能
  • 2025/517学习
  • 芬兰西南部两架直升机相撞坠毁,第一批救援队已抵达现场
  • 韩正会见美国景顺集团董事会主席瓦格纳
  • 选址江南制造总局旧址,上海工业博物馆建设有新进展
  • 万科再获深铁集团借款,今年已累计获股东借款近120亿元
  • 盛和资源海外找稀土矿提速:拟超7亿元收购匹克,加快推动坦桑尼亚项目
  • “80后”北京市东城区副区长王智勇获公示拟任区委常委