当前位置: 首页 > news >正文

KDD 2025 | 地理定位中的群体智能:一个多智能体大型视觉语言模型协同框架

今天跟大家分享一篇被KDD 25录用的多模态大模型智能体协同框架,该文章提出了一种多智能体大模型协作机制以及一种大模型智能体之间关系的动态学习策略,有效减少了大模型智能体之间冗余的交互次数,从而提高了系统的地理定位效率。具体而言,该论文参考审稿机制与流程来尽最大可能发挥不同大模型智能体对于不同地标的定位能力。同时,根据不同图像定位请求,自适应生成智能体社交网络结构,来规划哪些智能体之间的讨论可以产生对准确定位图像产生正面促进作用的结果。提出的框架在3个数据集上的实验表明,该框架表现显著优于其他目前最先进的方法。

论文链接: https://arxiv.org/abs/2408.11312

代码链接: https://github.com/Applied-Machine-Learning-Lab/smileGeo

1 背景与意义

视觉地理定位主要指对给定图像进行地理位置识别。目前,部分图像数据存储了包含定位信息的元数据,这部分图像可以被准确地定位拍摄地点。然而,大部分图像并没有定位元数据,在这种情况下对图像进行准确的地理定位是一项复杂的任务,且需要广泛的地理空间知识和强大的推理能力。传统地理定位方法通常将其表述为一个图像检索问题,即通过检索具有已知地理位置的相似图像来对给定图像进行地理定位。该任务在多个领域中具有重要意义,例如通过历史人群迁移模式的分析以及提供基于位置的城市级别景点推荐等。

2 挑战

对于传统基于图像数据库检索的方法,他们很容易受到地理标记图像数据库所覆盖的范围和质量限制。 而一个直观地方法来解决这一限制就是应用一个基于智能体的框架:将每一个地理图像检索系统视为不同且独立的智能体,通过智能体之间的自主交流,实现多个检索系统之间的群体智能。然而,在无人干预的情况下这种基于智能体的框架面临着巨大的挑战。如图1所示,两个不同的地理图像检索系统可能对同一输入图像给出不同的回答。在没有第三方加入的情况下,整个框架难以准确选择更加合适的回复作为最终回答。这一挑战凸显了在群体智能框架中协调各个独立系统的固有难点。

除了应用基于智能体的框架,大型视觉语言模型(LVLM)的最新进展为多模态任务开辟了新的可能性。这些模型在例如视觉问答(VQA)等任务中展示出了卓越的表现,且无需依赖外部具有地理标记信息的图像数据库。此外,LVLM还能够借助各类工具,例如通过调用网络搜索接口,进行信息检索,这可以进一步增强其自身的能力。然而,尽管单个 LVLM 已经拥有一定的推理能力,但它们在多样化和复杂场景中的细粒度识别方面仍存在困难。

3 方法

为了同时应对上述两大挑战,该论文提出了一种大模型智能体框架smileGeo。它将多个具有联网检索能力的LVLM作为智能体,构建了一个智能体协作框架高效地对图像进行地理定位。

3.1 智能体讨论中的审稿机制

受学界同行评审机制可以提高录用稿件质量的启发,论文提出了一个三阶段迭代的匿名评审机制,以帮助LVLM智能体通过其协作社交网络共享各自知识以及推理能力:(1)回答智能体的选举与初步回复,(2)评审智能体的选择与回复内容审核,以及(3)最终结论的确定。

3.1.1 回答智能体的选举与初步回复

首先,对于每一不同图像定位问题,选择当选概率最高的K个LVLM智能体作为回答智能体。当回答智能体被选出后,将需要定位的图像发送给所有回答智能体,并让它们进行初步分析。提出的框架要求每个智能体的回复包含以下三个部分:一个位置(城市、国家等)、一个置信度(百分比)和一段详细的解释。此外,如果智能体无法对给定的图像进行有效地推理、解释,则允许使用网络搜索和思维链(CoT)首段来收集更多相关信息。

3.1.2 评审智能体的选择与回复内容审核

在该阶段中,根据不同图像定位问题,为所有智能体构建了一个“智能体社交网络”。同时,针对每一回答智能体,根据节点转移概率在该网络上进行随机游走,选择出最早遍历的前R个智能体作为评审智能体来对回答智能体进行评论。从节点到节点  的转移概率 可以计算如下:

其中:是节点的邻居节点的集合。

对于每个选定的评审智能体,它会根据不同的输入图像以及问题审核对应回答智能体给出的初步回答并给出自己的评价以及解释。之后,回答智能体会总结其初步分析结果以及所有评审智能体的反馈意见,有针对性地改进其初步的回复并形成最终回答。该回答也必须包含三个部分:位置、置信度和解释。

3.1.3 最终结论的确定

在前一阶段,每个回答智能体会根据反馈生成一个较为完善的结果。当第一阶段的K>1时,smileGeo会生成多个独立的结果,且这些结果很有可能并不一致。而对于一个图像地理定位系统的目标通常是提供一个确定的答案,而不是提供人们选择的多个选项。因此为了解决这一问题,改论文允许回答智能体之间进行最多Z轮的自由讨论,以达成一个统一的答案:

首先,维护一个全局对话历史列表diag,记录所有智能体发表的所有回复。此外,允许讨论是异步执行的,即任何回答智能体都可以读取最新的diag列表并基于此给出实时回复,且该回复一经发布就将直接添加至diag的列表尾部。对于每一轮讨论,每一个回答智能体只允许发言一次。在Z轮自由讨论后,采用少数服从多数的原则确定最终结果,即即选择获得最多同意的回复作为最终结论。

在讨论过程中,若所有智能体提前达成了共识(或大多数智能体具有相同的结论且明显占据主导地位),改讨论阶段将被提前终止以减少通信延迟与开销。而当Z轮讨论结束后,这些智能体都无法达成任何共识,此时仅选择从第一阶段选出的第一个回答智能体产生的回复结果作为最终的结果。

3.2 智能体协作社交网络中的动态学习策略

在所提出的框架中,选择合适的回答智能体和评审智能体来进行知识共享与讨论对整个框架进行地理定位的精度与效率至关重要。因此,论文提出了一种动态学习策略来优化这一选择。具体而言,对于每一张图像样本,首先根据不同智能体预测的位置与真实图像的差异,并估计回答智能体的当选概率以及智能体的最佳协作社交网络。

为了估算智能体对图像进行地理定位的最佳 和,首先使用全连通图初始化智能体社交网络,其中所有智能体的集合为。此外,初始化智能体被选择的概率,即所有智能体都有的概率被选为回答智能体。

然后,迭代地执行前面三阶段讨论框架以获得预测答案。通过将每个回答智能体的答案与基本事实进行比较,在每一轮结束时更新和。

经过轮智能体讨论后,对于图像,更新后的智能体当选概率为,通过将智能体的答案与真值进行比较,可以判断智能体是否给出了正确/错误的答案。其中,智能体在第轮的定义如下:

其中是预定义阈值,用于判断预测位置是否足够接近实际位置。在距离函数中,论文首先利用 OSM API进行地理编码,将自然语言转换为Web墨卡托坐标系(WGS84)中的位置区间,然后计算两个位置区间之间的最短距离。

请注意,并非每轮选出排名前的回答智能体,而是在训练期间以概率选择每个智能体,以确保每个智能体都有机会参与讨论,从而获得更准确的评估,如图2中动态学习策略模块左侧部分所示。

此外,智能体协作社交网络还会通过同时比较每个回答智能体生成的答案和图像真实地理位置来更新。 在第轮中,加强了正确回答的智能体与相应评审智能体之间的联系,同时削弱了错误回答的智能体与相应评审智能体之间的联系:

其中是第轮对图像进行地理定位时,回答智能体和评审智能体之间的连接权重,是智能体连续回答正确的次数,用于在更新连接权重时对其进行衰减,防止智能体收到某一部分连续训练样本数据结果对整个模型的负面干扰。

然后,通过学习一个基于注意力机制的图神经网络,以预测相应的最优智能体选举概率和最优智能体协作网络的连接关系:

其中是两个可学习参数,是输入至智能体的向量嵌入,是权重矩阵,是LeakyReLU函数,是 Sigmoid 函数, 是图像 VAE 的编码器,用于将图像数据压缩并映射到潜在空间,用于将图像特征与智能体向量嵌入的对齐,是的维度。学习目标可以表示为:

其中表示LVLM智能体回答的位置与地面真相之间的距离,是指示函数,表示具有固定参数的LVLM智能体,是LVLM智能体在讨论的初始阶段生成的答案。

4 实验验证

4.1 整体表现

作者将提出的smileGwo框架与传统图像检索系统,单一大型视觉语言模型,以及多智能体框架进行比较,如表1-3所示。

表1

表 2

表 3

从图中可以看出,提出的框架始终优于所有其他传统图像检索方法和单个LVLM。此外,与其他多智能体框架比较时,可以看出LLM-Blender和LLM Debate的准确率较低,原因是讨论过程中某些智能体的陈述会误导其他智能体,从而阻碍生成正确的结果。而框架smileGeo能够保证最高的准确率,同时以最低的token成本完成地理定位任务。

4.2 案例分析

如图3所示,从测试数据集中随机选择一张图片,并使用五种不同的LVLM作为智能体:LLaVA、GPT-4o-mini、Claude-3-opus、Gemini-1.5-pro和Qwen2。智能体选择模型会选择两个回答智能体,如图3最上方的部分所示。然后,阶段1-3详细说明了生成准确位置的过程。最初,只有一个回答智能体给出了正确的答案。然而,经过几轮讨论后,最初给出错误答案的智能体修改了其置信度。在最后的内部讨论中,该智能体将其答案与正确答案进行了对齐。这一结果验证了模型的有效性,展示了其能够整合不同智能体的知识和推理能力,从而提升整体性能。

图 3

5 结论

本文引入了一种新颖的LVLM多智能体框架smileGeo,专为地理定位任务而设计。 作者采用了三个精心设计的阶段整合了各种LVLM智能体,可在全球范围内进行匿名讨论和图像地理定位。 同时一种用于智能体协作社交网络的动态学习策略被提出,该策略可根据不同的特征选择合适的代理对每幅图像进行地理定位。

http://www.dtcms.com/a/265829.html

相关文章:

  • rabbitmq 与 Erlang 的版本对照表 win10 安装方法
  • SPLADE 在稀疏向量搜索中的原理与应用详解
  • MCP 传输机制(Streamable HTTP)
  • 多线程知识
  • 21、MQ常见问题梳理
  • 映射阿里云OSS(对象存储服务)
  • [创业之路-467]:企业经营层 - 《营销管理》的主要内容、核心思想以及对创业者的启示
  • 【Spring boot】tomcat Jetty Undertow对比,以及应用场景
  • Qt 事件
  • 医科+AI!和鲸支持南京医科大学医学数据挖掘课程实践教学落地
  • CCLinkIE转EtherCAT:食品产线测厚仪的“精准心跳”如何跳动?
  • 重学React(二):添加交互
  • 运维服务部中级服务工程师面试试题
  • 【Spring篇09】:制作自己的spring-boot-starter依赖1
  • 服务器如何配置防火墙规则开放/关闭端口?
  • ROS2---话题重映射
  • 能生成二维码的浏览器插件来了
  • 模型训练复习
  • RabbitMQ 高级特性之发送方确认
  • 12、jvm运行期优化
  • .Net Core 中RabbitMQ基本使用
  • [自然语言处理]计算语言的熵
  • 【Python办公】Excel转CSV文件(可指定拆分行数\可批量或单个)
  • 用C#编写一个读取磁盘第一扇区的程序
  • 架空线路云台监控系统应对线路故障的智能化解决方案
  • 深度学习中的逻辑回归:从原理到Python实现
  • leetcode:1049. 最后一块石头的重量 II[01背包][动态规划]
  • 实际开发如何快速定位和解决死锁?
  • PM2.5和PM10分别是什么
  • 基于MATLAB的风力发电机无人机巡检路径优化研究