当前位置: 首页 > news >正文

XLRS-Bench:您能否理解极端大型超高分辨率遥感影像?

  • 论文
  • github

XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?

Fengxiang Wang1, Hongzhen Wang2 , Mingshuo Chen3, Di Wang4,5, Yulin Wang2 ,
Zonghao Guo2, Qiang M a 2 \mathbf{M}\mathbf{a}^{2} Ma2 , Long Lan’, Wenjing Yang’* Jing Zhang4,6, Zhiyuan Liu2, Maosong S u n 2 \mathrm{Sun}^{2} Sun2
1 College of Computer Science and Technology, National University of Defense Technology, China 2 Tsinghua University, China 3 Beijing University of Posts and Telecommunications, China 4 School of Computer Science, Wuhan University, China 5 Zhongguancun Academy, China 6 School of Artificial Intelligence, Wuhan University, China

在这里插入图片描述

图 1. 我们的 XLRS-Bench 中的一个典型示例。XLRS-Bench 专注于超大超高分辨率 RS 图像,在同一图像中集成了 10 多个多模态视觉语言感知和推理任务。

摘要

多模态大型语言模型(MLLMs)的惊人突破需要新的基准来定量评估其能力、揭示其局限性并指示未来的研究方向。然而,在遥感(RS)的背景下,这具有挑战性,因为图像具有超高清分辨率,包含极其复杂的语义关系。现有的基准通常采用明显小于现实世界 RS 场景的图像尺寸,注释质量有限,且评估维度不足。为了解决这些问题,我们提出了 XLRS-Bench:一个用于评估 MLLMs 在超高清 RS 场景中感知和推理能力的综合基准。XLRS-Bench 拥有迄今为止观察到的最大平均图像尺寸 ( 8500 × 8500 ) (8500\times8500) (8500×8500)所有评估样本都经过精心的人工注释,并由一个用于超高清 RS 图像的新型半自动字幕生成器辅助。 在 XLRS-Bench 之上,定义了 16 个子任务来评估 MLLMs 的 10 种感知能力和 6 种推理能力,主要侧重于促进现实世界决策和时空变化捕捉的高级认知过程。在 XLRS-Bench 上,针对通用和 RS 专注的 MLLMs 的结果表明,需要进一步努力以实现现实世界的 RS 应用。我们已经开源了 XLRS-Bench 以支持进一步研究,开发更强大的 MLLMs 用于遥感。

1. 引言

多模态大型语言模型 (MLLM) 55 , 44 , 58 , 80 , 2的最新进展显著增强了视觉理解和推理能力。由于实际应用需要更详细的视觉处理,许多 MLLM 72 , 16 , 32 , 76 , 29已被开发出来以提高对高分辨率图像的理解。为了充分评估和利用它们的潜力,基准测试至关重要,从而导致创建各种相关数据集 34 , 77 , 12 , 67 , 25 , 56 , 13 , 5 。

遥感(RS)图像已成为监测和理解人类环境、推动精准农业 75、城市规划 81 和灾害评估 11 等应用领域发展的关键。因此,评估多模态语言模型(MLLM)在该领域的性能至关重要。然而,遥感图像的高分辨率和复杂的语义关系使得在现实世界的遥感环境中评估 MLLM 特别具有挑战性。尽管最近的研究 28,41,74 提出了基准和指标来评估 MLLM 在遥感中的性能,但这些努力在三个关键领域仍然有限:

图像尺寸。 真正的超高分辨率遥感图像通常捕捉到至少城市级别或以上的场景,图像尺寸很大(例如, 10 , 000 × 10 , 000 {10,000 × 10,000} 10,000×10,000)。然而,像 VRSBench 这样的基准测试仅利用 512 × 512 {512 × 512} 512×512 图像切片来评估多模态 LLMs 在跨模态感知和理解方面的性能(如视觉问答(VQA)、图像描述和视觉定位),这无法全面评估模型捕捉长距离空间语义关系的能力。

人工标注。 与全面手动标注相关的过高劳动力成本极大地限制了现有 RS 多模态基准(如 LHRS-Bench 41(仅 108 张 RS 图像配对 690 个 QA 对)的可扩展性。为此,基于 GPT 的标注器已被广泛采用,以自动构建训练和评估 MLLLM 的数据,从而生成大量数据。遵循这一趋势,已经创建了更大规模的 RS 基准 28。然而,自动化标注过程中缺乏严格的手动校准可能导致幻觉和错误,损害数据质量。此外,经验证据 77表明,由 MLLLM(如 GPT-4V)标注的基准往往包含语言偏见,尽管尝试手动调整内容偏见,但这些偏见可能会无意中提高相应模型在这些基准上的性能。

评估维度。现有的遥感(RS)基准主要集中在对基本感知能力的研究,如属性识别、语义区分和空间定位。然而,现有的基准未能全面评估多模态语言模型(MLLMs)的交互感知和复杂推理能力,而这些能力对于视觉定位、路径规划和意图推断等任务至关重要。

在这里插入图片描述

图 2:XLRS-Bench 的优势:XLRS-Bench 的平均图像大小是现有数据集的 24 倍。

为了解决这些挑战,我们引入了 XLRS-Bench,这是一个旨在评估 MLLM 在超高分辨率遥感场景中感知和推理能力的基准。我们首先收集了 1,400 张真实世界的超高分辨率遥感图像,平均大小为(8,500 × 8,500 像素)。其中,530 张图像来自检测数据集(例如,DOTA-v2 等。 65)和 870 张图像来自分割数据集(例如,MiniFrance 等。 6)。然后,45 位专家参与了 16 个子任务的手工标注和交叉验证。标注以三种视觉语言格式呈现,包括 VQA、字幕和视觉定位。具体来说,我们通过利用 GPT-4o 进行预标注和人工验证,实施了一个半自动化的图像字幕流程。此外,我们还邀请了 10 位 MLLM 领域的专家进行进一步的质量控制。最后,XLRS-Bench 包含了 45,942 个标注,涵盖 10 个感知能力指标和 6 个推理能力指标,包括 32,389 对 VQA,12,619 个视觉定位实例和 934 个详细说明,如图标签:图:主要所示。基于 XLRS-Bench,我们评估了一系列通用多模态语言模型和一个特定于遥感的多模态语言模型,并进行了深入分析。如图 2 所示,XLRS-Bench 相比现有基准的关键优势包括:

  • 超高清分辨率。XLRS-Bench 具有目前可用的最大图像尺寸,比现有数据集大 10 ∼ 20 × ,其中 840 张图像的分辨率为 10,000 × 10,000 像素。
  • 高质量标注。所有标注都涉及人工,并通过迭代手动验证,从而为评估 MLLM 在真实超高分辨率遥感场景中的表现提供了一个高质量的基准。
  • 全面评估维度:XLRS-Bench 涵盖 10 个感知指标和 6 个推理维度,以评估多模态 LLMs 的能力,包括 16 个子任务,共计 45,942 个问题。特别是,XLRS-Bench 包括复杂的推理任务,以探索 MLLMs 在长时空遥感场景中进行规划和变化检测的潜力。

总结来说,我们的主要贡献如下:

  • 我们建立了 XLRS-Bench,一个用于评估 MLLM 在超高清遥感场景下 16 个子任务中感知和推理能力的新基准。
  • 我们开发了一个半自动化的流程来扩展详细的描述,展示了在各种遥感任务中可扩展性的潜力。
  • • 我们在 XLRS-Bench 上评估了计算机视觉和遥感领域的突出 MLLM,为理解真实遥感场景提供了未来方向的见解。

2. ## 相关工作

通用多模态基准。大规模视觉语言模型(VLMs)在复杂场景理解和视觉情感分析等多模态任务中展现出巨大潜力。最近,开发了多模态评估数据集来定量评估这些模型的能力。然而,以前的基准主要关注特定领域,并在一个或几个任务上评估模型(例如,字幕生成cite id=2 8, 1, 68 或视觉问答(cite id=9 22, 38, 15, 17, 52, 79)。对大规模 VLMs 的评估需要更全面的基准。因此,MME cite id=22 12 提供了一个涵盖 14 个感知和认知任务的基准,而 MMBench cite id=25 34 包括超过 3000 个问题,涵盖 20 个技能维度,如物体定位和社会推理。 Seed-Bench 通过增加 19,000 个问题扩大了样本量,而 MMT-Bench 整合了来自自动驾驶和嵌入式 AI 等领域的真实世界数据。MME-Realworld 扩展到五个真实世界场景,提供了迄今为止最高分辨率的自然场景基准,图像分辨率为 2,000 × 1,500。然而,这些通用基准有两个主要限制:RS 场景的数据和文本注释有限,以及图像尺寸与真实 RS 数据相比较小。即使是包含最多 RS 数据的 MME-Realworld,也仅包括与 RS 场景相关的三种类型的 QA 对。此外,其平均分辨率为 2,000 × 1,500,仍然远低于真实 RS 任务的需求(例如,HRSCD 在 10,000 × 10,000 的 RS 分割中)。

遥感多模态基准。 随着最近在通用领域大型多模态模型方面的进步,遥感(RS)领域在多语言模型(MLLMs)方面也经历了快速增长 23, 41]。这导致了相关评估基准的创建。RSIEval 20 提供了 100 个由人类标注的标题和 936 个视觉问答对,主要用于图像标题和视觉问答(VQA)任务。LHRS-Bench 41 提供 108 张图像和 690 个问题,VQA 问题涵盖五个维度。VLEO-BENCH 39 涵盖城市监测、灾害救援、土地利用和保护区等场景,评估在场景理解、定位、计数和变化检测任务中的视觉语言模型(VLMs)。更重要的是,RSSA 45引入了一个专注于幻觉的基准,而 FIT-RSRC 37 则针对理解遥感场景中的物体关系。 VRSBench 包括 29,614 张图像及其配对描述、52,472 个物体引用和 123,221 个问答对。然而,这些基准有两个主要局限性。首先,它们缺乏多样化的子任务,导致评估不够客观和全面。其次,它们的图像大小通常限制在 512 × 512,这远远小于真实遥感任务的需求(例如,DOTA 的图像用于检测任务达到 7,000 × 4,000,HRSCD 的图像用于分割任务达到 10,000 × 10,000),阻碍了 MLLM 在现实世界遥感场景中长距离空间语义认知的评估。

多模态大型语言模型。利用先进的 LLMs 如 GPTs 44 和 LLaMA 58,多模态语言模型(MLLMs)展现了令人印象深刻的性能。专有模型如 Gemini 55 和 GPT-4o 44 表现出强大的理解和推理能力,而开源模型,包括 Qwen-VL 2、InternLM-XComposer 72、MiniCPM 19、LLaVA 31 和 MiniGPT-4 80,也表现出显著的性能。由于这些模型并非专门针对高分辨率任务进行优化,因此它们仅支持从 2K 到 4K 的图像分辨率。最近,一些 MLLMs 已经解决了低分辨率限制,以实现高分辨率处理。例如,LLaVA-Next 32 将高分辨率图像划分为块,独立编码每个块,然后将块标记与全局图像标记链接。此外,如 Monkey[30] 和 LLaVA-UHD[16] 等模型将这些块压缩以避免冗余标记。另一方面,Mini-Gemini[29] 使用双编码器——一个用于高分辨率图像,另一个用于低分辨率嵌入,而 Cambrian[57] 使用可学习的潜在查询与多个视觉特征交互,SliME[76] 将局部块压缩两次,保留全局特征。在遥感领域61, 24, 21, 62,多模态 LLM 也取得了进展。 Geochat 基于 LLaVA-1.5,能够实现与遥感图像的多任务对话。LHRS-Bot 通过多层次视觉-语言对齐策略和课程学习增强图像理解,EarthGPT 统一了多传感器解释任务,以实现通用遥感理解。

尽管取得了这些进步,遥感(RS)和通用领域多模态 LLMs(大型语言模型)仍面临挑战。通用 MLLMs 虽然专注于高分辨率处理,但在实际遥感场景中的大型基准测试方面缺乏严格的测试。同时,RS 模型仅在小型图像(例如, 512 × 512 {512 × 512} 512×512)的基准上进行测试。相比之下,我们的 XLRS-Bench 提供了一个严格的测试平台,以评估模型在真实遥感环境中的大型图像上的感知和推理能力。

3. ## XLRS-Bench

XLRS-Bench 在现有的多模态理解基准测试中脱颖而出,具有四个关键特性: i) 平均图像尺寸最大为 8 , 500 × 8 , 500 {8,500 × 8,500} 8,500×8,500,包含广泛的 10 , 000 × 10 , 000 {10,000 × 10,000} 10,000×10,000 图像;ii) 16 个子任务旨在评估 MLLM 在超高分辨率遥感场景中的能力;iii) 严格的质控以确保样本的准确性和有效性;iv) 双语支持,用于评估 VLM 在英语和中文中的性能。XLRS-Bench 的构建细节将在下文提供。

3.1 评估维度

人类具有非凡的感知和推理能力,这是复杂认知的基础。感知收集感官输入,而推理得出结论。这些能力共同使物体识别、问题解决和决策等任务成为可能。为了在真实的大规模遥感场景中实现真正的通用人工智能,多模态 LLMs 也必须展现出强大的感知和推理能力。因此,我们将感知和推理归类为基本(L-1)能力,进一步细分为 11 个 L-2 和 16 个 L-3 能力维度。图 3 展示了这种分类,其详细解释将在下文给出。

3.1.1 感知

我们采用两个典型任务:图像描述和视觉问答(VQA),以衡量 L-1 感知能力。为了评估在捕捉大尺寸超高分辨率遥感场景的细粒度信息方面的能力,在 L-2 级别,我们额外定义了 6 个评估方面,这些方面在 L-3 级别进一步细分为 10 个更精细的指标。接下来,我们将分别介绍 L-2 能力,同时也会展示 L-3 任务。

  • 图像描述。在这个任务中,我们超越了简单的单句描述任务,转向了详细图像描述,因为大尺寸超高分辨率遥感图像包含大量细节。
  • 场景分类。场景分类通过两个 L-3 子任务进行评估:总体土地利用分类和区域土地利用分类。前者侧重于全局图像信息,使用多项选择题,而后者则使用单选题来检验局部区域的详细场景理解。
  • 计数。此功能包含两个 L-3 维度:整体计数和区域计数。整体计数需要对整个图像进行全面的物体识别,这对人类来说都是一项挑战。区域计数将焦点缩小到更小的区域。
  • 对象空间关系。这一维度要求模型识别两个指定的对象并确定它们的空间关系,需要高级的空间感知和理解能力。
  • 对象属性。对象理解在三个 L-3 维度上进行评估:对象分类、对象颜色和对象运动状态。我们排除了形状和大小等属性[28],因为它们属于对象分类。在这里,我们单独评估对象颜色,因为它与形状和大小等属性差异显著。对象运动状态特别相关,因为它测试通过上下文线索进行推理的能力,例如从船的尾波推断船的运动。
  • 视觉定位。这个维度测试模型精确定位对象的能力。我们评估了细粒度视觉定位,这在遥感中至关重要,模型需要在大规模高分辨率场景中检测小型对象类型。值得注意的是,这些大尺寸图像中的某些对象可能小到只有 5-10 像素,这对主要支持 2K 分辨率的当前多模态 LLMs 来说是一个挑战,它们将这些对象压缩到仅 1-2 像素。

在这里插入图片描述

图 3:XLRS-Bench 评估了多模态 LLMs 在三个层次和 16 个子任务上的感知和推理能力。

表 1: 现有视觉-语言基准与我们的基准的比较。 勾选圆圈 , 叉号圆圈和 ✓✗ 分别表示标注是机器生成、人工编写和半自动化,即机器生成后由人工验证。
![[2025-04-03_12-48-40.png]]

3.1.2. 原因

与之前对简单推理的评估不同 [28],我们希望评估模型在超高分辨率遥感场景中基于丰富视觉信息进行复杂推理的能力。我们设计了具有挑战性的 5 个 L-2 维度和 6 个 L-3 维度,以测试在现实超高分辨率遥感场景中的推理能力:

  • 复杂推理。它分为两个 L-3 维度,环境条件推理和复杂推理计数。前者利用超高分辨率图像中的理解信息,要求模型进行上下文推断。复杂推理计数不仅需要基于感知的计数,还需要进行复杂推理的能力。
  • • 异常推理。模型应利用上下文线索检测异常并预测潜在风险,称为异常检测与解释。例如,在靠近山的小镇,模型应识别出裸露的森林土地,并考虑气候条件,预测可能的山体滑坡风险。
  • 规划。除了推理之外,模型应根据提供的条件规划路线,称为路线规划(L-3 能力)。给定一个用自然语言描述的起点,模型必须准确地在图像上定位它,并根据最短距离或最小交叉等标准选择最佳路线。
  • • 视觉定位。我们还包括条件定位来评估基于推理的定位能力,称为基于条件的视觉定位(L-3 能力)。在这里,模型通过根据图像中的复杂条件进行推理来定位对象。
  • • 空间时间推理。区域计数与变化检测在遥感领域具有独特性,因为它评估了同一位置两个时间图像中对象数量的变化。

3.2 数据收集与质量控制

数据来源 为了创建具有多样评估维度的基准,我们收集了大量高分辨率遥感图像,这些图像视觉细节丰富,以便设计各种具有挑战性的评估任务。具体来说,我们从现实世界的遥感场景中精心挑选了 1,400 张图像用于不同的下游任务,并基于多样性和质量进行了严格筛选。对于检测任务,我们从 DOTA-v2 数据集([65])中获取了 270 张 4,096 × 4,096 分辨率的图像和 210 张 7,360 × 4,912 分辨率的图像,并从 ITCVD 数据集([66])中添加了 50 张 3,744 × 5,616 分辨率的图像。对于分割任务,我们使用了 MiniFrance 数据集([6])中的 457 张 10,000 × 10,000 分辨率的图像,13 张 11,500 × 7,500 分辨率的图像来自多伦多数据集([49]),以及 30 张 6,000 × 6,000 分辨率的图像来自波茨坦数据集([48])。此外,对于变化检测任务,我们还包含了 HRSCD 数据集([10])中的 185 对(370 张)10,000 × 10,000 分辨率的图像。 每张图像都经过标注员的多轮交叉验证,以确保有丰富多样的、大尺寸和超高分辨率的样本选择。值得注意的是,我们的数据集包括840张10,000 × 10,000像素的图像——这是基准工作中的一大里程碑。据我们所知,这是首次使用10,000 × 10,000图像进行的大规模评估。尽管对人类评估来说具有挑战性,但我们相信这是向现实遥感应用迈出的重要一步。

视觉问答 在 XLRS-Bench 中,我们为每个 L-3 能力编译了视觉语言问答对,以多选题的形式呈现,不包括基于事实和字幕的维度。每个对子包括:①(问题),②(一组选项,③,④,⑤(相关图像),以及⑥(正确答案)。值得注意的是,研究表明基于 GPT 的工具可能会在基准测试中引入偏差,偏向于类似的模型,从而损害其严谨性和现实世界的评估能力[1][77]。为了解决这个问题,经过训练的标注员通过仅由人类进行的标注来扩展问题集,避免 GPT 的帮助。为了最小化设计偏差,我们实施了交叉验证并组建了一个外部评审小组。具体来说,三个标注组,每个组有 15 名成员,相互交叉验证对方的工作,而一个由 10 名具有 MLLM 经验的专家组成的评审小组解决分歧并验证问题设计,确保所有问题真正评估 MLLM 的能力。

视觉定位 在 XLRS-Bench 中,我们评估了跨两个 L-3 维度的视觉定位。我们通过每个 L-3 维度选择 5-10 个对象来分析每张图像,从而每张图像有 10-20 个对象。具体来说,我们为每个对象精心制作了参考句子,以实现独立和精确的识别。这些句子中的独特特征,如颜色、形状、位置、大小和相对空间属性,将每个参考对象与其他对象区分开来。对于基于条件的视觉定位任务,标注者使用详细的图像信息来创建特定条件的描述,包括对状态或地理细节的可能约束。值得注意的是,所有视觉定位标注都由 VQA 小组的标注和质量控制团队完成,确保了高质量的全程人工标注。

图像标题 与其他仅用单一、简单的描述来评估多模态 LLM 对遥感图像理解的方法不同,我们认为超高分辨率图像中的丰富细节需要详尽和精确的描述。在图像标题方面,我们使用半自动流程来解释和生成图像的文本注释,如图 3 所示。我们首先将每张图像划分为九个子图像,因为使用基于 GPT 的工具来注释整个图像往往会导致低质量的标题,丢失重要的细节,而子图像方法有助于缓解这一问题。

在接下来的步骤中,我们使用复杂提示将 10 张图像(9 张子图像加上一张压缩的全图)输入到 GPT-4o 中,以生成详细全面的标题。例如,对于一个场景中有一条河流穿过,一侧是湿地,另一侧是城市区域的 10,000 × 10,000 图像,仅使用子图像无法反映河流的流动和整体布局,而仅采用全图则缺乏局部细节。我们的结合输入方法解决了这两个问题。对于超高分辨率遥感场景,我们采用从一般到具体的结构,分别描述整体图像和每个子图像,其中子图像描述中的关键对象(如车辆、船只和建筑物)被计数。然后我们要求 GPT-4o 在整个图像中计数和显示突出对象,识别异常,并预测潜在风险或发展。详细的标题和多图像输入导致 GPT-4o 的 token 使用量很大,为 1,000 张图像制作标题的成本超过 2,000 美元。然而,尽管有精确的提示,GPT-4 在计数和推理等复杂任务上仍然存在困难,需要大量的人工干预来确保标题的质量。为了解决这个问题,注释员使用现有的 VQA 注释来细化标题并进行细节和质量控制。这些改进包括调整摘要、纠正物体计数、细化场景类型、按重要性排序区域描述以及手动标注异常。

在这里插入图片描述

图 4:XLRS-Bench 中详细图像标题的半自动化流程。

3.3. 分析

分辨率。 一些基准测试采用高达 2,000 × 1,500 像素大小的图像,但它们主要针对自然图像,而不是遥感场景。相比之下,当前的遥感基准测试通常保持在 512 × 512 像素以下,如表 1 所示。相比之下,我们的 XLRS-Bench,平均大小为 8,500 × 8,500 像素,提供了广泛的视图,有助于更深入地理解真实的遥感场景。值得注意的是,它包括 840 张 10,000 × 10,000 像素的图像,产生了超过 10,000 个 QA 对。实际上,标注者必须仔细分析这些图像才能回答问题,并使用交叉验证来减少错误。我们希望这个大尺寸的遥感基准测试能够推动多模态 LLMs 的发展。

标题长度。 XLRS-Bench 提供了全面的描述,涵盖了全球图像背景、区域细节、特定对象属性、对象数量、异常情况和推理信息。每个标题从一般图像概述开始,然后是各个区域的精确细节。区域细节包括对象属性,如数量、颜色、形状、大小和空间定位——包括图像内的绝对值和相对于建筑物、道路和树木等对象的相对位置。总之,这些描述强调清晰、独特的特征,避免歧义,通常英文平均 19 句话(379 个单词),中文平均 20 句话(663 个单词)。

表 2:VQA 任务感知和推理维度的实验结果,按平均性能排序。灰色突出显示的是专有模型。‘Avg’表示子任务的平均准确率。

![[2025-04-03_13-45-30.png]]

表 3:在 XLRS-Bench 上的详细图像标题性能。
在这里插入图片描述

双语。传统视觉问答(VQA)方法 34 使用翻译引擎将问答对从英语翻译成中文,但这种方法往往导致视觉文本错位 54,并且无法处理细微差别、语境细微差别、语言偏见和多样化的问题类型。这些问题在详细字幕中尤为明显,因为长内容使得机器翻译容易出错。为了构建高质量的中文基准,我们邀请了六位精通中英文的双语专家翻译并交叉检查所有长文本内容。最后,为 XLRS-Bench 的中文版本提供了 1,400 张图像、32,389 个问答对、12,619 个地面实况和 934 个详细字幕,保持了相似的任务类型、图像质量和难度。

4 实验

4.1 实验设置

在 XLRS-Bench 上评估的 MLLMs 分为三类:(a)开源 VLMs,包括 Qwen2-VL 63、LLava-Onevision 27、LLava-Next 32、LLaVA-1.5 58、CogVLM2 18、InternLM-XComposer-2.5 73] 和 InternVL-2 64;(b)闭源 VLMs,如 GPT-4o 42 并且 GPT-4o-mini <参考文献 id=24>[<引用 id=25>43];以及(c)专业的遥感模型 Geochat <参考文献 id=27>[<引用 id=28>23]。为了进行公平比较,我们使用了对所有 VLMs 都有统一提示的无样本设置。附录详细说明了每个开源 VLM 的架构和参数大小,并包括在各种设置下的额外结果。除了使用其原生框架评估的 GeoChat 之外,所有其他模型都使用 LMMs-Eval <参考文献 id=30>[<引用 id=31>71,<引用 id=33>26] 进行评估。更多结果见附录。

4.2 评估策略

在 VQA 任务中,我们为每个问题手动创建了四个选项:一个正确答案和三个干扰项,这些干扰项来自图像中的文本或类似的替代选项。这增加了难度,需要模型深入理解图像细节。遵循 MMBench 34 和 MME-Realworld 77 方法,我们评估了 VQA 任务的 L-2 能力维度的准确性,并报告了 L-2 维度的平均准确性,L-3 结果见附录。对于整体土地利用分类的 L3 子任务,如果一个问题可能有多个正确选项,只有当预测与地面实况完全匹配时,预测才被认为是正确的。对于定位任务,我们使用精确度,根据预测和地面实况边界框的交集来评估准确性,如果 IoU 超过阈值,则认为预测是正确的。我们测试了两个 IoU 阈值:0.5 和 0.7。对于标题任务,我们使用了标准指标,包括 BLEU(参考文献[46]),ROUGE_L(参考文献[9])和 METEOR(参考文献[4])。我们考虑了 BLEU 的 n-gram 精度,n 值为 1、2、3 和 4。表 2、表 3 和表 4 中的所有分数均以百分比(%)的形式报告。

表 4: 在 XLRS-Bench 和 VRSBench 上的视觉定位性能 28。*: VRSBench 使用 GPT-4V 来评估此任务。
在这里插入图片描述

4.3 主要结果

问答任务的结果。 表格 2 比较了不同模型在感知和推理能力的四个不同 L-2 维度上的表现,分别。Qwen2-VL 在英语和中文能力上都非常出色,超越了大多数专有和开源模型。然而,它们的性能在不同任务中有所不同。从结果中,我们可以得出以下关键见解:(1)GPT-4o 在时空推理方面的弱点 :GPT-4o 在复杂时空推理任务上的表现不如开源模型,准确率始终低于 25%。这些任务侧重于局部计数以进行变化检测,评估 MLLMs 捕捉图像中时间细节的能力。GPT-4o 可能缺乏对 RS 场景变化检测的预训练,有时拒绝回答问题,以隐私或有害内容为由。相比之下,Qwen2-VL 在这些子任务上表现可靠。 (2) 更高分辨率输入模型的好处 :像 Qwen2-VL 这样的模型,允许使用更高分辨率的输入,显著优于使用 CLIP( 例如 ,LLaVA1.5)等视觉编码器的模型。输入图像大小的限制通常需要压缩,但 Qwen2-VL 处理更大图像尺寸丰富信息的能力导致其性能更优。(3) 遥感中的更好抽象推理 :在高分辨率遥感场景中,模型在抽象推理任务(如异常检测)方面表现出色,这些任务需要最小的局部细节,并且可以依赖于压缩的区域数据。相反,对于需要精细细节识别的感知密集型任务,MLLMs 受其架构限制,准确率仅为 30%–50%。

图像标题任务的结果。 我们的标题平均包含 379 个英文单词和 663 个中文单词,提供了丰富详细的描述,具有广泛的应用性。然而,评估结果显示,多模态 LLMs 在处理这些长篇、现实世界的标题时存在困难;开源模型如 Qwen2-VL 和针对 RS 的 GeoChat 表现不佳。值得注意的是,GPT-4o 和 GPT-4o-mini,即使没有进行广泛的 RS 预训练,在长文本生成方面表现出色,显著优于其他模型。之前的 RS 标题评估主要集中在较短的文本上,忽略了 GPT-4o 在处理长内容方面的优势。 对于中文标题任务,GPT-4o 仍然优于其他模型,展示了其强大的理解和生成能力,是未来研究的有价值资产。

接地任务的结果。 在标注视觉定位时,我们预料到了挑战,但每个多模态 LLM 的表现不佳还是令人惊讶。为了验证基准测试的有效性,我们进行了额外的人工验证:我们从每个 VQA 子任务(L-3 维度)中随机选择了 100 个问题,并让两组人同时回答。我们还包括了低分辨率 RS 视觉接地数据集 VRSBench 的结果。值得注意的是,即使在 512 × 512 的低分辨率 RS 场景中,GPT-4V 也只达到了 1.1%和 5.1%的准确率;当扩展到接近 8,500 × 8,500 的分辨率时,准确率分别为 3.2%和 0.48%,这在理解上是合理的。在这些大图像中,一些物体的尺寸小至 5-10 像素,这对当前的 MLLM 来说是一个挑战。

局限性和讨论。 1) 时空理解局限 :通用模型(如 LLaVA 系列和 GPT-4o)缺乏针对遥感时空理解的规模化训练,导致此类任务性能不佳。例如,GPT-4o 的准确率低于 25%(见表 2)。鉴于这些任务在遥感领域的广泛应用,特定领域的训练至关重要。像 GeoChat 这样的专业模型尚未支持多图像输入任务,这突显了在此领域进一步研究的必要性。2) 超高分辨率场景的挑战 :当前的高分辨率多模态语言模型仅限于 4K 图像,对于更大尺寸的图像需要显著的压缩,从而导致大量信息损失。这个问题对于卫星图像至关重要,因为小物体通常只有 5-10 像素,压缩后缩小到单个像素,变得毫无信息量。预计开发针对遥感超分辨率的专业多模态语言模型将有助于缓解这一局限。

5. 结论

本文介绍了 XLRS-Bench,这是一个用于评估多模态大型语言模型(MLLM)在超高分辨率遥感(RS)场景中感知和推理能力的综合基准。XLRS-Bench 具有迄今为止最大的平均图像尺寸、高质量的人工验证注释,以及三个能力水平下的 16 个子任务,提供多维度的评估。它支持英语和中文,成为最大的手动注释超高分辨率 RS 视觉-语言数据集,在数据容量和任务多样性方面超越了现有基准。通过强调现实世界的决策和时空变化检测,XLRS-Bench 促进了高级认知过程。实验结果表明,当前通用和 RS 特定 MLLM 在理解超高分辨率 RS 图像方面仍然存在困难,突显了进一步改进的必要性。

6. 致謝

这项工作部分得到了中国国家自然科学基金(编号:62372459,62376282 和 624B2109)的支持。

参考文献

[1] Harsh Agrawal, Karan Desai, Yufei Wang, Xinlei Chen, Rishabh Jain, Mark Johnson, Dhruv Batra, Devi Parikh, Stefan Lee, and Peter Anderson. Nocaps: Novel object captioning at scale. In Proceedings of the IEEE/CVF international conference on computer vision, pages 8948–8957, 2019. 3
[2] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. 2, 3
[3] Shuai Bai, Shusheng Yang, Jinze Bai, Peng Wang, Xingxuan Zhang, Junyang Lin, Xinggang Wang, Chang Zhou, and Jingren Zhou. Touchstone: Evaluating vision-language models by language models. arXiv preprint arXiv:2308.16890, 2023. 5
[4] Satanjeev Banerjee and Alon Lavie. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization, pages 65–72, 2005. 8
[5] Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, and Ludwig Schimdt. Visit-bench: a benchmark for visionlanguage instruction following inspired by real-world use. In Proceedings of the 37th International Conference on Neural Information Processing Systems, pages 26898–26922, 2023. 2, 5
[6] Javiera Castillo-Navarro, Bertrand Le Saux, Alexandre Boulch, Nicolas Audebert, and Sébastien Lefevre. Semisupervised semantic segmentation in earth observation: The minifrance suite, dataset analysis and multi-task network study. Machine Learning, 111(9):3125–3160, 2022. 2, 5, 35, 36
[7] Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, et al. Are we on the right way for evaluating large vision-language models? arXiv preprint arXiv:2403.20330, 2024. 5
[8] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325, 2015. 3
[9] Lin Chin-Yew. Rouge: A package for automatic evaluation of summaries. In Proceedings of the Workshop on Text Summarization Branches Out, 2004, 2004. 8
[10] Rodrigo Caye Daudt, Bertrand Le Saux, Alexandre Boulch, and Yann Gousseau. Multitask learning for large-scale semantic change detection. Computer Vision and Image Understanding, 187:102783, 2019. 3, 5, 35, 36
[11] Fabio Dell’Acqua and Paolo Gamba. Remote sensing and earthquake damage assessment: Experiences, limits, and perspectives. Proceedings of the IEEE, 100(10):2876–2890, 2012. 2
[12] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023. 2, 3, 5
[13] Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A Smith, Wei-Chiu Ma, and Ranjay Krishna. Blink: Multimodal large language models can see but not perceive. In European Conference on Computer Vision, pages 148–166. Springer, 2024. 2, 5
[14] Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé li, and Kate Crawford. Datasheets for datasets. Communications of the ACM, 64(12):86–92, 2021. 35
[15] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017. 3
[16] Zonghao Guo, Ruyi Xu, Yuan Yao, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, and Gao Huang. Llava-uhd: an lmm perceiving any aspect ratio and highresolution image. In European Conference on Computer Vision, pages 390–406. Springer, 2024. 2, 3
[17] Danna Gurari, Qing Li, Abigale J Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, and Jeffrey P Bigham. Vizwiz grand challenge: Answering visual questions from blind people. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3608–3617, 2018. 3
[18] Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, et al. Cogvlm2: Visual language models for image and video understanding. arXiv preprint arXiv:2408.16500, 2024. 7
[19] Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, et al. Minicpm: Unveiling the potential of small language models with scalable training strategies. arXiv preprint arXiv:2404.06395, 2024. 3
[20] Yuan Hu, Jianlong Yuan, Congcong Wen, Xiaonan Lu, and Xiang Li. Rsgpt: A remote sensing vision language model and benchmark. arXiv preprint arXiv:2307.15266, 2023. 3, 5
[21] Liang Huang, Fengxiang Wang, Yalun Zhang, and Qingxia Xu. Fine-grained ship classification by combining cnn and swin transformer. Remote Sensing, 14(13):3087, 2022. 3
[22] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6700–6709, 2019. 3
[23] Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das, Salman Khan, and Fahad Shahbaz Khan. Geochat: Grounded large vision-language model for remote sensing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 27831– 27840, 2024. 3, 7, 18
[24] Long Lan, Fengxiang Wang, Xiangtao Zheng, Zengmao Wang, and Xinwang Liu. Efficient prompt tuning of large vision-language model for fine-grained ship classification. IEEE Transactions on Geoscience and Remote Sensing, 2024. 3
[25] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023. 2, 3, 5, 13
[26] Bo Li, Peiyuan Zhang, Kaichen Zhang, Fanyi Pu, Xinrun Du, Yuhao Dong, Haotian Liu, Yuanhan Zhang, Ge Zhang, Chunyuan Li, and Ziwei Liu. Lmms-eval: Accelerating the development of large multimodal models. https: //github.com/EvolvingLMMs-Lab/lmms-eval, 2024. 7, 35
[27] Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, and Chunyuan Li. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326, 2024. 7
[28] Xiang Li, Jian Ding, and Mohamed Elhoseiny. Vrsbench: A versatile vision-language benchmark dataset for remote sensing image understanding. arXiv preprint arXiv:2406.12384, 2024. 2, 3, 4, 5, 8, 37
[29] Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, and Jiaya Jia. Mini-gemini: Mining the potential of multi-modality vision language models. arXiv preprint arXiv:2403.18814, 2024. 2, 3
[30] Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, and Xiang Bai. Monkey: Image resolution and text label are important things for large multi-modal models. In proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 26763–26773, 2024. 3
[31] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. Advances in neural information processing systems, 36:34892–34916, 2023. 3
[32] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee. Llava-next: Improved reasoning, ocr, and world knowledge. https: //llava- vl.github.io/blog/2024- 01- 30- llava-nextl, 2024. 2, 3, 7
[33] Sihan Liu, Yiwei Ma, Xiaoqing Zhang, Haowei Wang, Jiayi Ji, Xiaoshuai Sun, and Rongrong Ji. Rotated multi-scale interaction network for referring remote sensing image segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024. 5
[34] Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et al. Mmbench: Is your multi-modal model an all-around player? In European conference on computer vision, pages 216–233. Springer, 2024. 2, 3, 5, 7, 13, 15
[35] Sylvain Lobry, Diego Marcos, Jesse Murray, and Devis Tuia. Rsvqa: Visual question answering for remote sensing data. IEEE Transactions on Geoscience and Remote Sensing, 58 (12):8555–8566, 2020. 5
[36] Xiaoqiang Lu, Binqiang Wang, Xiangtao Zheng, and Xuelong Li. Exploring models and data for remote sensing image caption generation. IEEE Transactions on Geoscience and Remote Sensing, 56(4):2183–2195, 2017. 5
[37] Junwei Luo, Zhen Pang, Yongjun Zhang, Tingzhu Wang, Linlin Wang, Bo Dang, Jiangwei Lao, Jian Wang, Jingdong Chen, Yihua Tan, et al. Skysensegpt: A fine-grained instruction tuning dataset and model for remote sensing visionlanguage understanding. arXiv preprint arXiv:2406.10100, 2024. 3
[38] Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pages 3195–3204, 2019. 3
[39] Valerio Marsocci, Yuru Jia, Georges Le Bellier, David Kerekes, Liang Zeng, Sebastian Hafner, Sebastian Gerard, Eric Brune, Ritu Yadav, Ali Shibli, et al. Pangaea: A global and inclusive benchmark for geospatial foundation models. arXiv preprint arXiv:2412.04204, 2024. 3
[40] Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, and Enamul Hoque. Chartqa: A benchmark for question answering about charts with visual and logical reasoning. arXiv preprint arXiv:2203.10244, 2022. 13
[41] Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, and Pengfeng Xiao. Lhrs-bot: Empowering remote sensing with vgi-enhanced large multimodal language model. In European Conference on Computer Vision, pages 440–457. Springer, 2024. 2, 3
[42] OpenAI. Hello gpt-4o. https://openai.com/ index/hello-gpt-4o, 2024. 7
[43] OpenAI. Gpt-4o mini: advancing cost-efficient intelligence. https://openai.com/index/gpt- 4o- miniadvancing - cost - efficient - intelligence, 2024. 7
[44] OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2024. 2, 3
[45] Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun, Weijia Li, Xingxing Weng, Shuai Wang, Litong Feng, GuiSong Xia, et al. H2rsvlm: Towards helpful and honest remote sensing large vision language model. arXiv preprint arXiv:2403.20213, 2024. 3
[46] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002. 8
[47] Bo Qu, Xuelong Li, Dacheng Tao, and Xiaoqiang Lu. Deep semantic understanding of high resolution remote sensing image. In 2016 International conference on computer, information and telecommunication systems (Cits), pages 1–5. IEEE, 2016. 5
[48] Franz Rottensteiner, Gunho Sohn, Markus Gerke, and Jan D Wegner. Isprs semantic labeling contest. ISPRS: Leopoldshohe, Germany, 1(4): 4, 2014. 5
[49] Franz Rottensteiner, Gunho Sohn, Markus Gerke, Jan Dirk Wegner, Uwe Breitkopf, and Jaewook Jung. Results of the isprs benchmark on urban object detection and 3d building reconstruction. ISPRS journal of photogrammetry and remote sensing, 93:256–271, 2014. 5
[50] Tanik Saikh, Tirthankar Ghosal, Amish Mittal, Asif Ekbal, and Pushpak Bhattacharyya. Scienceqa: A novel resource for question answering on scholarly articles. International Journal on Digital Libraries, 23(3):289–301, 2022. 5
[51] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In CVPR, 2002. 13
[52] Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, and Marcus Rohrbach. Towards vqa models that can read. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 8317–8326, 2019. 3
[53] Yuxi Sun, Shanshan Feng, Xutao Li, Yunming Ye, Jian Kang, and Xu Huang. Visual grounding in remote sensing image. In Proceedings of the 30th ACM International Conference on Multimedia, pages 404–412, 2022. 5
[54] Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, et al. Mtvqa: Benchmarking multilingual text-centric visual question answering. arXiv preprint arXiv: 2405.11985, 2024. 7
[55] Gemini Team, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, et al. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv: 2312.11805, 2023. 2, 3
[56] Peter Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Adithya Jairam Vedagiri IYER, Sai Charitha Akula, Shusheng Yang, Jihan Yang, Manoj Middepogu, Ziteng Wang, et al. Cambrian-1: A fully open, vision-centric exploration of multimodal llms. Advances in Neural Information Processing Systems, 37:87310–87356, 2024. 2, 5
[57] Shengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, et al. Cambrian 1: A fully open, vision-centric exploration of multimodal llms. arXiv preprint arXiv: 2406.16860, 2024. 3
[58] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Roziere, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv: 2302.13971, 2023. 2, 3, 7
[59] Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, et al. Decodingtrust: A comprehensive assessment of trustworthiness in gpt models. In NeurIPS, 2023. 3
[60] Fengxiang Wang, Wanrong Huang, Shaowu Yang, Qi Fan, and Long Lan. Learning to learn better visual prompts. Proceedings of the AAAI Conference on Artificial Intelligence,
38(6):5354–5363, 2024. 3
[61] Fengxiang Wang, Hongzhen Wang, Di Wang, Zonghao Guo, Zhenyu Zhong, Long Lan, Jing Zhang, Zhiyuan Liu, and Maosong Sun. Scaling efficient masked autoencoder learning on large remote sensing dataset. arXiv preprint arXiv: 2406.11933, 2024. 3
[62] Fengxiang Wang, Hongzhen Wang, Yulin Wang, Di Wang, Mingshuo Chen, Haiyan Zhao, Yangang Sun, Shuo Wang, Long Lan, Wenjing Yang, et al. Roma: Scaling up mambabased foundation models for remote sensing. arXiv preprint arXiv: 2503.10392, 2025. 3
[63] Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution. arXiv preprint arXiv: 2409.12191, 2024. 7
[64] Weiyun Wang, Zhe Chen, Wenhai Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Jinguo Zhu, Xizhou Zhu, Lewei Lu, Yu Qiao, et al. Enhancing the reasoning ability of multimodal large language models via mixed preference optimization. arXiv preprint arXiv: 2411.10442, 2024. 7
[65] Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. Dota: A large-scale dataset for object detection in aerial image. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3974–3983, 2003. 2, 3, 5, 35, 36
[66] Michael Ying Yang, Wentong Liao, Xinbo Li, and Bodo Rosenhahn. Deep learning for vehicle detection in aerial image. In 2018 25th IEEE International Conference on Image Processing (ICIP), pages 3079–3083. IEEE, 2018. 5, 35, 36
[67] Kaining Ying, Fanqing Meng, Jin Wang, Zhiqian Li, Han Lin, Yue Yang, Hao Zhang, Wenbo Zhang, Yuqi Lin, Shuo Liu, et al. Mmt-bench: A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask agi. In International Conference on Machine Learning, pages 57116–57198. PMLR, 2024. 2, 3, 5, 15
[68] Peter Young, Alice Lai, Micah Hodosh, and Julia Hockenmaier. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2:67–78, 2014. 3
[69] Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. Mm-vet: Evaluating large multimodal models for integrated capabilities. In International Conference on Machine Learning, pages 57730–57754. PMLR, 2024. 5
[70] Yang Zhan, Zhitong Xiong, and Yuan Yuan. Rsvg: Exploring data and models for visual grounding on remote sensing data. IEEE Transactions on Geoscience and Remote Sensing, 61: 1–13, 2023. 5
[71] Kaichen Zhang, Bo Li, Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono, Kairui Hu, Shuai Liu, Yuanhan Zhang, Jingkang Yang, Chunyuan Li, and Ziwei Liu. Lmmseval: Reality check on the evaluation of large multimodal models. arXiv preprint arXiv:2407.12772, 2024. 7, 35
[72] Pan Zhang, Xiaoyi Dong Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, et al. Internlmxcomposer: A vision-language large model for advanced text-image comprehension and composition. arXiv preprint arXiv:2309.15112, 2023. 2, 3
[73] Pan Zhang, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Rui Qian, Lin Chen, Qipeng Guo, Haodong Duan, Bin Wang, Linke Ouyang, et al. Internlm-xcomposer-2.5: A versatile large vision language model supporting long-contextual input and output. arXiv preprint arXiv:2407.03320, 2024. 7
[74] Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, and Xuerui Mao. Earthgpt: A universal multi-modal large language model for multi-sensor image comprehension in remote sensing domain. IEEE Transactions on Geoscience and Remote Sensing, 2024. 2, 3
[75] X. Zhang, Y. Sun, K. Shang, L. Zhang, and S. Wang. Crop classification based on feature band set construction and object-oriented approach using hyperspectral image. IEEE J. Sel. Topics Appl. Earth Observ. Remote Sens., 9(9):4117– 4128, 2016. 2
[76] Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, and Rong Jin. Beyond llava-hd: Diving into high-resolution large multimodal models. arXiv preprint arXiv:2406.08487, 2024. 2, 3
[77] Yi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, et al. Mme-realworld: Could your multimodal llm challenge high-resolution real-world scenarios that are difficult for humans? arXiv preprint arXiv:2408.13257, 2024. 2, 3, 5, 6, 7, 15
[78] Xiangtao Zheng, Binqiang Wang, Xingqian Du, and Xiaoqiang Lu. Mutual attention inception network for remote sensing visual question answering. IEEE Transactions on Geoscience and Remote Sensing, 60:1–14, 2021. 5
[79] Luowei Zhou, Chenliang Xu, and Jason Corso. Towards automatic learning of procedures from web instructional videos. In Proceedings of the AAAI Conference on Artificial Intelligence, 2018. 3
[80] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. In 12th International Conference on Learning Representations, ICLR 2024, 2024. 2, 3
[81] Zhe Zhu, Yuyu Zhou, Karen C. Seto, Eleanor C. Stokes, Chengbin Deng, Steward T.A. Pickett, and Hannes Taubenbock Understanding an urbanizing planet: Strategic directions for remote sensing. Remote Sensing of Environment, 228:164–182, 2019. 2

附录 A 附录

A.1 附录概述

本附录补充了因篇幅限制而从主论文中省略的关于 XLRS-Bench 的详细信息。

本附录按以下结构组织:

  • 第 A.2 节:XLRS-Bench 的更多细节。
  • 第 A.3 节:XLRS-Bench 的人类评估。
  • 第 A.4 节:关于各种 MLLMs 的 L-2 能力分析的更多内容。
  • 第 8 节:特定子任务的详细结果(L-3 能力)
  • 第 A.6 节:样本和挑战案例的可视化。
  • 第 A.7 节:XLRS-Bench 数据集的数据表。
  • 第 A.8 节:关于局限性和社会影响的讨论。

A.2XLRS-Bench 的更多详细信息

我们提供了关于数据集的额外细节,其中表 5 展示了 VQA、视觉基础和图像标题任务的统计数据,以及它们与 L3 子任务之间的关系。这阐明了数据集的结构和组成。值得注意的是,视觉基础涵盖了感知和推理,其中细粒度视觉基础被归类为感知,基于条件的视觉基础被归类为推理。

A.3 XLRS-Bench 的人类评估

在这里插入图片描述

图 4:XLRS-Bench 和 MLLMs 的评估结果。“RP”、“AD”、“ECR”、“OCC”、“RC”、“CCR”、“RCCD”、“OLUC”、“RLUC”、“OSR”、“OCC”、“OCL”和“OMS”分别表示特定的任务领域:路线规划、异常检测、环境条件推理、总体计数、区域计数、复杂推理计数、带变化检测的区域计数、总体土地利用分类、区域土地利用分类、物体空间关系、物体分类、物体颜色和物体运动状态。

人类评估对于评估数据集的有效性至关重要 [34]。对于 XLRS-Bench,我们从每个 VQA 子任务(L-3 维度)中随机选择了 30 个问题,并让两组同时回答。最终准确率计算为两组平均准确率。图 4 展示了 MLLMs 和人类的评估结果。

我们观察到人类准确率始终超过 90%,验证了 XLRS-Bench 的可靠性。然而,由于分析大型超高分辨率遥感图像需要高度集中注意力和频繁缩放,尤其是像全局计数这样的任务,因此人类评估并非没有错误。相比之下,现有的多模态 LLMs,如闭源的 GPT-4o,表现明显较差,这可能是由于在真实超高分辨率遥感数据上的训练不足。我们鼓励未来的研究来解决这些挑战。

A.4 对 XLRS-Bench 结果分析的更多分析

由于篇幅限制,更深入的分析以推进超高分辨率遥感场景中的 MLLM 研究将在附录中提供。本节重点介绍了所有 L-2 能力的性能。

大多数多模态 LLMs 在所有 16 个评估维度上表现不佳。大多数 MLLMs 的准确率仍低于 50%,与通常在常见基准测试中观察到的 80%–90%形成鲜明对比[34,25,51,40]。值得注意的是,这些基准测试中高级模型的高准确率和最小变化往往掩盖了它们的实际效用,降低了小幅改进的重要性。在 XLRS-Bench 上持续的低性能凸显了超高清遥感独特的挑战,这主要是由缺乏在标注数据上的预训练所驱动。这突显了针对这些复杂性进行专门建模的迫切需求。

性能差距:异常推理与时空推理 异常推理(AR)和时空推理(SR)任务之间存在明显的性能差距。虽然大多数模型在 AR 任务上可以达到约 70%的准确率,但它们的性能在 SR 任务上急剧下降至 15.2%。这种差异产生的原因是,AR 任务依赖于识别具有明显模式的全局异常,而 SR 任务则需要复杂的局部时空建模。当前的多元语言大模型(MLLMs)在检测静态异常方面表现出色,但在动态模式理解方面存在困难。为了弥合这一差距,优化 MLLMs 应着重于改进时间特征建模,例如增强 Transformer 架构以更好地处理序列数据。

在感知任务中,更大的LLMs带来的益处有限。 在计数和场景分类(SC)子任务中,LLaVA-Next(Llama3-8B)相较于较小的 Qwen2-VL(Qwen2-7B)几乎没有优势,这表明模型大小并不是性能的主要决定因素。相反,多样化的预训练数据和有效的任务对齐机制可能起着更重要的作用。这强调了感知任务对视觉模块能力的依赖,而不是语言模型的推理能力。未来的努力可以优先考虑更小、更高效的模型,这些模型针对感知任务进行优化,并探索蒸馏技术以在减小模型尺寸的同时提高视觉模块的性能。

视觉定位任务中的表现不佳。 在 XLRS-Bench 上,多模态 LLM 的表现显著不佳,如正文所示。在中文(XLRS-Bench-ZH)和英文(XLRS-Bench-EN)基准测试中,大多数模型在 Acc@0.5 和 Acc@0.7 指标上的准确率均低于 1.0%,这突显了它们在处理视觉定位任务方面的重大局限性。关键问题包括: 1. 本地特征提取不足,阻碍了超高清图像中的细粒度定位。 2. 跨模态对齐能力弱,限制了语言描述与复杂视觉场景之间的准确匹配。 3. 在实际遥感场景中泛化能力差,尤其是在高物体相似度的情况下。 4. 在超高清设置中推理能力有限(例如基于条件的视觉基础,L-3 能力),强调了更有效的多模态表示学习的需求。 未来研究可以集中在更好的视觉特征提取、增强的语言对齐以及在复杂、高分辨率环境中的更强泛化和推理能力上。

A.5 子任务(L-3 能力)在 XLRS-Bench 上的结果

表 6:VQA 任务感知维度的 L-3 能力实验结果。模型根据平均性能排名。对应专有模型的行以灰色突出显示以示区分。“OC”、“RC”、“OLUC”、“RLUC”、“OSR”、“OCC”、“OCL”和“OMS”分别表示特定的任务领域:总体计数、区域计数、总体土地利用分类、区域土地利用分类、物体空间关系、物体分类、物体颜色和物体运动状态。

![[2025-04-03_13-56-13.png]]

本节突出了 MLLMs 在所有 L-3 能力方面的性能。VQA 任务分为感知和推理维度,结果分别显示在表 6 和 7 中。视觉定位任务的 L-3 能力在表 8 中总结。

在 XLRS-Bench 中,MLLMs 通常在推理任务上优于感知任务。 在大多数基准测试中,多模态 LLMs 在感知任务中表现出色,但在需要复杂条件解释的推理任务中表现不佳。然而,XLRS-Bench 呈现了一种相反的趋势:由于超高清图像的平均分辨率为 8,500 × 8,500 像素——是 MME-Realworld 的 24 倍——MLLMs 在感知任务中的表现更差。在 4K 分辨率限制下,当前的 MLLMs 无法有效地处理如此详细的图像。相比之下,基于全局模式的推理任务对分辨率依赖性较小。XLRS-Bench 突出了下一代 MLLMs 处理超高清数据的需求,这对于现实世界的遥感应用是一个关键步骤。

捕获局部特征对于感知任务至关重要。如表 6-8 所示,超高清视觉任务如物体空间关系(OSR)和物体颜色(OCL)的准确性显著较低。例如,LLaVA1.5 在中国基准测试中的 OCL 任务上仅达到 17.45%。这种不足主要源于三个主要因素:1. 对稀疏细节的敏感性有限。超高清图像(例如,8500 × 8500 像素)具有稀疏但关键的细节,如小物体轮廓和复杂的局部关系。现有的多模态 LLMs,针对全局特征提取进行优化,难以检测这些细粒度信号,从而损害了面向细节的任务性能。2. 不平衡的全局和局部特征建模。当前的视觉编码器强调全局语义而非局部-全局交互。例如,OCL 任务需要识别局部区域内物体之间的细微颜色变化,但过度强调全局特征可能导致这些局部颜色细节的错误分类。3. 分辨率和计算限制。 多模态 LLMs 面临输入分辨率限制(例如,4K),需要降采样,这会降低局部特征并妨碍详细建模。超高分辨率场景需要增强局部特征建模以满足其复杂需求。加强这一能力对于提高这些感知任务中的性能至关重要。

A.6XLRS-Bench 的样本和难题

在本节中,我们展示了 VQA(图 5)、图像标题(图 7 和图 8)以及视觉定位任务(图 6)的示例。此外,我们构建了一个详细的表格(表 9),分析了每个 L-3 子任务的模型性能和错误原因。然后我们使用示例详细说明了每个子任务的错误。

在本节中,我们展示了 LLaVa-Next、Qwen2-VL 和 LLaVA-OneVision 在 XLRS-Bench 各种子任务中犯的错误类型案例研究分析。我们根据 MMT-Bench 的分类,将错误分为以下 5 类:[67]:

表 7:VQA 任务推理维度的 L-3 能力实验结果。模型按平均性能排名。对应专有模型的行以灰色突出显示以示区别。“RP”、“AD”、“ECR”、“CCR”和“RCCD”分别表示特定任务领域:路线规划、异常检测、环境条件推理、复杂推理计数和变化检测区域计数。
![[2025-04-03_13-57-39.png]]

表 8:XLRS-Bench 上 L-3 能力视觉定位性能。
![[2025-04-03_13-57-57.png]]

多模态 LLMs 往往难以识别、分类或检测图像中的对象和内容,这主要是因为它们的视觉编码器表征能力有限,这使得这成为最普遍的错误。这种感知限制在超高分辨率图像中尤为明显,LLMs 往往难以检测具有最小像素表示的对象。参见图 20、图 21 等示例。

多模态 LLMs 能够准确感知视觉内容,但在推理方面失败,导致答案错误。请参见图 9、图 10 等示例。

MLLMs 缺乏回答专业问题的领域特定知识,例如在遥感图像中识别船舶尾流信息(见图 20)。

:MLLM 不具备解决相应任务的能力。参见图 9 、图 11 中的示例。

多模态 LLMs 经常误解指令,导致错误。例如,它们可能误解特定条件(见图 12)或完全忽视指令,生成针对图像的错误(见图 14)。

在这里插入图片描述

图 6:XLRS-Bench 英文示例。XLRS-Bench 专注于大型超高分辨率遥感影像,在同一图像中整合了超过 10 个多模态感知和推理任务。
在这里插入图片描述

图 7:XLRS-Bench 的视觉定位结果。问题:“图片左中央区域的建筑。”在真实情况中,所需的“多边形建筑”相对较小,因此难以识别。GPT-4o 模型错误地将形状相似的圆形广场分类为多边形建筑,而 GeoChat[23] 错误地将不规则形状的停车场识别为多边形建筑。
在这里插入图片描述

图 8:XLRS-Bench 在英语中的图像标题。LLaVA-OneVision 和 LLaVA-Next 在捕捉图像细节方面面临挑战,尤其是在传达关键信息如车道数和车辆类型时。它们的描述往往缺乏深度,无法传达图像的丰富性和细微差别。语言过于僵化和机械,难以自然地与图像的上下文和整体环境相匹配。
在这里插入图片描述

图 9:XLRS-Bench 在中文中的图像标题结果。LLaVA-Next 和 LLaVA-OneVision 都存在一个关键弱点:无法进行局部计数。LLaVA-Next 在描述局部特征时表现出明显的局限性和狭窄的焦点,导致输出过于简单化。虽然 LLaVA-OneVision 提供了更多样化和详细的描述,但它仍然缺乏足够的复杂性。更重要的是,这两个模型都局限于直接描述图像中的对象,而不进行更深入的推理或分析,限制了它们的实际应用价值。

表 9:根据子任务(L-3 能力)对案例研究图标的索引以及每个 MLLM 相关的(错误)类别。

在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/108835.html

相关文章:

  • 预测分析(三):基于机器学习的分类预测
  • 基于微信小程序的生签到系统设计与实现
  • c语言数据结构--------拓扑排序和逆拓扑排序(Kahn算法和DFS算法实现)
  • MySQL的安装与初始化流程
  • 联想M7400打印机怎么清零
  • 基于LangChain和通义(Tongyi)实现NL2SQL的智能检索(无需训练)
  • Spring Boot 3.4.3 和 Spring Security 6.4.2 实现基于内存和 MySQL 的用户认证
  • 《Linux内存管理:实验驱动的深度探索》【附录】【实验环境搭建 1】【Qemu 运行 linux 6.0.9】
  • c++函数中的多态是怎样体现的
  • Cursor的主要好处
  • 【排序算法】堆排、快排、归并排、各种排
  • 动态规划 线性dp系列:数字三角形
  • Mysql 中数据主键类型不一样导致数据插入速度快慢问题
  • Java开发如何基于 Spring AI Alibaba 玩转 MCP:从发布、调用到 Claude Manus 集成
  • 2.5路径问题专题:LeetCode 64. 最小路径和
  • Python的三方库之Pandas(三)
  • MetaBase Mysql8.0连接不上
  • 怎么理解量子比特模型,迁移到量子计算机开始编程
  • 飞桨新一代框架3.0正式发布:加速大模型时代的技术创新与产业应用
  • AF3 OpenFoldMultimerDataset类解读
  • 洛谷题单3-P1035 [NOIP 2002 普及组] 级数求和-python-流程图重构
  • JavaScript日期对象
  • Python 编程实战:打造高效便捷的目录结构生成器
  • 踩坑ubuntu24.04 编译vtk9.3.1的安卓版本
  • 前端开发技术演进与就业现实:顺应时代方能不被淘汰-优雅草卓伊凡
  • ubantu执行sudo chown -R username xxx(文件夹)命令失效
  • 推荐系统(二十一):基于MaskNet的商品推荐CTR模型实现
  • OpenCV 图形API(12)用于计算图像或矩阵的平均值函数mean()
  • dify开启多租户模式
  • Coco-AI 支持嵌入,让你的网站拥有 AI 搜索力