当前位置：首页 > news >正文

Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

news 2025/10/16 22:20:28

Abstract

视觉基础，即根据自然语言查询定位图像中的对象，是视觉语言理解中的一个重要话题。此任务的最有效方法基于深度学习，这通常需要昂贵的手动标记图像查询或补丁查询对。为了消除对人工注释的严重依赖，我们提出了一种名为 Pseudo-Q 的新方法，用于自动生成用于监督训练的伪语言查询。我们的方法利用现成的对象检测器从未标记的图像中识别视觉对象，然后使用伪查询生成模块以无监督的方式获得这些对象的语言查询。然后，我们设计了一个与任务相关的查询提示模块，专门为VG任务定制生成的伪语言查询。(我理解的就是在图片中生成object，然后根据根据这些objects获取queries，再一句每个任务定制生成pseudo language queries）。此外，为了充分捕捉图像和语言查询之间的上下文关系，我们开发了一个配备多级跨模态注意力机制的视觉语言模型。大量的实验结果表明，我们的方法有两个显著的好处：（1）它可以显著降低人工注释成本，例如，在完全监督设置下，RefCOCO [65] 不会降低原始模型的性能，并且（2）没有花里胡哨，与我们实验的所有五个数据集上的弱监督视觉接地方法相比，它实现了优于或相当的性能。

Introduction

（有关一些VG任务的介绍可以看一下我之前的论文）

VG任务对于各种视觉语言任务至关重要，例如视觉问答和视觉常识推理。大多数现有的视觉接地方法可以分为两种类型：完全监督和弱监督。尽管这两条工作路线都取得了显著的成功，但它们在很大程度上依赖于人工注释的数据集。但是，获取大量的手动注释，尤其是自然语言查询，既昂贵又耗时。要对查询进行注释，人类首先需要识别视觉对象并识别其属性，然后根据具体情况确定它们之间的各种关系，例如空间（例如，左和右）、介词（例如，in 和 with）、动作和比较（例如，smaller 和 bigger）。其中，空间关系是查询频率最高的一个。

为了减轻人工注释的负担，我们提出了一种基于伪语言查询的方法（Pseudo-Q）用于视觉基础。我们的灵感来自以前的工作 [17， 31]，这些工作通过利用未标记的图像集、句子语料库和现成的对象检测器来解决图像描述任务中的高注释成本问题。然而，视觉接地任务更加复杂和具有挑战性，因为它涉及物体之间关系的建模。

要通过语言查询准确地定位对象，识别它们的类别、属性和关系至关重要。因此，当涉及到为未标记的图像集生成伪区域查询对时，我们需要关注三个关键组成部分：（1）最有可能被查询的显著对象（名词），（2）被查询对象所拥有的内在属性，以及（3）对象之间的重要空间关系。在 [17， 42] 的启发下，我们利用现成的对象检测器 [1] 来定位具有高置信度的最显着的候选对象，并利用属性分类器 [1] 来识别常见属性。

[17] Yang Feng, Lin Ma, Wei Liu, and Jiebo Luo. Unsupervised image captioning. In CVPR, 2019. 2, 3

[42]Jinwoo Nam, Daechul Ahn, Dongyeop Kang, Seong Jong Ha, and Jonghyun Choi. Zero-shot natural language video localization. In ICCV, 2021. 2, 3

[1]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2018. 2, 3, 4, 5

但是，这些检测器无法区分对象之间的空间关系。因此，我们提出了一种启发式算法，通过比较它们的面积和相对坐标来确定同一类对象之间的空间关系。使用这三个基本组件（对象检测器、属性检测器、以及启发式算法识别空间关系），可以生成有关对象之间空间关系的伪查询。

为了进一步提高我们方法的性能，我们还提出了一个查询提示模块，该模块精心将生成的伪查询定制为与任务相关的查询模板，以实现VG任务。对于视觉语言模型，我们在融合模块中提出了多层次的跨模态注意力机制，以鼓励视觉和语言特征之间更深层次的融合。

综上所述，本文做出了三个方面的贡献：（1）我们介绍了第一个基于伪查询的VG方法，该方法处理对象之间最主要的空间关系。（2）我们提出了一个查询提示模块，专门为视觉接地任务定制伪查询，并提出了一个配备多级跨模态注意力的视觉语言模型，以充分捕获不同模态的上下文关系。（3）广泛的实验表明，我们的方法不仅可以在完全监督条件下在不牺牲性能的情况下大大降低人工贴标成本，而且可以超越或实现与最先进的弱监督视觉接地方法相当的性能。

Related Work

2.1. Natural Language Visual Grounding

视觉基础是视觉和语言的重要组成部分，它是其他任务（例如 VQA）的基础。最近的视觉接地方法可以归纳为三类：完全监督、弱监督和无监督。完全监督的方法在很大程度上依赖于手动标记的 patch-query 对。遗憾的是，获取如此复杂的注释既昂贵又耗时。因此，弱监督方法试图通过仅使用图像查询对来缓解这个问题。这些方法通常利用成熟的对象检测器来补偿缺失的边界框标签以进行训练。但是，对图像中显著对象的语言查询进行注释是最费力的部分。因此，无监督方法试图训练模型或直接检测没有任何注释的查询对象。我们的工作也是一种无监督的方法。然而，与以前的方法不同的是，我们提出了一种名为 Pseudo-Q 的新方法，用于自动生成用于监督学习的伪查询。

2.2. Vision-Language Transformer

Transformer首先被提出来解决自然语言处理（NLP）任务。ViT首次尝试将转换器应用于图像分类任务。在 ViT 成功的推动下，DETR和 Segmenter 分别进一步扩展了用于对象检测和分割任务的转换器。还有许多努力，它们试图通过 transformer 来处理视觉语言任务。TransVG 提出了一种具有变压器结构的新型框架，用于视觉接地任务。CLIP 和 UNITER利用转换器来共同学习文本和图像表示。LXMERT 建立了一个大规模的转换器来学习跨模态表示。在这项工作中，我们在 TransVG 的顶部提出了一种新的多级跨模态注意力，用于跨模态学习。（这段话中加粗的方法可以找对应的论文学习一下）。

2.3. Visual Recognition without Annotation

已经有几个工作用于Zero-shot视觉任务。Zero-shot目标检测任务设计用于检测标签确实的看不见的物体类。而零样本动作识别任务在不使用动作标签的情况下识别预定义的动作类别。我们工作的重点在于定位对象区域，而无需使用任何与任务相关的注释，例如图像区域和查询。

至于Zero-shot VG，开创性的工作 ZSGNet专注于可能包含不可见名词或对象类别的查询短语。它由一个用于编码查询特征的语言模块、一个用于提取图像特征的视觉模块和一个用于生成锚点的锚点生成器组成。但是，请注意，我们的工作重点与 ZSGNet 不同，ZSGNet 是为了识别看不见的类而提出的，此外，ZSGNet 使用手动注释，而我们不依赖任何与任务相关的标签。

3. Method

在本节中，我们将详细解释我们的 Pseudo-Q 方法。在第 3.1 节中，我们介绍了 Pseudo-Q 的概述。在 3.2 节中，我们详细阐述了伪查询生成模块。在第 3.3 节中，显示了与任务相关的查询提示模块的详细信息。最后，我们在 3.4 节中说明了我们的多级跨模态注意力的机制。

3.1. Overview

以前的视觉基础方法依赖于昂贵的人工注释，即用于完全监督方法的图像区域查询对或用于弱监督方法的图像查询对。我们首先提出了一种基于伪语言查询的方法，在训练中不使用任何与任务相关的注释。

具体来说，伪 Q 方法由三个部分组成，包括：（1）伪查询生成模块，（2）查询提示模块，以及（3）视觉语言模型。Pseudo-Q 的图示如图 2 所示。

以未标记的图像作为解释，检测器可以生成几个object proposals，它们被喂到伪查询生成模块，自动生成这些proposals的名词、属性和关系。结合这些元素，我们可以轻松创建伪语言查询。随后，查询提示模块为VG任务优化创建的伪语言查询。最后，我们提出了一个视觉语言模型来完全捕获图像区域和相应的伪语言查询之间的上下文关系。（这一段就解释了整篇论文的一个工作流程）

3.2. Pseudo-Query Generation

通常，Visual Grounding的第一步是识别查询对象的类别。然而，这种简单的接地策略会导致复杂场景中的歧义，例如“左边有说话的人”或“右边的矮个子”，而没有理解它们的空间关系或属性。因此，为了通过语言查询准确定位视觉对象，视觉基础模型需要了解被查询对象的类别、属性及其关系。基于上述分析，为候选对象生成伪语言查询，涉及三个关键组成部分：名词、属性和关系。

Nouns：名词。受一些works的启发，我们采用现成的检测器 [1] 来获得对象建议。与每张图像仅包含一个主要对象的图像分类任务不同，视觉接地任务中的场景由于有大量候选对象而更加复杂。虽然选择最突出的对象作为候选对象是很自然的，但这样的过程需要大量的体力劳动，而我们的设置中没有。相反，我们使用检测置信度作为标准。具体来说，置信度最高的前 N 个对象将保留作为我们的proposal。此外，我们凭经验发现，探测器将专注于大量不太可能被查询的微小物体。因此，我们建议在生成提案之前删除微小的对象。

Attributes：它们是重要的语义线索，可帮助模型更好地理解场景。我们调查了在现有数据集中，常见属性包括颜色、大小（高）、材料（木制）和人体运动状态（例如站立和行走）等。与获取名词类似，我们利用现成的属性分类器来预测对应对象的上述常见属性。通常，一个对象可能具有多个属性，例如“一个高个子正在走路”，最好识别尽可能多的属性。但是，受模型功能的限制，我们只保留置信度最高且超过预定义阈值的属性作为最终proposal。此外，衣服也是人的重要属性，可以通过计算衣服和人之间的 IoU 值来确定，如图 3（a）所示。

Relationships：我们观察到，空间关系是大多数现有数据集中最常用的关系之一来区分不同的对象。为了挖掘潜在的空间关系，我们提出了一种启发式算法，如图 3（a）所示。

一般来说，空间关系可以分为三个维度：水平（即左、中、右）、垂直（即顶部和底部）和深度（即前后）。请注意，每个先前生成的对象proposal都由一组坐标表示，这些坐标自然包含空间信息。我们可以通过比较物体的中心坐标以及这两个维度来获得水平和垂直空间关系。同时，为了提高算法的鲁棒性，要求同一维度上两个对象坐标的数值差大于预定义的阈值。最后，我们可以确定同一类别的不同视觉对象的空间关系，比如左、右、居中。

在深度维度中，我们假设，对于相同类型的对象，对象离相机越近，物体区域尺寸越大。具体来说，我们计算最大对象区域的面积与最小对象区域的面积之比，并设置一个阈值来确定是否存在前后关系。如果比率超过阈值，我们将 front 和 behind 关系分别分配给最大和最小的对象。

Pseudo-queries：在获得三个关键元素后，我们可以按照附录中的模板为图像生成所有可能的伪查询。最后，如果候选者的数量大于 M，我们最多采样 M 个伪图像区域查询对，否则，我们对所有伪图像区域查询对进行采样。

3.3. Query Prompt Module

随着预训练语言模型的进步，提出了prompt engineering，以便在预训练阶段更好地利用他们所学到的知识。受最近prompt engineering在视觉语言任务中取得成功的启发，例如图像语言预训练，我们提出了一个查询提示模块，通过提炼生成的伪语言查询来挖掘预训练语言模型（第 3.4 节）的隐藏知识。

虽然 CLIP中提出的提示模板适用于图像分类任务，但我们凭经验发现它们对于具有挑战性的VG任务无效。因此，在这项工作中，我们探索了专门用于VG的提示模板。我们介绍的查询提示模块遵循某些模板，例如，“find the region that he correspond to the description {pseudo-query}” 或 “the region does the text {pseudoquery} describe？”。这种设计是专门为视觉接地任务量身定制的，因为该任务的重点在于定位所指对象的区域。

提示工程（Prompt Engineering）是近年来在自然语言处理（NLP）和人工智能领域兴起的一项重要技术，尤其在基于大型语言模型（LLMs）的应用中发挥着关键作用。下面从定义、作用、构建方法和应用场景几个方面详细介绍：

定义

提示工程是指设计和优化输入给预训练语言模型的文本提示（Prompt）的过程，旨在引导模型生成更符合用户需求、高质量且准确的输出。简单来说，就是通过精心构造输入的文本信息，让语言模型按照我们期望的方式进行响应。

作用

增强模型的适应性：预训练语言模型虽然具有强大的语言理解和生成能力，但它们往往是通用的模型。提示工程可以根据具体的任务需求，调整输入提示，使模型能够更好地适应不同的应用场景，如文本分类、问答系统、机器翻译等。
挖掘模型的潜力：通过设计巧妙的提示，可以激发模型利用其在预训练阶段学到的丰富知识，从而解决一些复杂的任务，即使这些任务在模型的预训练数据中可能没有直接对应的样本。
提高输出质量：合适的提示可以引导模型生成更准确、更连贯、更有针对性的输出，减少无关信息和错误的出现。

构建提示的方法

模板构建：使用固定的文本模板，将具体的任务信息或变量填充到模板中。例如，在情感分析任务中，可以使用 “判断以下文本的情感倾向是积极、消极还是中性：{文本内容}” 这样的模板。
示例引导：在提示中提供一些示例，让模型学习到期望的输出格式和类型。比如，在进行文本摘要任务时，可以给出几个文本及其对应的摘要示例，然后让模型对新的文本进行摘要。
逐步引导：对于复杂的任务，可以将提示设计成逐步引导的方式，让模型分步骤完成任务。例如，先让模型对问题进行理解和分析，再给出具体的解决方案。

应用场景

自然语言处理任务：
文本生成：如故事创作、诗歌生成等。通过合适的提示，可以引导模型生成具有特定风格、主题的文本。
问答系统：为模型提供清晰的问题提示，使其能够准确地回答用户的问题。
机器翻译：设计提示来指导模型进行更准确的语言翻译。

视觉 - 语言任务：
图像描述：结合图像信息和文本提示，让模型生成对图像内容的准确描述。
视觉定位：如前面提到的，通过设计专门的提示模板，引导模型根据文本描述在图像中定位相应的区域。

3.4. Visual-Language Model

我们的视觉语言模型由一个视觉编码器、一个语言编码器和一个跨模态融合模块组成，用于融合来自两种模态的信息。可视编码器和语言编码器的设计都遵循 TransVG。

跨模态融合模块。以前的方法天真地利用视觉和语言编码器的最终特征来获取跨模态信息。然而，这种简单的方法是次优的，因为每个级别的视觉特征都拥有有价值的语义信息。更具体地说，低级特征通常表示粗略的信息，例如形状和边缘，而高级特征可以表示更精细的信息，例如，固有的对象属性。因此，我们进一步提出了多层次跨模态注意力（ML-CMA），以彻底融合文本嵌入与多层次视觉特征。ML-CMA 的机制如图 3（b）所示。每个视觉转换器层的特征被传递到一个跨模态融合模块中，并提取文本嵌入以计算跨模态自我注意。然后，我们将来自不同层次的所有更新的视觉或文本特征分别连接起来，并利用一个完全连接的层将它们映射到原始维度。最后，所有特征都被连接起来并馈送到回归头中，以预测参考对象区域。回归头由三个完全连接的层组成。

在这里总结一下上面的要点，首先就是用detector生成object proposal，然后这些proposal被喂到Pseudo-Query Generation这个模块中去，会生成伪语言查询，涉及三个关键组成部分：名词、属性和关系，然后通过提炼生成的伪语言查询再利用prompt engineering生成更符合VG任务的query prompt，最后就是Visual-Language Model，将视觉和文本的各层特征进行注意力计算，所有特征都被连接起来并馈送到回归头进行预测。

4. Experiments

Dataset and setups：遵循以前的VG方法，我们在五个数据集上评估了我们的方法：RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和 Flickr30K 实体。对于所有数据集，我们遵循中相同的 train/val/test 拆分。这五个数据集中的训练图像数量分别为 16994、16992、24698、8994 和 29779。请注意，在训练阶段，我们不使用任何手动注释，它们仅用于评估。

Implementation details.我们在 Visual Genome 数据集上选择预训练的检测器和属性分类器 ，其中包含 1600 个对象和 400 个属性类别。正如我们在第 3.2 节中提到的，我们为每个图像选择 top-N 并采样多达 M 个伪查询。具体来说，在 RefCOCO 上，我们根据检测置信度选择前 3 个对象，并从所有可能的候选对象中统一抽样 6 个伪查询。对于 RefCOCO+、RefCOCOg、ReferItGame 和 Flickr30K 实体，我们分别使用 top-3 objects/12 个伪查询、top-2 objects/4 个伪查询、top-6 objects/15 个伪查询和 top-7 objects/28 个伪查询。

Training details.我们所有的实验都是在 Pytorch 框架下进行的，有 8 个 RTX3090 GPU。我们的视觉语言模型使用 AdamW 进行了端到端优化。视觉和语言编码器的初始学习率设置为 2.5×10-5，跨模态融合模块的初始学习率设置为 2.5 × 10-4。批处理大小为 256。所有的数据集使用余弦学习率时间表，但 Flickr30K 实体采用衰减率为 0.85 的指数衰减时间表。我们的模型在 RefCOCO、RefCOCOg 和 ReferItGame 上训练了 10 个epoch，在 RefCOCO+ 和 Flickr30K 实体上训练了 20 个epoch。我们使用的数据增强遵循 TransVG，例如 RandomResizeCrop、RandomHorizontalFlip 和 ColorJitter。

4.1. Comparison with State-of-the-art Methods

我们报告了与现有的无监督和弱监督方法的比较结果。请注意，弱监督方法是使用昂贵的带注释的查询进行训练的。作为参考，完全监督方法的性能显示为上限。具体来说，我们展示了前一准确率（%）的结果。如果预测的边界框之间的 Jaccard 重叠且真实值高于 0.5，则认为预测的边界框是正确的。

RefCOCO/RefCOCO+/RefCOCOg.我们的方法在 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集上的性能如表 1 所示。我们将我们的方法与现有的最先进的无监督方法 CPT [62] 和弱监督方法 DTWREG [49] 进行了比较。我们的方法在所有三个数据集上都可以轻松超过CPT（例如，RefCOCO 的 val/testA/testB 拆分的性能分别提高了 23.82%/22.15%/23.83%）。与 DTWREG 方法相比，我们的方法可以在 RefCOCO 和 RefCOCOg 数据集上获得更好的性能。同时，它可以在 RefCOCO+ 数据集的 val 和 testA split 上获得相当和优越的性能。尽管我们可以看到在 testB 拆分上与 DTWREG 相比存在准确性差距，但我们的方法仍然比 CPT 获得了很大的性能提升。请注意，如果不利用 RefCOCO+ 训练拆分的任何手动标记查询，我们的方法仍然可以达到相当大的性能。所有的实验都表明，我们生成的伪查询可以为视觉接地任务提供有效的监督信号。

ReferItGame.在表 2 中，我们显示了与 ReferItGame 数据集上其他现有视觉接地方法的比较。我们的方法可以达到 43.32% 的 top-1 准确率，优于所有无监督和弱监督方法。特别是，与最先进的弱监督方法[55]相比，该方法可以达到38.39%的top-1准确率，而我们的方法可以在不使用任何注释标签的情况下获得4.93%的性能提升。这些结果可以证明我们提出的方法的优越性。

Flickr30K Entities.Flickr30K Entities 数据集的结果如表 2 所示。可以观察到，我们的方法仍然可以达到令人惊讶的 60.41% 的 top-1 准确率，比最先进的弱监督方法高出 1.14%。考虑到Flickr30K Entities数据集的规模，它由 427K 个手动注释的引用表达式组成，我们的方法在没有任何训练标签的情况下仍然取得了显着的性能。至于其他不使用手动标记的方法，我们的方法可以轻松超越 [63] 和 [54]，绝对性能分别提高了 39.50% 和 9.92%。

Explanations of the gain over weakly-supervised methods.首先，视觉基础任务的核心是学习视觉和语言模态之间的对应关系，这在很大程度上依赖于图像区域和训练数据内部查询之间的正确映射。我们的方法与弱监督方法之间的一个关键区别在于，我们可以为检测到的对象生成相应的查询，从而保证两个模态之间的映射的正确性。尽管弱监督方法具有注释查询，但它们缺乏关键的监督信号，这些信号是两种模态之间的区域级对应关系。其次，我们的模型联合优化了两种模态的特征，这使得模型能够学习更好的对应关系，而弱监督方法只更新语言模型，使视觉模型保持固定。

4.2. Improving the Efficiency of Manual Labeling.

在图 4 中，我们在 RefCOCO [65] 上使用与第 4 节相同的超参数进行了实验，通过替换查询包含空间关系的手动注释标签来验证我们的伪样本（即伪图像区域查询对）的有效性。基线是以完全监督方式训练的模型。请注意，此实验中不应用 query prompt 模块。可以看到，与完全监督设置相比，用我们生成的伪区域查询对替换 12.01%、20.68% 和 30.75% 的手动注释标签不会降低原始性能。在这种情况下，可以减少大约 31% 的人工标注成本。因此，我们的方法可以用于自动注释语言查询中的主要组成部分之一，即空间关系，这显着提高了手动标注的效率。

4.3. Ablation Study

在本节中，我们进行了广泛的消融实验，以证明每个提议的组件的有效性和超参数设置的合理性。以下大多数实验都是在 ReferItGame数据集上进行的，我们报告了排名第一的准确率。该模型使用与第 4 节相同的超参数进行训练。

名词数量。我们研究了在图 5（a）中使用不同数量的名词（对象）的影响。增加名词的数量可以产生更多的伪样本，从而提高模型的性能，如图 5（a）所示。在我们的实验中，我们使用检测置信度作为选择显著目标的标准。如果名词的数量太大，则检测到不明显的低置信度对象的可能性将增加。我们实证发现，在 ReferItGame 数据集上，当名词数量为 6 时，模型达到峰值性能。一旦名词数量超过 6 个，性能就会开始下降。因此，我们使用 ReferItGame 数据集上的前 6 个object proposal。

伪查询数。另一个重要因素是伪查询的数量。我们在图 5（b）中研究了对不同数量的伪查询进行采样的影响。伪查询的候选者按照附录中的模板生成。如图 5（b）所示，当伪查询的采样数为 15 时，我们的模型性能最佳。如果采样数太小，我们将错过大量有用的候选者，从而阻碍模型性能的提升。同时，请注意，并非每个候选人都提供正确的监督信号。因此，过度样本candidates也会降低模型的性能。最后，我们最多对 15 个伪查询进行采样。

集成属性的有效性。我们通过将属性与缺乏属性的查询进行比较，从经验上支持将属性引入伪查询的有效性。如表 3 所示，生成带有名词和属性的伪查询显然超过了在 RefCOCO 和 ReferItGame 上只有名词的伪查询。此外，使用名词和关系将属性添加到伪查询中可以进一步提高性能。因此，我们证明了将属性合并到伪查询中有助于模型更好地理解场景。

建立关系的有效性。正如我们在第 3.2 节中提到的，空间关系是最重要的组成部分。由于只有名词，模型还远未全面理解场景。表 3 报告了生成支持我们命题的关系的消融研究。与仅使用名词的伪查询相比，在 RefCOCO 上，使用我们的方法生成关系的性能压倒性地优于它 26.67%。综上所述，实验结果表明，将空间关系纳入伪查询可以显著提高模型理解场景的能力。

查询提示的有效性。在表 3 中，我们表明提示有助于挖掘预训练语言模型的隐藏知识，从而提高性能。在 ReferItGame 上，设计良好的提示 “which region does the text {pseudo-query} describe？” 将性能提高了 1.60%。同时，在 RefCOCO 上，提示“find the region that correspond to the description {pseudo-query}”将性能提高了 0.86%。另一方面，我们发现手动设计的提示在所有数据集中都不够健壮。

跨模态融合模块的有效性。我们进一步研究了表 3 中跨模态融合模块的贡献。在伪查询生成模块的基础上，所提出的跨模态融合模块可以在 RefCOCO 和 ReferItGame 上分别进一步提高 1.77% 和 1.35% 的性能。

4.4. Qualitative Analysis

为了进一步弄清楚空间关系和属性的重要性，在图 6 中，我们展示了四个检测示例，这些模型在生成的伪查询上训练，在 RefCOCO 数据集上有或没有空间关系和属性。在前两个例子中，我们可以很容易地观察到，使用关系训练的模型比没有关系组件训练的模型更好地定位目标对象。在最后两个示例中，找到被查询的 man 的关键因素是利用属性 “blue” 和 “standing”。显然，通过上述分析，我们可以得出结论，所提出的空间关系和属性在用给定的语言查询准确定位引用对象方面起着至关重要的作用。此外，我们还在图 7 中显示了 RefCOCO 数据集上生成的四个伪区域查询对。

4.5. Limitation

尽管我们的方法在五个数据集上取得了优异的性能，但仍然存在两个局限性。首先，当涉及到伪语言查询时，可能会有一些不正确的查询，这会损害最终性能。其次，生成的伪查询很简单，其他关系可以在将来探索。

5. 结论

在本文中，我们首次尝试引入一种基于伪查询的视觉接地方法，称为 Pseudo-Q。首先，我们提出了一个伪查询生成模块，以自动生成用于监督训练的伪区域查询对。然后，我们提出了一个查询提示模块，以便生成的伪语言查询可以专门针对视觉接地任务进行定制。最后，为了充分模拟视觉区域和语言查询之间的关系，我们开发了一个配备了多级跨模态注意力的视觉语言模型。广泛的实验表明，我们的方法不仅可以在 5 个数据集上取得优异的性能，还可以显著降低人工标注成本。

论文阅读总结：