当前位置：首页 > news >正文

《GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents》论文精读笔记

news 2025/8/16 13:28:17

论文链接：https://www.arxiv.org/pdf/2506.03143

参考文章：GUI Agent新纪元！微软开源纯视觉方案GUI-Actor让AI真正看懂屏幕

摘要

在构建基于视觉语言模型（VLM）的GUI代理时，一个主要的挑战是视觉定位（visual grounding），即根据视觉内容和文本计划定位适当的屏幕区域以执行操作。现有的大多数工作将这一问题表述为一个基于文本的坐标生成任务。

然而，这些方法存在以下几方面的局限性：

空间-语义对齐能力弱：由于缺乏明确的空间监督信号，模型难以实现精确的空间-语义对齐。
无法处理模糊的监督目标：单点预测会惩罚那些实际上是有效变体的预测结果。
视觉特征提取的粒度问题：屏幕坐标的密集性质与模型（如 Vision Transformers）提取的特征的粗粒度（基于patch的特征）不匹配。

为了解决上述问题，本文提出了一种基于VLM的无坐标GUI定位方法，称为 GUI-Actor。

GUI-Actor 的核心是引入一个基于注意力的操作头（action head），通过学习将一个专用的 <ACTOR> token 与所有相关的视觉patch token对齐，从而使模型能够在一次前向传播中提议一个或多个操作区域。与此方法相适应，我们进一步设计了一个定位验证器（grounding verifier），用于评估并从模型提出的候选操作区域中选择最合理的区域用于执行操作。

广泛的实验表明，GUI-Actor 在多个GUI操作定位基准任务上优于现有的最新方法，尤其在未见过的屏幕分辨率和布局上表现出了更好的泛化能力。值得注意的是，基于 Qwen2-VL 的 GUI-Actor-7B 模型在 ScreenSpot-Pro 基准任务上取得了 40.7 的分数，而基于 Qwen2.5-VL 的模型取得了 44.6 的分数，显著超过了参数规模大得多的 UI-TARS-72B（38.1），同时使用了显著更少的参数和训练数据。

此外，通过引入定位验证器后，我们发现，当仅微调新引入的操作头部分（约100M参数，针对7B模型大小）并保持VLM主干模型冻结时，仍然能够达到与之前最先进的模型相当的性能。这表明，GUI-Actor 能够在不影响基础VLM通用性能的情况下，为其赋予有效的定位能力。

一、引言

随着大语言模型（LLMs）和视觉语言模型（VLMs）的快速发展，越来越多的研究关注于构建能够理解自然语言指令并自主与软件界面交互的图形用户界面（GUI）代理。这些代理可应用于桌面、移动设备网页应用程序等多个平台。高效的GUI代理需要具备两个核心能力：

(i) 多模态感知，即理解视觉和语言线索；

(ii) 动作执行，通过鼠标、键盘或触摸屏与数字环境交互。

早期的系统依赖于结构化元数据（例如HTML、DOM树或视图层级），但这些数据通常存在噪声、不一致性或在不同平台上无法获取。因此，近期的研究重点转向基于视觉的GUI代理，这些代理直接从渲染的截图中感知界面，就像人类用户一样。在这一范式中，视觉定位（visual grounding）是一个核心挑战，即将自然语言计划映射到屏幕区域。

目前，大多数方法将视觉定位视为一个坐标生成任务，通过与LLMs相同的文本生成机制，输出屏幕位置（例如“x=0.125, y=0.23”）。然而，通过坐标生成来表示GUI操作的方法存在以下几个内在局限性：

空间-语义对齐能力弱：离散的坐标生成要求模型通过语言建模头隐式地将视觉输入映射为数值输出，但缺乏显式的空间归纳偏置（inductive bias）。这一过程效率低下、数据需求量大，且由于缺乏直接监督信号将视觉特征与操作位置关联，容易出错。
监督信号存在歧义：许多GUI操作（例如点击按钮）允许一系列有效的目标位置。然而，基于坐标的方法通常将任务视为单点预测，惩罚所有的偏差——即使这些偏差是合理的，未能捕捉到人类交互中的自然模糊性。
视觉和动作空间的粒度不匹配：坐标是连续且高分辨率的，而视觉模型（如Vision Transformers, ViTs）处理的特征是基于patch的粗粒度特征。这种不匹配迫使模型从粗略的视觉token中推断密集的像素级动作，从而削弱了其在多样化屏幕布局和分辨率中的泛化能力。

尽管一些近期的方法尝试通过预测边界框（bounding box）而非单点来增强空间定位的表现，但它们仍然以坐标字符串（例如x_min, y_min, x_max, y_max）的形式表示这些区域，无法与视觉特征紧密结合。在没有像ROI池化或空间注意力机制等架构组件的情况下，这些方法难以弥合语言意图与视觉定位动作之间的差距。

ROI池化（Region of Interest Pooling）

ROI池化是一种在目标检测模型（如 Faster R-CNN）中常用的技术，用于在特定的感兴趣区域（ROI）上提取固定大小的特征。它能够将连续的视觉输入（如图像的某个区域）与高层语义特征进行有效对齐，使得模型能够集中关注特定位置，并提取与该位置有关的特征。

空间注意力机制（Spatial Attention Mechanism）

空间注意力是一种用于提升模型感知能力的机制，使得模型在输入图像的不同区域上分配不同的注意力权重。通过关注关键区域，模型可以更好地理解哪些地方与任务最相关。

比如需要将语言描述（如“点击蓝色按钮”）与视觉输入（如按钮的具体位置）相匹配。

怎么理解没有ROI 或 SAM 难以弥补语言意图和视觉定位的差距？

没有ROI池化或者空间注意力机制的情况下，模型无法将输入图像中语言描述对应的“目标区域”（例如一个按钮或部分屏幕UI）提取出来并生成专门的特征。

换句话说，模型只能在全局特征上操作，没有专门的机制来有效聚焦于局部区域。这导致模型在处理需要精确定位的任务时，容易丢失语义与空间信息的对齐关系。

重新思考人类如何与数字界面交互：人类在执行操作前不会计算精确的屏幕坐标，而是感知目标元素并直接与之交互。受这一观察启发，我们提出了 GUI-Actor，一种通过基于注意力的动作头（action head）增强的VLM，支持无坐标的视觉定位，更接近人类行为。

与将动作定位视为坐标预测任务的现有方法不同，GUI-Actor 学会直接关注相关的视觉区域，而无需依赖数值坐标生成。GUI-Actor的核心是一个专用的 <ACTOR> token，它通过联合处理视觉输入和自然语言指令来编码定位上下文。一个注意力机制随后通过关注截图中的视觉patch token，学习将 <ACTOR> token 与最相关的GUI区域对齐。生成的注意力图自然地识别出界面上的可操作区域。

为了应对GUI交互中的固有模糊性（例如，UI元素中的多个点可能都是有效的），我们为GUI-Actor设计了多patch监督（multi-patch supervision）。所有与真实边界框重叠的视觉patch被标记为正例，其余的被标记为负例。这种监督策略允许模型容忍空间模糊性，并减少对合理动作变体的过度惩罚。

此外，由于GUI-Actor直接在视觉骨干网络的原生空间分辨率上进行动作定位，避免了以往方法的粒度不匹配问题，并且在不同屏幕大小、分辨率和布局下能够更稳健地泛化。最后，为支持决策优化，我们进一步增强了GUI-Actor，提出了一个轻量级的定位验证器（grounding verifier），用于评估多个候选区域并选择最合理的区域执行操作。

贡献可以总结为以下几点：

我们重新审视了最近基于坐标生成的GUI代理视觉定位方法，指出了其局限性——如空间-语义对齐能力弱、监督目标模糊以及特征粒度不匹配——并提出了GUI-Actor，这是一种新颖的无坐标方法，有效地解决了这些问题。
我们设计了一个基于注意力的动作头，可以在一次前向传播中生成多个候选区域，为后续模块（如搜索策略）提供灵活性。
我们引入了一个定位验证器，从动作注意力图中提出的候选区域中选择最可能的动作区域。实验表明，该验证器可以轻松地集成到其他定位方法中，并进一步提升性能。
广泛的实验表明，GUI-Actor 在多个GUI动作定位基准上优于同规模数据训练的最新方法，并在未见过的屏幕大小和分辨率下表现出更强的鲁棒性。值得注意的是，GUI-Actor的2B版本甚至超过了多个具有7B参数的竞争模型。此外，结合验证器后，GUI-Actor通过轻量化训练（即冻结骨干LLM，仅微调动作头中的约1亿参数），能够有效地为基础VLM赋予定位能力，而不会影响其通用性能。

二、相关工作

LLM/VLM驱动的GUI代理

大语言模型（LLMs）和视觉语言模型（VLMs）的出现，推动了能够理解自然语言指令并在移动设备、网页以及桌面环境中执行复杂任务的GUI代理的发展。早期研究主要集中于设计自主代理框架，这些框架通过代码生成或工具使用，提示商用模型与操作系统交互。

随着对开源和可定制代理需求的增加，另一研究方向侧重于训练LLMs/VLMs以提高其代理能力，包括GUI理解、规划和执行。这些研究的关键在于收集GUI相关的训练数据，如OCR标注、界面摘要、问答对及大规模任务演示数据。

代理开发的核心需求是能够与部署在虚拟机和基于Chrome的浏览器中的真实GUI环境进行交互。早期的代理通常基于结构化元数据（如HTML或无障碍树）进行操作，但这些表示在不同平台间表现出脆弱性和不一致性。因此，最近的研究趋势转向一种以视觉为中心的范式，代理通过鼠标和键盘输入与原始截图交互，以更接近人类行为的方式操作。

在这一背景下，一个核心挑战随之出现：将自然语言指令定位到特定的GUI区域，即GUI视觉定位。

GUI视觉定位

给定一个GUI截图和一条自然语言指令，GUI视觉定位的目标是定位可以交互的目标区域。尽管在概念上与自然图像中的视觉定位任务类似，但由于GUI界面布局的语义密度和结构规律性，这一任务具有独特的挑战。

一种常见的做法是将GUI视觉定位表述为一个基于文本的坐标预测任务，其中模型将点的位置（例如，x=..., y=...）作为输出语言token生成。由于其简单性以及与现有LLMs/VLMs的兼容性，这一方法得到了广泛采用。

为了提高性能，先前的工作扩大了模型和训练数据的规模。例如，UGround 提出了一个数据管道，用于合成多样化的GUI定位样本；而OS-Atlas 提供了一个多平台数据集和一个统一的GUI动作模型。最近，Xu等人提出了一种不需要训练的方法，通过利用VLM的内部注意力机制实现GUI视觉定位。

尽管取得了成功，基于坐标的方法仍存在以下关键局限性：

空间归纳偏置不足：模型在生成坐标时缺乏明确的空间先验，导致难以精准定位。
监督点的歧义性：实际交互中，许多目标区域允许多个有效的点击点，但坐标方法通常只预测单点，忽略了这种模糊性。
视觉特征与动作目标之间的分辨率不匹配：视觉特征提取通常是粗粒度的（如基于patch的特征），而动作目标需要精确到像素级别，这种粒度不匹配限制了模型的表现。

本文提出了一种相较于现有坐标生成方法更具吸引力的替代方案：GUI-Actor。
这是一种新颖的无坐标（coordinate-free）定位框架，用于GUI代理。GUI-Actor引入了一个 <ACTOR> token，该token通过基于注意力的动作头，直接关注相关的图像patch，使得定位过程更具人类交互的特性，同时缓解了基于坐标的方法的局限性。

三、GUI-Actor 的设计

考虑到基于文本坐标生成方法的局限性（例如较弱的空间-语义对齐能力和模糊的监督目标），我们从人类与GUI交互的方式中汲取灵感。人类在与GUI交互时并不会计算精确的坐标，而是通常通过视觉识别目标元素，然后直接通过点击或鼠标定位对目标进行操作。

受此启发，GUI-Actor 探索了一种用于GUI视觉定位的新型架构：我们首先引入一个特殊的 <ACTOR> token 作为上下文锚点，然后训练一个动作注意力头（action attention head），使其从该锚点出发，关注到与目标元素对应的图像patch。最后，我们设计了一个定位验证器（grounding verifier），从注意力图中派生的多个候选区域中选择最符合语义的目标。

<ACTOR> Token 作为上下文锚点

给定一个截图图像 I 和一条指令 q，基于坐标生成的方法通常训练VLM生成以下结构的序列：

其中 m,n>0，N 是输出序列的总长度，i>1，且 j−1>i+m+1。

例如，在 pyautogui.click(x=0.123, y=0.234) 中，片段 $x_{i:i+m}$ 和 $x_{j:j+n}$ 分别对应于x-和y-坐标的token序列，片段 $x_{i+m+1:j-1}$ 表示它们之间的分隔符，而其余部分捕获了周围的上下文。

在我们的工作中，我们用三个特殊token替换了坐标范围{ ${x_{i:i+m},x_{i+m+1:j-1},x_{j:j+n}}$ }，以实现无坐标定位，并从视觉输入和文本指令中更好地整合上下文：

我们使用 <ACTOR> 的最终层隐藏状态 $h_{<ACTOR>}$ 作为上下文锚点，从而计算视觉patch token上的动作注意力。

基于注意力的动作头（Attention-Based Action Head）

设 v1,…,vM表示由VLM的视觉编码器从输入截图中提取的视觉patch特征，其中每个 $v_i\in \mathbb{R}^d$ 。动作头通过 <ACTOR> token 对这些视觉patch计算注意力分布，以确定目标交互区域。

为了融入GUI相关的上下文信息，我们首先在视觉patch特征上应用一个自注意力层（self-attention layer）。这使得模型能够聚合空间相关patch的语义信息，从而让属于同一GUI元素的patch共享一致的表示：

其中 $\tilde{v_i}\in \mathbb{R}^d$ 表示经过自注意力模块后的第 i 个patch的上下文化特征。

接下来，我们将 <ACTOR> token 的表示 $h_{<ACTOR>}$ 和上下文化的patch特征 $\tilde{v_1},...,\tilde{v_M}$ 投影到一个共享的嵌入空间中，分别通过两个独立的MLP实现：

最后，我们计算 <ACTOR> token 与每个视觉patch之间的注意力得分。设 M 表示输入到语言模型骨干网络的图像特征总数，得到的注意力权重 $a_1,...,a_M$ 形成一个屏幕上的注意力图，指示出用于定位目标动作的最相关区域：

空间感知的多patch监督（Spatial-Aware Multi-Patch Supervision）

我们的方法的一个关键优势是能够利用来自边界框监督的密集且空间结构化的学习信号。与传统的基于坐标的方法依赖单个可能存在歧义的点击点不同，GUI-Actor 将所有部分或完全被标注边界框覆盖的图像patch视为正例（yi=1），其余的为负例（yi=0），其中 yi 表示与 vi 相关联的标签。这使得模型能够更有效地捕获可交互元素的完整空间范围。

示意图见图2b，更多细节参见附录B。

我们通过结合下一个token预测（NTP）损失和动作注意力损失对模型进行训练：

其中动作注意力损失定义为：

其中 ϵ 是一个用于数值稳定的小常数。

四、定位验证器（Grounding Verifier）

我们基于注意力的动作定位模型的一个显著优势在于，它能够在一次前向传递中生成多个候选的动作区域，而不会增加额外的推理成本。这是注意力设计的自然结果，因为模型会同时为所有视觉patch分配分数。这种效率带来了一个新的机会：与其仅依赖得分最高的patch，我们可以引入一个轻量化的验证步骤，从多个候选区域中选择最符合语义的目标。

基于“验证通常比生成更容易”这一见解(Training verifiers to solve math word problems) ，我们提出了定位验证器（Grounding Verifier），这是一个轻量化的视觉语言模型模块，它将指令和在候选位置处放置视觉标记的截图作为输入，预测所标记的区域是否正确满足任务意图。
验证器是一个决策优化层，允许系统在执行动作前对其操作进行反思。

数据与训练

验证器的训练数据来自于OS-Atlas数据集，该数据集覆盖桌面、移动和网页领域。数据集提供了形式为 (image, query, bounding box) 的三元组，其中每个图像都与多个查询及其对应的边界框关联。我们从每个三元组中生成如下训练实例：

正例：在边界框中心放置一个视觉标记（例如一个空心红色圆圈），并将其作为给定查询的正确定位点。
负例：应用两种策略生成：
- 从同一图像中选择一个错误边界框的中心点。
- 随机采样一个目标区域外的点。

每个生成的训练实例被格式化为一个三元组 (I,x,y)，其中 I 是带有标记点的图像，x 是对应的语言指令，y∈{‘True’,‘False’} 是标签，表示该点是否正确满足指令。

更多细节见附录F.1。

我们使用标准的监督学习对一个轻量化的VLM进行微调。模型以 (I,x) 作为输入，训练其生成正确的标签 y。训练目标为交叉熵损失：

其中 $P_{\theta _v}$ 表示验证器模型（参数为 $\theta _v$ ）输出的预测概率。

推理

在推理阶段，GUI-Actor 通过将自然语言生成与视觉定位结合来预测最终的动作位置。给定当前的GUI状态和用户指令，GUI-Actor 首先通过标准解码生成代理的响应，例如生成一个包含特殊 <ACTOR> token 的字符串，例如：pyautogui.click(<ACTOR_START><ACTOR><ACTOR_END>)。

然后，我们提取与 <ACTOR> token 对应的隐藏状态，并使用动作头（action head）对所有视觉patch计算注意力分布。这个注意力分布作为一个空间激活图，标识出执行预测动作的最相关屏幕区域。

为了在注意力权重前K高的patch中找到最符合语义的区域，我们使用验证器 $\theta _v$ 对每个候选区域进行打分。具体步骤如下：

在图像 I 中对每个候选区域标记（例如在候选位置放置一个红色圆圈）。
将标记图像 I 和指令 x 输入验证器，评估其与指令的对齐程度。

验证器为每个标记图像输出“True”和“False”的概率，我们定义选择分数为：

候选区域按照其注意力权重降序排列进行验证，并返回第一个超过置信阈值（例如 $s(I,x)>\gamma$ ）的候选区域作为最终结果，不再进行进一步评估。

5 实验

实现细节

我们使用PyTorch和Huggingface Transformers实现了GUI-Actor。除非特别说明，GUI-Actor及其基线模型采用Qwen-2-VL-7B-Instruct 作为主干视觉语言模型（VLM），以确保与之前的最新方法进行公平比较。对于基线模型Aguvis-7B的重新实现（包括点监督（point supervision）和边界框监督（bounding-box supervision）两种情况），我们直接使用Aguvis 提供的官方源代码。所有动作头的配置均使用与主干VLM相同的维度。定位验证器（Grounding Verifier）从UI-TARS-2B-SFT 微调得到。

在推理阶段，我们构建了一个包含 K=20 个候选区域的池，并为不同任务设置了不同的置信阈值：对于ScreenSpot-Pro设置 γ=0.95，对于ScreenSpot和ScreenSpot-v2设置 γ=0.8。与Aguvis 一致，我们将训练数据结构化为pyautogui风格的操作序列，但用特殊token替换原始坐标（详见第3节）。我们的完整训练数据集由多个公开GUI数据集构成，共包含约100万张截图。GUI-Actor和两个基线模型均使用表7中总结的训练数据进行1个epoch的训练，附加的数据信息见附录D。

为了训练GUI-Actor，我们首先冻结所有主干VLM的参数，仅训练动作头中新引入的组件（2B/7B主干对应的参数量分别为约2000万和1亿）。在此预热阶段之后，我们对整个模型进行标准的监督学习微调。

评估基准与指标

我们在三个公认的GUI视觉定位基准上评估了GUI-Actor及其他基线方法：

ScreenSpot
ScreenSpot-v2
ScreenSpot-Pro

其中，ScreenSpot-Pro具有更高分辨率的界面和更大的领域偏移（如工业软件、多窗口布局），是一个用于验证泛化能力的实际测试平台。

评估指标采用元素准确率（Element Accuracy），即预测的点击点是否落入目标元素的真实边界框内的比例。更多基准信息见附录E。

基线模型

我们主要与参数量相似（约7B参数）的模型进行对比，基线包括：

闭源模型：如GPT-4o 、Claude for Computer Use 和Gemini 2.0 。
开源模型：如SeeClick 、ShowUI 和 Magma 。

我们特别关注一些与GUI-Actor共享相同主干的基线模型，例如Qwen2-VL 、Aguvis-7B 、UGround-v1-7B 和UI-TARS-7B 。此外，我们对比了Qwen-2.5-VL及以其为主干的模型（如Jedi ）的性能。除非特别说明，所有数据均来自原论文或UI-TARS基准。

主要结果

表1、表2、表3和表4展示了GUI-Actor在ScreenSpot-Pro、ScreenSpot和ScreenSpot-v2基准上的性能对比。GUI-Actor-2B和GUI-Actor-7B的性能在所有基准上均优于现有的最新方法，其中，2B模型甚至超过了许多竞争的7B模型。

虽然有一个例外：UI-TARS-7B在某些任务上的表现更强，但它受益于使用了显著更大的数据集，该数据集包括公共和专有数据。此外，它还经历了一条更复杂的训练流程，包括持续预训练、退火阶段以及最终的直接偏好优化（DPO）。相比之下，GUI-Actor仅使用监督微调进行训练，但在ScreenSpot-Pro基准上仍然取得了具有竞争力甚至更优的结果，展示了其强大的能力和潜力。

强大的分布外泛化能力

如表1所示，GUI-Actor-2B和GUI-Actor-7B在ScreenSpot-Pro基准上表现出色——这一分布外基准具有更高分辨率且与训练数据存在显著领域偏移。相比之前的最新模型UI-TARS，GUI-Actor分别以2B和7B模型实现了+9.0和+5.0的性能提升。

我们将这一提升归因于显式的空间-语义对齐：与UI-TARS等基于坐标的方法不同，GUI-Actor利用基于注意力的动作头，将语义线索直接定位在离散的视觉区域中。这种设计嵌入了更强的空间归纳偏置，并自然与现代视觉骨干网络的patch表示对齐。因此，GUI-Actor能够更好地对局部视觉内容进行推理，从而在不同屏幕分辨率和UI布局中实现稳健的泛化。

进一步的证据见图3(c)：随着训练的进行，GUI-Actor-2B和GUI-Actor-7B在分布外的ScreenSpot-Pro基准上未表现出持续的过拟合现象。其准确率在早期出现下降后逐渐恢复并稳定上升。相比之下，基线模型的性能在训练早期达到峰值后便持续下降。

提升的样本效率

图3展示了GUI-Actor的设计如何相比于基于坐标的基线模型，显著提升了样本效率。在ScreenSpot和ScreenSpot-v2上，GUI-Actor仅使用大约60%的训练数据即可达到其最终的准确率，而AGUVIS的点监督（point-supervised）和边界框监督（box-supervised）模型在使用80%-90%数据后便达到性能瓶颈。

这种效率的提升源于GUI-Actor通过动作头（action head）实现的显式空间-语义对齐。GUI-Actor能够直接在视觉骨干网络的原生patch分辨率上完成定位，从而避免了基线方法中常见的分辨率不匹配问题。此外，我们的多patch监督策略能够优雅地处理坐标生成方法中存在的监督歧义，提供密集且具有空间结构的信息提示。

在不牺牲通用能力的情况下实现VLM在GUI上的定位能力

我们引入了一个变体模型 GUI-Actor-LiteTrain，该模型冻结了所有主干VLM参数，仅训练动作头和特殊token中新增的组件。这一配置探索了如何在不削弱VLM通用能力的情况下，赋予其GUI定位能力。

如表5所示，GUI-Actor-LiteTrain 在未修改的主干VLM基础上实现了显著性能提升。在定位验证器（grounding verifier）的帮助下，其性能甚至可以媲美完全微调的坐标生成模型。

这些结果表明，主干VLM本身已经具备对UI截图的强感知理解能力。因此，训练模型以生成文本格式的坐标可能主要集中在坐标映射上，对UI元素的语义理解贡献有限。

更重要的是，GUI-Actor-LiteTrain 保留了主干模型的原始语言能力和视觉语言能力，证明了通过轻量化的整合，可以实现定位能力而不损害其通用性。

通过定位验证器提升性能

表1、表2、表3和表5的结果表明，定位验证器能够一致性地提升性能，特别是在ScreenSpot-Pro上，其为GUI-Actor-7B模型带来了近4个百分点的提升，而对GUI-Actor-7B-LiteTrain更是提升了13个百分点。

此外，我们在附录G.1中探讨了验证器的自聚合策略（Verifier Self-Aggregation）的优势，并在附录G.2中评估了验证器在其他基线模型中的适用性。

我们的研究表明，验证器非常稳健且与GUI-Actor高度契合，因为它只需一次前向传递即可生成多样化的区域候选。

消融研究

表6展示了我们的消融研究结果，其中“bbox sup.”和“point sup.”分别表示通过自然语言格式预测边界框或动作点坐标的模型。结果表明，与基于坐标生成的模型相比（包括边界框和点监督），GUI-Actor-7B 在各基准上的表现始终优于这些基线，突出了我们提出的动作头通过显式空间-语义对齐所实现的高效性和必要性。

有趣的是，尽管Aguvis-7B（bbox sup.）获得了更多的空间信息，但其性能与Aguvis-7B（point sup.）相似甚至更差，这表明如果缺乏架构机制或空间归纳偏置，这些基于坐标生成的方法依然无法与底层视觉表示建立联系，限制了其泛化能力和定位能力。

多区域预测无需额外推理成本

得益于其基于注意力的定位机制，GUI-Actor能够在一次前向传递中生成多个候选的动作区域，而不会引发额外的推理成本。为了评估这些高概率区域的有效性，我们使用 Hit@k 指标，其中 k 表示考虑的排名靠前的预测数量。

如图4a所示，GUI-Actor从Hit@1到Hit@3实现了显著提升，而基线模型的提升幅度则相对较小。

在分析中我们发现，对于基于坐标生成的基线，即使多次采样，其输出大多是相同的（例如从(0.898, 0.667)微小变化为(0.899, 0.666)）。

相比之下，我们的模型能够在一次前向传递中从注意力分布中同时生成多个候选区域。这些候选区域相互独立，自然促进了多样性，提升了捕获所有有效动作区域的可能性。

图4b提供了一个定性示例，展示了我们的模型成功识别出动作执行所需的所有真实区域。

在OS-World-W上的在线评估

为了评估我们提出的系统在现实世界中的有效性，我们对OS-World-W进行了在线评估。OS-World-W是OS-World基准的一个精选子集，专注于49个Windows特定任务，涵盖复杂的多步骤交互，涉及办公和多应用场景。

我们使用GPT-4o作为规划器，并使用GUI-Actor-7B作为动作定位模块。与领先的视觉定位基线模型Aguvis-7B、NAVI 和OmniAgent 相比，GUI-Actor-7B 展现了令人期待的性能，任务成功率为12.2%，超过了OmniAgent和NAVI（均为10.2%），并显著超越Aguvis-7B（点监督，4.0%）。更多细节见附录H。

查看全文

http://www.dtcms.com/a/333668.html