当前位置：首页 > news >正文

【AI论文】UI-Venus技术报告：借助强化微调（RFT）打造高性能用户界面（UI）代理

news 2025/8/19 6:01:19

摘要：我们推出了UI-Venus，这是一款基于多模态大型语言模型、仅以屏幕截图作为输入的原生用户界面（UI）代理。UI-Venus通过基于Qwen2.5-VL的强化微调（RFT）方法，仅使用数十万条高质量训练样本，便在UI定位和导航任务上均取得了最先进（SOTA）的性能。具体而言，UI-Venus的70亿（7B）参数和720亿（72B）参数版本在标准定位基准测试集（即Screenspot-V2/Pro）上分别取得了94.1%/50.8%和95.3%/61.9%的成绩，超越了先前的SOTA基线模型，包括开源的GTA1和闭源的UI-TARS-1.5。为了展示UI-Venus的总结与规划能力，我们还在在线UI导航竞技场AndroidWorld上对其进行了评估，我们的7B和72B版本分别实现了49.1%和65.9%的成功率，同样超越了现有模型。为实现这一目标，我们针对UI定位和导航任务引入了精心设计的奖励函数，并制定了相应的高效数据清洗策略。为了进一步提升导航性能，我们提出了自进化轨迹历史对齐与稀疏动作增强方法，该方法优化了历史推理轨迹，并平衡了稀疏但关键动作的分布，从而在复杂UI任务中实现了更连贯的规划与更好的泛化能力。我们的贡献包括发布SOTA开源UI代理、全面的数据清洗协议以及一种用于提升导航性能的新型自进化框架，这些将鼓励社区开展进一步的研究与开发。代码可在https://github.com/antgroup/UI-Venus获取。Huggingface链接：Paper page，论文链接：2508.10833

研究背景和目的

研究背景

近年来，多模态大型语言模型（MLLMs）在人机交互领域取得了显著进展，特别是在用户界面（UI）代理的开发中。传统的UI代理方法主要依赖于监督微调（SFT），通过大量标注的UI数据集进行训练，以实现UI元素的定位和交互。然而，SFT方法在处理复杂UI任务时存在局限性，特别是在需要高度泛化能力的场景中。随着强化学习（RL）技术的发展，特别是基于深度强化学习的微调（RFT）方法，为UI代理的训练提供了新的思路。RFT方法通过设计巧妙的奖励函数，能够在较少的训练数据下实现更好的泛化能力，成为当前UI代理研究的重要方向。

具体而言，早期的UI代理研究如CogAgent和UI-TARS等，通过大量开源和私有数据集进行预训练和SFT，取得了不错的性能。然而，SFT方法在处理UI定位任务时，存在预测点与真实框之间的严格匹配问题，导致模型泛化能力受限。此外，数据收集和清洗过程耗时耗力，且现有方法多关注小规模模型（如3B/7B参数），忽视了大规模模型（如72B参数）在RFT训练中的潜力。

研究目的

本研究旨在开发一种高性能的UI代理——UI-Venus，通过基于Qwen2.5-VL模型的强化微调（RFT）方法，仅使用几十万高质量训练样本，在UI定位和导航任务上实现最先进（SOTA）的性能。具体目标包括：

提升UI定位和导航性能：通过设计合理的奖励函数和数据清洗策略，使UI-Venus在ScreenSpot-V2/Pro等标准基准测试集上超越现有SOTA模型。
增强模型泛化能力：提出自进化轨迹历史对齐与稀疏动作增强方法，解决历史推理轨迹不匹配和稀疏但关键动作学习不足的问题，提高模型在复杂UI任务中的表现。
推动社区研究：开源UI-Venus系列模型及其评估代码，促进UI代理领域的进一步研究和开发。

研究方法

数据收集与清洗

本研究从多个开源和私有数据集中收集UI定位和导航实例，包括Widget Captioning、UI RefExp、SeeClick、ShowUI和OmniAct等数据集，涵盖移动、桌面和Web平台，确保训练数据的多样性。通过三阶段处理管道进行数据清洗：

数据过滤：统一滚动方向，过滤不一致轨迹，基于类别重采样，确保训练数据的质量。
轨迹重构：修改信息检索轨迹，插入特定答案，提高模型对信息检索任务的理解能力。
迭代轨迹生成：利用UI-Venus模型在虚拟云环境中生成高质量轨迹，结合规则过滤和人工标注，构建持续优化的训练集。

强化微调（RFT）

本研究采用基于Qwen2.5-VL模型，通过GRPO算法进行RFT训练，设计针对UI定位和导航任务的奖励函数，提升模型性能。具体奖励函数设计包括：

格式奖励：确保模型输出符合预定义格式，提高输出稳定性和可解释性。
动作类型奖励：根据预测动作类型与真实动作类型的匹配程度给予奖励，鼓励模型准确预测关键动作（如LongPress）。
坐标奖励：对于涉及空间定位的动作，根据预测坐标与真实坐标的接近程度给予奖励，确保模型在UI导航中的精准性。。

自进化轨迹历史对齐与稀疏动作增强

自进化轨迹历史对齐：通过迭代优化历史推理轨迹，确保模型在复杂UI任务中的历史推理能力。
稀疏动作增强：针对稀疏但关键的动作（如LongPress），通过增加其出现频率，提高模型对复杂场景的适应能力。

研究结果

UI定位性能

SOTA性能：UI-Venus在ScreenSpot-V2/Pro等五个UI定位基准测试集上实现了SOTA性能，7B和72B模型分别获得94.1%/50.3%和95.3%/61.9%的准确率，超越了包括GTA1和UI-TARS在内的现有SOTA模型。特别是在ScreenSpot-Pro高分辨率专业软件界面基准测试中，UI-Venus展现出卓越的细粒度元素定位能力，对图标、文本等UI元素的识别准确率高。

UI导航性能

SOTA在线导航性能：在AndroidWorld在线UI导航基准测试中，UI-Venus的7B和72B模型分别获得49.1%和65.9%的成功率，证明了其在复杂动态环境中的强大适应性和鲁棒性。
离线导航性能：在AndroidControl和GUI-Odyssey等离线基准测试中，UI-Venus展现出与现有模型相当的性能，特别是在高层次指令理解和长轨迹规划任务中表现突出。

研究局限

模型依赖高质量数据：尽管通过数据清洗和增强策略提高了数据质量，但高质量UI数据的获取和标注仍需大量人工参与，限制了模型的自动化和规模化应用。,
奖励函数设计挑战：现有的奖励函数虽在UI任务中表现良好，但在复杂多步骤任务中可能存在奖励函数设计不足或难以全面覆盖所有场景的问题。
模型可解释性与可控性：随着UI任务的复杂度增加，模型的可解释性和可控性成为关键。尽管UI-Venus在自进化轨迹历史对齐方面有所突破，但在极端情况下仍可能面临“黑箱”问题，即模型内部推理与最终响应之间的不匹配。