当前位置: 首页 > news >正文

【AI论文】UI-Venus技术报告:借助强化微调(RFT)打造高性能用户界面(UI)代理

摘要:我们推出了UI-Venus,这是一款基于多模态大型语言模型、仅以屏幕截图作为输入的原生用户界面(UI)代理。UI-Venus通过基于Qwen2.5-VL的强化微调(RFT)方法,仅使用数十万条高质量训练样本,便在UI定位和导航任务上均取得了最先进(SOTA)的性能。具体而言,UI-Venus的70亿(7B)参数和720亿(72B)参数版本在标准定位基准测试集(即Screenspot-V2/Pro)上分别取得了94.1%/50.8%和95.3%/61.9%的成绩,超越了先前的SOTA基线模型,包括开源的GTA1和闭源的UI-TARS-1.5。为了展示UI-Venus的总结与规划能力,我们还在在线UI导航竞技场AndroidWorld上对其进行了评估,我们的7B和72B版本分别实现了49.1%和65.9%的成功率,同样超越了现有模型。为实现这一目标,我们针对UI定位和导航任务引入了精心设计的奖励函数,并制定了相应的高效数据清洗策略。为了进一步提升导航性能,我们提出了自进化轨迹历史对齐与稀疏动作增强方法,该方法优化了历史推理轨迹,并平衡了稀疏但关键动作的分布,从而在复杂UI任务中实现了更连贯的规划与更好的泛化能力。我们的贡献包括发布SOTA开源UI代理、全面的数据清洗协议以及一种用于提升导航性能的新型自进化框架,这些将鼓励社区开展进一步的研究与开发。代码可在https://github.com/antgroup/UI-Venus获取。Huggingface链接:Paper page,论文链接:2508.10833

研究背景和目的

研究背景

近年来,多模态大型语言模型(MLLMs)在人机交互领域取得了显著进展,特别是在用户界面(UI)代理的开发中。传统的UI代理方法主要依赖于监督微调(SFT),通过大量标注的UI数据集进行训练,以实现UI元素的定位和交互。然而,SFT方法在处理复杂UI任务时存在局限性,特别是在需要高度泛化能力的场景中。随着强化学习(RL)技术的发展,特别是基于深度强化学习的微调(RFT)方法,为UI代理的训练提供了新的思路。RFT方法通过设计巧妙的奖励函数,能够在较少的训练数据下实现更好的泛化能力,成为当前UI代理研究的重要方向。

具体而言,早期的UI代理研究如CogAgent和UI-TARS等,通过大量开源和私有数据集进行预训练和SFT,取得了不错的性能。然而,SFT方法在处理UI定位任务时,存在预测点与真实框之间的严格匹配问题,导致模型泛化能力受限。此外,数据收集和清洗过程耗时耗力,且现有方法多关注小规模模型(如3B/7B参数),忽视了大规模模型(如72B参数)在RFT训练中的潜力。

研究目的

本研究旨在开发一种高性能的UI代理——UI-Venus,通过基于Qwen2.5-VL模型的强化微调(RFT)方法,仅使用几十万高质量训练样本,在UI定位和导航任务上实现最先进(SOTA)的性能。具体目标包括:

  1. 提升UI定位和导航性能:通过设计合理的奖励函数和数据清洗策略,使UI-Venus在ScreenSpot-V2/Pro等标准基准测试集上超越现有SOTA模型。
  2. 增强模型泛化能力:提出自进化轨迹历史对齐与稀疏动作增强方法,解决历史推理轨迹不匹配和稀疏但关键动作学习不足的问题,提高模型在复杂UI任务中的表现。
  3. 推动社区研究:开源UI-Venus系列模型及其评估代码,促进UI代理领域的进一步研究和开发。

研究方法

数据收集与清洗

本研究从多个开源和私有数据集中收集UI定位和导航实例,包括Widget Captioning、UI RefExp、SeeClick、ShowUI和OmniAct等数据集,涵盖移动、桌面和Web平台,确保训练数据的多样性。通过三阶段处理管道进行数据清洗:

  1. 数据过滤:统一滚动方向,过滤不一致轨迹,基于类别重采样,确保训练数据的质量。
  2. 轨迹重构:修改信息检索轨迹,插入特定答案,提高模型对信息检索任务的理解能力。
  3. 迭代轨迹生成:利用UI-Venus模型在虚拟云环境中生成高质量轨迹,结合规则过滤和人工标注,构建持续优化的训练集。
强化微调(RFT)

本研究采用基于Qwen2.5-VL模型,通过GRPO算法进行RFT训练,设计针对UI定位和导航任务的奖励函数,提升模型性能。具体奖励函数设计包括:

  1. 格式奖励:确保模型输出符合预定义格式,提高输出稳定性和可解释性。
  2. 动作类型奖励:根据预测动作类型与真实动作类型的匹配程度给予奖励,鼓励模型准确预测关键动作(如LongPress)。
  3. 坐标奖励:对于涉及空间定位的动作,根据预测坐标与真实坐标的接近程度给予奖励,确保模型在UI导航中的精准性。。
自进化轨迹历史对齐与稀疏动作增强
  1. 自进化轨迹历史对齐:通过迭代优化历史推理轨迹,确保模型在复杂UI任务中的历史推理能力。
  2. 稀疏动作增强:针对稀疏但关键的动作(如LongPress),通过增加其出现频率,提高模型对复杂场景的适应能力。

研究结果

UI定位性能
  • SOTA性能:UI-Venus在ScreenSpot-V2/Pro等五个UI定位基准测试集上实现了SOTA性能,7B和72B模型分别获得94.1%/50.3%和95.3%/61.9%的准确率,超越了包括GTA1和UI-TARS在内的现有SOTA模型。特别是在ScreenSpot-Pro高分辨率专业软件界面基准测试中,UI-Venus展现出卓越的细粒度元素定位能力,对图标、文本等UI元素的识别准确率高。
UI导航性能
  • SOTA在线导航性能:在AndroidWorld在线UI导航基准测试中,UI-Venus的7B和72B模型分别获得49.1%和65.9%的成功率,证明了其在复杂动态环境中的强大适应性和鲁棒性。
  • 离线导航性能:在AndroidControl和GUI-Odyssey等离线基准测试中,UI-Venus展现出与现有模型相当的性能,特别是在高层次指令理解和长轨迹规划任务中表现突出。

研究局限

  1. 模型依赖高质量数据:尽管通过数据清洗和增强策略提高了数据质量,但高质量UI数据的获取和标注仍需大量人工参与,限制了模型的自动化和规模化应用。,
  2. 奖励函数设计挑战:现有的奖励函数虽在UI任务中表现良好,但在复杂多步骤任务中可能存在奖励函数设计不足或难以全面覆盖所有场景的问题。
  3. 模型可解释性与可控性:随着UI任务的复杂度增加,模型的可解释性和可控性成为关键。尽管UI-Venus在自进化轨迹历史对齐方面有所突破,但在极端情况下仍可能面临“黑箱”问题,即模型内部推理与最终响应之间的不匹配。

未来研究方向

  1. 减少模型幻觉:探索减少多模态大型语言模型(MLLM)在导航任务中的幻觉问题,通过引入更多先验知识或结合外部知识库提高模型对复杂UI环境的理解。
  2. 大规模预训练:研究大规模预训练对模型性能的影响,特别是在处理长序列、多模态数据方面的潜力。
  3. 多模态融合:进一步探索文本、图像、语音等多模态信息与UI操作的融合,提升模型在复杂环境下的综合决策能力。
  1. 跨领域应用:将UI代理技术应用于更多领域,如工业自动化、智能客服等,推动UI代理技术的广泛应用和产业化进程。

综上所述,本研究通过系统性的方法在UI定位和导航任务上实现了SOTA性能,为UI代理领域的发展提供了新的思路和方向。未来研究需进一步解决模型幻觉、大规模预训练及多模态融合等挑战,以推动UI代理技术的持续进步和广泛应用。

http://www.dtcms.com/a/336946.html

相关文章:

  • 手写Spring容器核心原理
  • 加密资产投资的六种策略:稳定币合规后的 Web3 投资和 RWA
  • 杂记 05
  • ARM 架构简明教程学习笔记
  • 微信原生小程序的一次gulp构建
  • DevExtreme Angular UI控件更新:引入全新严格类型配置组件
  • Kafka的ISR、OSR、AR详解
  • Rust学习笔记(六)|Rust 中的常用集合(Vector、String、HashMap)
  • Linux网络服务(一)——计算机网络参考模型与子网划分
  • 计算机网络:2、TCP和UDP
  • Golang context
  • CentOS 7 LAMP快速部署WordPress指南
  • 云原生Ansible渗透场景(⾃动化的运维⼯具)
  • Ansible企业及实战
  • OVS:除了Geneve和VXLAN,还有哪些虚拟化网络协议?
  • 云计算:企业数字化转型的核心引擎
  • 传统方式部署(RuoYi-Cloud)微服务
  • 一套GoldenGate → Kafka → Flink → MySQL 的端到端增量同步方案
  • 云计算学习100天-第17天
  • Linux学习-(进程间,线程间通信)
  • nuScence数据集
  • 计算机视觉 图像处理 在两张二值图中检测线条交集点的高效方法 适合工程图纸比对、生物神经元网络分析和文档特征提取等场景 ,
  • 20. 云计算-Service MeshServerless
  • 谷粒商城项目-P3简介-分布式基础概念
  • CloudBase AI ToolKit + VSCode Copilot:打造高效智能云端开发新体验
  • 【运维进阶】LNMP + WordPress 自动化部署实验
  • CMakeLists.txt 学习笔记
  • MariaDB/MySQL 客户端工具与服务端配置精要指南
  • C++---有符号和无符号整数的位移操作
  • 云原生俱乐部-mysql知识点归纳(1)