当前位置: 首页 > news >正文

AgentCPM-GUI,清华联合面壁智能开源的端侧GUI智能体模型

AgentCPM-GUI是什么

AgentCPM-GUI 是由清华大学与面壁智能团队联合开发的一款开源端侧图形用户界面(GUI)代理,专为中文应用进行优化。基于 MiniCPM-V 模型(80 亿参数),该系统能够接收智能手机的屏幕截图,并自主完成用户指定的任务。通过对大规模中文安卓应用界面数据的预训练,AgentCPM-GUI 显著增强了对 GUI 元素的理解和定位能力。在中文 Grounding Benchmark 和 Agent Benchmark 上,该产品均达到了最先进的性能标准,成为首个针对中文应用进行精细优化的开源 GUI 代理。

AgentCPM-GUI的主要功能

  • 中文应用操作:能够理解并操作多种中文应用程序,例如高德地图、大众点评、哔哩哔哩和小红书等。
  • 任务自动化执行:接受用户的指令后,自动拆分任务步骤,并在相应应用中精确执行,例如下单、播放视频等。
  • 高质量 GUI 定位:能够准确定位屏幕上的按钮、输入框、标签等各种 GUI 元素。
  • OCR 定位与识别:能够识别屏幕中的文本信息,并根据文本内容执行相应的操作。

AgentCPM-GUI的技术原理

  • 预训练:基于大规模中文安卓应用界面的数据进行预训练,覆盖了常见的按钮、输入框、标签和图标等通用 GUI 控件。通过高质量的 GUI Grounding 预训练,提升了模型对视觉界面元素的理解与定位能力,同时具备 OCR Grounding 能力,能够准确定位和识别屏幕中的文本信息。
  • 强化微调(RFT):设计了动作格式奖励、动作类型奖励和动作参数奖励三个维度的奖励函数,以引导模型自主生成高质量的思维链过程。在奖励函数的引导下,模型不断优化策略,提升任务执行的成功率。
  • 紧凑动作空间设计:采用紧凑的 JSON 格式,将动作平均长度压缩至 9.7 个 token,减少推理过程中的计算和内存需求。这种设计使模型更适合在移动设备上部署,加快端侧推理速度,并缓解隐私安全问题。

AgentCPM-GUI的项目地址

  • GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
  • HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI

AgentCPM-GUI的应用场景

  • 智能助手:帮助用户通过语音或文字指令完成各种应用操作,如点外卖、播放音乐等。
  • 自动化测试:用于自动化测试中文应用的功能和界面,从而提高测试效率。
  • 老年关怀:简化老年人使用智能手机的操作,例如视频通话、查看天气等。
  • 视障人士辅助:结合语音指令和屏幕阅读器,帮助视障人士更便捷地使用应用。
  • 企业应用自动化:自动执行企业中的重复性任务,如数据录入和报表生成,从而提升工作效率。

常见问题

  • 如何安装AgentCPM-GUI?:用户可以通过访问GitHub仓库获取详细的安装指南。
  • AgentCPM-GUI支持哪些设备?:该工具主要支持运行安卓系统的智能手机。
  • 如何提高任务执行的准确性?:确保提供清晰的指令,并使用高质量的屏幕截图,以便系统更好地理解用户需求。
  • 使用AgentCPM-GUI是否安全?:AgentCPM-GUI设计时考虑了用户隐私,数据处理过程遵循严格的隐私保护标准。

相关文章:

  • 第三十四节:特征检测与描述-SIFT/SURF 特征 (专利算法)
  • 【赵渝强老师】在PostgreSQL中访问Oracle
  • 【漫话机器学习系列】264.内距(又称四分位差)Interquartile Range
  • 迁移学习:解锁AI高效学习与泛化能力的密钥
  • OGG 更新表频繁导致进程中断,见鬼了?非也!
  • 大语言模型 11 - 从0开始训练GPT 0.25B参数量 MiniMind2 准备数据与训练模型 DPO直接偏好优化
  • 高并发内存池------内存释放
  • Linux | mdadm 创建软 RAID
  • JavaScript性能优化实战(11):前沿技术在性能优化中的应用
  • NPN、PNP三极管的应用
  • JMeter 教程:编写 POST 请求脚本访问百度
  • 前端面经13 JS设计模式
  • 如果丝杆有轴向窜动应如何处理?
  • CAS(Compare-And-Swap)详解
  • 操作系统:os概述
  • Ansible模块——设置软件仓库和安装软件包
  • 动态规划-64.最小路径和-力扣(LetCode)
  • list重点接口及模拟实现
  • 最小二乘法拟合直线,用线性回归法、梯度下降法实现
  • git提交库常用词
  • “走进书适圈”:一周城市生活
  • 南昌上饶领导干部任前公示:2人拟提名为县(市、区)长候选人
  • 一涉嫌开设赌场的网上在逃人员在山东威海落网
  • 广西等地旱情缓解,水利部针对甘肃启动干旱防御Ⅳ级响应
  • 商务部:今年前3月自贸试验区进出口总额达2万亿元
  • 由我国牵头制定,适老化数字经济国际标准发布