当前位置: 首页 > news >正文

GUI Grounding: ScreenSpot

论文链接:arxiv.org/pdf/2401.10935

前言

大多数现有的GUI Agent 是通过提取结构化的数据(例如HTML)与环境进行交互,但是这种方式数据通常非常冗长,且在某些情况无法直接获取(如桌面环境);结构化文本种类繁多,难以统一管理

因此有了新的研究方向:仅依赖屏幕截图实现任务的自动化。


ScreenSpot

提出了ScreenSpot GUI grounding benchmark,涵盖IOS、Android、macOS、网页的600多个截图和1200条指令。

邀请了四位有经验的标注者(均为计算机科学领域的博士或硕士研究生),他们熟练使用手机和电脑,且熟悉GUI操作。

首先,为标注者分配不同的GUI类型,如iOSWindows网页,然后要求他们在日常使用过程中截取屏幕截图(例如使用各种应用程序),并使用标注工具对频繁交互的点击区域进行边界框标注

最后,这些标注者需要为标注的屏幕元素编写对应的英文文本指令。所有标注的界面和操作元素均为英文,并经过后处理以移除个人信息。

图10提供了ScreenSpot的一些示例,其中包含移动端、桌面端和网页平台中的常见GUI场景。

http://www.dtcms.com/a/331680.html

相关文章:

  • 力扣-62.不同路径
  • AM原理与配置
  • 【网络安全测试】手机APP安全测试工具NowSecure 使用指导手册(有关必回)
  • Monsters
  • Redis7学习--持久化机制 RDB与AOF
  • 【SLAM】不同相机模型及其常见的链式求导推导
  • 从“静态文档”到“交互式模拟”:Adobe Captivate企业培训解决方案深度实践
  • OpenCV 高斯模糊降噪
  • IDEA如何引用brew安装的openjdk
  • ts概念讲解
  • 重塑隐私边界,微算法科技(NASDAQ:MLGO)开发基于边缘计算的轻量级区块链身份隐私保护方案
  • QT - QT开发进阶合集
  • 0814 TCP和DUP通信协议
  • 【DFS系列 | 暴力搜索与回溯剪枝】DFS问题实战:如何通过剪枝优化暴力搜索效率
  • Java Map集合精讲:键值对高效操作指南
  • (LeetCode 每日一题) 1780. 判断一个数字是否可以表示成三的幂的和 (数学、三进制数)
  • 【lucene】DocumentsWriterFlushControl
  • Linux与Windows文件共享:Samba配置指南
  • Linux软件编程:进程
  • GoLand 项目从 0 到 1:第八天 ——GORM 命名策略陷阱与 Go 项目启动慢问题攻坚
  • Go 并发控制利器 ants 使用文档
  • Uniapp 中的 uni.vibrate 震动 API 使用指南
  • 4. 索引数据的增删改查
  • ATAM:基于场景的软件架构权衡分析法
  • C语言指针使用
  • 机器翻译:Hugging Face库详解
  • Qwen-Image深度解析:突破文本渲染与图像编辑的视觉革命
  • 网站突然崩了,此站点遇到了致命错误!
  • 从零开始学习:深度学习(基础入门版)(第2天)
  • RCL 2025 | LLM采样机制的新视角:来自处方性偏移的解释