当前位置: 首页 > news >正文

Gemini 2.5如何通过视觉理解,告别脆弱的UI测试脚本

长期以来,人工智能Agent(智能体)的活动范围,似乎一直局限于代码和API的数字世界。它们能理解语言、生成内容、调用接口,但始终无法像人类一样,直观地与我们每天都在使用的图形用户界面(GUI)进行交互。然而,谷歌DeepMind近期发布的Gemini 2.5 Computer Use模型,正打破这一壁垒。

这一技术突破,标志着AI Agent首次拥有了直接“看到”并“操作”计算机屏幕的能力。它不再需要开发者预先为其编写好接口,而是能像一个真实的用户一样,通过点击、输入和滚动,来完成在网页和移动应用上的复杂任务。这不仅是一次技术上的飞跃,更可能从根本上颠覆UI自动化测试等多个领域。

核心工作原理解析

Gemini 2.5 Computer Use的工作模式,是一个优雅的四步循环交互系统:

  • 发送请求: 开发者向模型API发送一个包含了用户目标和当前GUI截图的请求。
  • 接收操作指令: 模型分析截图和目标,生成一个或多个具体的UI操作指令,如“在坐标(500, 300)处点击”。
  • 执行操作: 客户端代码解析并执行这些指令,完成在屏幕上的实际操作。
  • 捕获新状态: 操作完成后,客户端捕获新的GUI截图,并将其作为反馈,连同操作结果一起发送回模型,进入下一个循环,直至任务完成。

值得注意的是,模型输出的所有坐标都基于一个与分辨率无关的1000x1000网格系统,这使得客户端代码可以轻松地将其缩放到任何实际的屏幕尺寸上,保证了操作的通用性。

AI Agent操作计算机屏幕

性能的领先与技术细节

Gemini 2.5 Computer Use在多项权威基准测试中,展现了其卓越的性能。在由Browserbase举办的Online-Mind2Web网页控制评测中,其准确率达到了65.7%。在衡量移动端控制能力的Android World基准测试中,其得分也高达69.7%,在多项评测中均处于行业领先地位。

其强大的能力,源于一系列精确定义的UI操作指令,包括click_at(点击)、type_text_at(输入文本)、scroll_document(滚动页面)、drag_and_drop(拖放)等。这些原子化的操作,共同构成了AI与GUI交互的“语言”。

UI自动化测试的游戏规则改变者

Gemini 2.5 Computer Use最具颠覆性的应用场景之一,就是UI自动化测试

传统的UI自动化测试,如使用Selenium等框架编写的脚本,长期以来面临着一个核心痛点——脆弱性。这些脚本高度依赖于页面元素的ID、CSS选择器或XPath等固定的“定位符”。一旦前端开发对UI进行任何微小的改版(例如,修改了一个按钮的ID),整个自动化测试脚本就可能因为找不到元素而崩溃,需要耗费大量人力进行维护。

而Gemini 2.5 Computer Use则提供了一种全新的、基于视觉理解的测试范式。它不再依赖于代码层面的定位符,而是像人一样,“看懂”屏幕上的按钮、输入框和链接,并根据其视觉特征和上下文来决定如何操作。

谷歌支付平台团队的一个内部案例,生动地展示了这一变革的价值。他们利用该模型,成功修复了超过60%的因UI变动而失效的脆弱测试用例。过去需要测试工程师花费数天时间手动排查和更新的脚本,现在AI可以在很短的时间内自动完成适应和修复。

安全机制与开发最佳实践

赋予AI直接控制软件界面的能力,无疑也带来了新的安全挑战。为此,Gemini 2.5 Computer Use内置了多层安全防护机制。

  • 实时安全检查: 模型的每一次操作提议,都会经过一个独立的实时安全服务进行评估。
  • 用户确认机制: 对于金融交易、发送通信、访问敏感信息等高风险操作,模型会明确要求必须获得终端用户的手动确认后,才能执行。开发者被严格禁止绕过这一机制。

对于希望尝试该技术的开发者,官方也给出了一系列安全最佳实践,包括在沙箱环境(如虚拟机或Docker容器)中运行Agent、对用户输入进行净化以防提示注入攻击、以及通过白名单/黑名单机制限制Agent的访问范围等。

Gemini 2.5 Computer Use的发布,其意义远不止于一个更聪明的AI模型。它为AI Agent打开了一扇通往图形用户世界的大门,预示着一个AI能像人类一样,无缝操作我们所有软件的“通用AI助理”时代的到来。尤其是在UI自动化测试、工作流自动化和信息采集等领域,这场由“视觉驱动”的自动化革命,已经拉开序幕。

http://www.dtcms.com/a/462121.html

相关文章:

  • 【星海出品】ASCII
  • 青州网站建设优化排名找工程包工平台app
  • 哪些网做网站比较好网站产品关键词导出
  • python学习之单例模式和魔法方法属性
  • 网站地址英文网站视频与服务器的关系
  • 优秀电商设计网站有哪些免费的推广平台有哪些
  • 【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
  • 怎么管理网站的内容吗网站建设与实现毕业答辩ppt
  • 苏州做网站的哪个公司比较好PS做图标兼职网站
  • 【Flutter】约束错误总结(Constraint Error 全面解析)
  • 2025年Flutter状态管理新趋势:AI友好度成为技术选型第一标准
  • WinPython下载安装和使用教程(附安装包,图文并茂)
  • 最好的网站开发平台网站改版的必要性
  • 解构自我:能力的三维、天性与养成,选择怎样的生活
  • 中国招标网官网招标公告aso优化违法吗
  • 做文献综述用什么网站Wordpress大前端DUX5.0主题
  • 网站模板 安全吗网站建设丨金手指谷哥14
  • Qwen3-VL 全面解析:从 Qwen2-VL → Qwen2.5-VL → Qwen3-VL 的三代进化
  • 自回归解码-》贪心解码
  • TDengine 编码函数 TO_BASE64 用户手册
  • HTTP 相关知识总结(协议特点、工作流程、请求方法等)
  • 个人网站的设计微信营销手机
  • 免费动态素材网站网站建设公司平台
  • 基于米家协议的智能灯嵌入式程序开发教程
  • DataX Web | 增量同步
  • 【Linux】认识ELF格式文件
  • 做网站哪个最好烟台有没有做网站
  • 鸿蒙:使用@Reusable实现组件的复用,提升性能
  • Day08_刷题niuke20251009
  • 操作系统权限提升(Windows令牌窃取和白名单绕过UAC提权)