当前位置：首页 > news >正文

Gemini 2.5如何通过视觉理解，告别脆弱的UI测试脚本

news 2025/10/10 11:06:18

长期以来，人工智能Agent（智能体）的活动范围，似乎一直局限于代码和API的数字世界。它们能理解语言、生成内容、调用接口，但始终无法像人类一样，直观地与我们每天都在使用的图形用户界面（GUI）进行交互。然而，谷歌DeepMind近期发布的Gemini 2.5 Computer Use模型，正打破这一壁垒。

这一技术突破，标志着AI Agent首次拥有了直接“看到”并“操作”计算机屏幕的能力。它不再需要开发者预先为其编写好接口，而是能像一个真实的用户一样，通过点击、输入和滚动，来完成在网页和移动应用上的复杂任务。这不仅是一次技术上的飞跃，更可能从根本上颠覆UI自动化测试等多个领域。

核心工作原理解析

Gemini 2.5 Computer Use的工作模式，是一个优雅的四步循环交互系统：

发送请求： 开发者向模型API发送一个包含了用户目标和当前GUI截图的请求。
接收操作指令： 模型分析截图和目标，生成一个或多个具体的UI操作指令，如“在坐标(500, 300)处点击”。
执行操作： 客户端代码解析并执行这些指令，完成在屏幕上的实际操作。
捕获新状态： 操作完成后，客户端捕获新的GUI截图，并将其作为反馈，连同操作结果一起发送回模型，进入下一个循环，直至任务完成。

值得注意的是，模型输出的所有坐标都基于一个与分辨率无关的1000x1000网格系统，这使得客户端代码可以轻松地将其缩放到任何实际的屏幕尺寸上，保证了操作的通用性。

AI Agent操作计算机屏幕

性能的领先与技术细节

Gemini 2.5 Computer Use在多项权威基准测试中，展现了其卓越的性能。在由Browserbase举办的Online-Mind2Web网页控制评测中，其准确率达到了65.7%。在衡量移动端控制能力的Android World基准测试中，其得分也高达69.7%，在多项评测中均处于行业领先地位。

其强大的能力，源于一系列精确定义的UI操作指令，包括click_at（点击）、type_text_at（输入文本）、scroll_document（滚动页面）、drag_and_drop（拖放）等。这些原子化的操作，共同构成了AI与GUI交互的“语言”。

UI自动化测试的游戏规则改变者

Gemini 2.5 Computer Use最具颠覆性的应用场景之一，就是UI自动化测试。

传统的UI自动化测试，如使用Selenium等框架编写的脚本，长期以来面临着一个核心痛点——脆弱性。这些脚本高度依赖于页面元素的ID、CSS选择器或XPath等固定的“定位符”。一旦前端开发对UI进行任何微小的改版（例如，修改了一个按钮的ID），整个自动化测试脚本就可能因为找不到元素而崩溃，需要耗费大量人力进行维护。

而Gemini 2.5 Computer Use则提供了一种全新的、基于视觉理解的测试范式。它不再依赖于代码层面的定位符，而是像人一样，“看懂”屏幕上的按钮、输入框和链接，并根据其视觉特征和上下文来决定如何操作。

谷歌支付平台团队的一个内部案例，生动地展示了这一变革的价值。他们利用该模型，成功修复了超过60%的因UI变动而失效的脆弱测试用例。过去需要测试工程师花费数天时间手动排查和更新的脚本，现在AI可以在很短的时间内自动完成适应和修复。

安全机制与开发最佳实践

赋予AI直接控制软件界面的能力，无疑也带来了新的安全挑战。为此，Gemini 2.5 Computer Use内置了多层安全防护机制。

实时安全检查： 模型的每一次操作提议，都会经过一个独立的实时安全服务进行评估。
用户确认机制： 对于金融交易、发送通信、访问敏感信息等高风险操作，模型会明确要求必须获得终端用户的手动确认后，才能执行。开发者被严格禁止绕过这一机制。

对于希望尝试该技术的开发者，官方也给出了一系列安全最佳实践，包括在沙箱环境（如虚拟机或Docker容器）中运行Agent、对用户输入进行净化以防提示注入攻击、以及通过白名单/黑名单机制限制Agent的访问范围等。

Gemini 2.5 Computer Use的发布，其意义远不止于一个更聪明的AI模型。它为AI Agent打开了一扇通往图形用户世界的大门，预示着一个AI能像人类一样，无缝操作我们所有软件的“通用AI助理”时代的到来。尤其是在UI自动化测试、工作流自动化和信息采集等领域，这场由“视觉驱动”的自动化革命，已经拉开序幕。

查看全文

http://www.dtcms.com/a/462121.html