当前位置：首页 > news >正文

2025 完整指南:Gemini 2.5 Computer Use 模型 - AI Agent 界面控制的革命性突破

news 2025/10/9 6:03:10

🎯 核心要点 (TL;DR)

突破性技术:Google 发布首个专为界面控制设计的 Gemini 2.5 Computer Use 模型
卓越性能:Gemini 2.5 Computer Use 在多项网页和移动端控制基准测试中超越竞争对手,延迟更低
实用价值:Gemini 2.5 Computer Use 可构建自动填表、网页导航、UI 测试等 agent 应用
安全保障:Gemini 2.5 Computer Use 内置多层安全机制,包括用户确认和实时安全检查
即刻可用:通过 Google AI Studio 和 Vertex AI 平台的 Gemini API 可获取 Gemini 2.5 Computer Use 预览版

什么是 Gemini 2.5 Computer Use 模型 {#what-is-computer-use}

Gemini 2.5 Computer Use 是 Google 基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专用模型,专门用于控制用户界面。与传统通过结构化 API 进行软件交互不同,该模型可以像人类一样直接与图形用户界面交互。

核心特性

视觉理解:能够"看到"计算机屏幕并理解界面元素
动作生成:生成具体的 UI 操作指令(点击、输入、滚动等)
多平台支持:主要针对网页浏览器优化,同时支持移动端控制
实时反馈:根据操作结果调整后续行为

💡 技术突破
这是首个专门针对界面控制任务优化的大语言模型,填补了 AI 与图形界面交互的重要空白。

核心工作原理 {#how-it-works}

Gemini 2.5 Computer Use 模型采用循环交互机制,整个过程分为四个核心步骤:

1. 向模型发送请求

在 API 请求中添加 Computer Use 工具
提供用户目标和当前 GUI 截图
可选择排除特定操作或添加自定义函数

2. 接收模型响应

模型分析用户请求和截图
生成包含 function_call 的响应,代表具体 UI 操作
可能包含需要用户确认的安全决策

3. 执行接收到的操作

客户端代码解析并执行 function_call
根据安全决策判断是否需要用户确认
在目标环境(如浏览器)中执行操作

4. 捕获新的环境状态

操作执行后捕获新的 GUI 截图
将结果作为 function_response 发送回模型
开始新的循环,直到任务完成

在这里插入图片描述

⚠️ 重要提示
必须使用 gemini-2.5-computer-use-preview-10-2025 模型,其他模型不支持 Computer Use 工具。

性能与基准测试 {#performance-benchmarks}

Gemini 2.5 Computer Use 在多项权威基准测试中展现出色性能:

主要基准测试结果

基准测试	Gemini 2.5 Computer Use	最佳竞争对手	性能提升
WebArena	领先性能	-	显著优势
Online-Mind2Web	高准确率	-	低延迟优势
Mobile Control	强劲表现	-	多平台支持

性能特点

准确率领先:在网页和移动端控制任务中超越现有解决方案
延迟最低:提供业界领先的响应速度
稳定可靠:在复杂界面场景中保持高成功率

✅ 基准验证
测试结果来自自我报告数据、Browserbase 评估和 Google 内部测试。详细信息可查阅官方评估文档。

支持的操作类型 {#supported-actions}

Gemini 2.5 Computer Use 模型支持丰富的 UI 操作类型,涵盖日常界面交互的各个方面:

基础操作

操作名称	功能描述	参数示例
`open_web_browser`	打开网页浏览器	无参数
`click_at`	在指定坐标点击	`{"x": 500, "y": 300}`
`type_text_at`	在指定位置输入文本	`{"x": 400, "y": 250, "text": "搜索内容"}`
`navigate`	导航到指定 URL	`{"url": "https://example.com"}`

高级操作

操作名称	功能描述	参数示例
`scroll_document`	滚动整个页面	`{"direction": "down"}`
`scroll_at`	在指定区域滚动	`{"x": 500, "y": 500, "direction": "down"}`
`hover_at`	鼠标悬停	`{"x": 250, "y": 150}`
`drag_and_drop`	拖放操作	`{"x": 100, "y": 100, "destination_x": 500, "destination_y": 500}`

特殊功能

等待机制:wait_5_seconds 等待动态内容加载
浏览器控制:go_back、go_forward 进行历史导航
键盘组合:key_combination 支持键盘快捷键
搜索功能:search 导航到默认搜索引擎

💡 坐标系统
所有坐标基于 1000x1000 网格系统,自动缩放到实际屏幕尺寸。推荐屏幕分辨率:1440x900。

开发实现指南 {#implementation-guide}

环境设置

from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright# 初始化客户端
client = genai.Client()# 配置屏幕尺寸
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

基础配置

# 配置 Computer Use 工具
generate_content_config = genai.types.GenerateContentConfig(tools=[types.Tool(computer_use=types.ComputerUse(environment=types.Environment.ENVIRONMENT_BROWSER,# 可选:排除特定函数excluded_predefined_functions=["drag_and_drop"]))]
)

Agent 循环实现

def build_agent_loop():with sync_playwright() as p:browser = p.chromium.launch(headless=False)page = browser.new_page()for iteration in range(10):# 1. 发送请求response = client.models.generate_content(model='gemini-2.5-computer-use-preview-10-2025',contents=contents,config=generate_content_config)# 2. 检查是否完成if not has_function_calls(response):print(f"任务完成: {response.text}")break# 3. 执行操作results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)# 4. 捕获新状态contents.append(create_feedback(results, page))

移动端扩展

对于移动应用,可以添加自定义函数:

def open_app(app_name: str, intent: Optional[str] = None):"""打开指定应用"""return {"status": "requested_open", "app_name": app_name}def long_press_at(x: int, y: int, duration_ms: int = 500):"""长按操作"""return {"x": x, "y": y, "duration_ms": duration_ms}def go_home():"""返回主屏幕"""return {"status": "home_requested"}

安全机制与最佳实践 {#safety-security}

内置安全功能

Gemini 2.5 Computer Use 模型集成了多层安全保护机制:

1. 实时安全检查

正常/允许:操作被认为是安全的
需要确认:执行前需要明确的用户同意

def handle_safety_decision(safety_decision):if safety_decision.get("decision") == "require_confirmation":user_input = input(f"安全提示: {safety_decision['explanation']}\n继续? (y/n): ")return user_input.lower() in ['y', 'yes']return True

2. 系统指令安全

## 安全规则示例### 规则 1: 用户确认 (USER_CONFIRMATION)
- 条款协议:禁止自动接受服务条款、隐私政策
- 机器人检测:禁止自动解决验证码
- 金融交易:完成购买前需用户确认
- 发送通信:发送邮件、消息前需确认
- 敏感信息:访问健康、财务记录需授权### 规则 2: 默认行为 (ACTUATE)
- 主动执行不在确认类别中的操作
- 持续推进用户请求直到完成或遇到限制

安全最佳实践

安全执行环境
- 使用沙箱虚拟机或容器
- 专用浏览器配置文件,权限受限
输入净化
- 净化用户生成的文本内容
- 防止提示注入攻击
访问控制
- 实施网站白名单/黑名单
- 限制可访问的函数范围
监控与日志
- 记录所有提示、截图和操作
- 维护详细的审计日志

⚠️ 风险警告
Gemini 2.5 Computer Use 引入新的风险类型,包括不可信内容、意外操作和政策违规。开发者必须实施适当的安全措施。

实际应用案例 {#use-cases}

企业应用

1. UI 自动化测试

Google 支付平台团队:使用 Gemini 2.5 Computer Use 修复脆弱的端到端 UI 测试
结果:成功修复超过 60% 的测试执行失败(原本需要数天手动修复)

2. 工作流自动化

表单填写:自动化重复性数据录入任务
网页导航:跨多个网站收集信息
应用操作:在 Web 应用中执行复杂操作序列

第三方开发者反馈

Poke.com (AI 助手服务):
“Gemini 2.5 Computer Use 在速度上远超竞争对手,通常快 50%,性能优于我们考虑的下一个最佳解决方案。”

Autotab (AI Agent):
“在复杂情况下可靠解析上下文方面,Gemini 2.5 Computer Use 超越其他模型,在我们最困难的评估中性能提升高达 18%。”

典型使用场景

应用领域	具体用例	价值收益
电商自动化	产品信息采集、价格比对	提高效率、降低人工成本
内容管理	批量发布、数据迁移	节省时间、减少错误率
客户服务	自动化客户支持流程	提高响应时间、增强满意度
数据分析	跨平台数据收集与整理	提升数据完整性、加速分析

定价与可用性 {#pricing-availability}

定价模式

定价标准:与 Gemini 2.5 Pro 相同的费率和 SKU
成本监控:可使用自定义元数据标签分离 Gemini 2.5 Computer Use 成本
计费方式:按 API 调用量和处理时间计费

可用性

平台	状态	访问方式
Google AI Studio	公开预览	直接 API 访问
Vertex AI	公开预览	企业部署
Browserbase 演示	即时体验	gemini.browserbase.com

访问选项

立即试用:访问 Browserbase 托管的演示环境
开始构建:查看 GitHub 参考实现
加入社区:在开发者论坛分享反馈

✅ 即刻可用
无需等待,现在就可以通过 Gemini API 开始构建 Gemini 2.5 Computer Use 应用。

🤔 常见问题解答 {#faq}

Q: Gemini 2.5 Computer Use 模型与普通 Gemini 模型有何区别?

A: Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 专门优化的模型,具备视觉理解和界面操作能力。它不生成文本响应,而是生成具体的 UI 操作指令,如点击、输入、滚动等。

Q: 支持哪些平台和环境?

A: 主要针对网页浏览器优化,同时在移动端 UI 控制中也表现出色。目前不针对桌面操作系统级别的控制进行优化。

Q: 如何确保操作安全?

A: 模型内置多层安全机制,包括实时安全检查、用户确认机制和系统指令控制。开发者还应实施沙箱环境、访问控制和详细日志记录。

Q: 坐标系统如何工作?

A: 使用标准化的 1000x1000 网格系统,自动缩放到实际屏幕尺寸。建议使用 1440x900 分辨率以获得最佳效果。

Q: 可以添加自定义操作吗?

A: 可以,通过 function_declarations 添加自定义函数,同时可通过 excluded_predefined_functions 排除不需要的预定义操作。

Q: 如何处理动态内容和加载时间?

A: 模型提供 wait_5_seconds 操作用于等待动态内容加载,同时支持基于页面状态的智能等待机制。

Q: 错误处理如何进行?

A: 当操作失败或遇到错误时,模型会分析当前屏幕状态并自主决定恢复操作。Google 内部测试显示超过 60% 的失败执行可以成功修复。

Q: 是否支持并行操作?

A: 支持并行函数调用,模型可以在单次响应中返回多个独立的操作指令,提高执行效率。

总结与行动建议

Gemini 2.5 Computer Use 模型代表了 AI agent 技术的重大突破,首次实现了 AI 与图形用户界面的直接交互。其出色的性能、完善的安全机制和丰富的应用场景,为自动化、测试、数据采集等领域带来了革命性的可能。

即刻行动建议

快速体验:访问 Browserbase 演示环境,亲身体验 Gemini 2.5 Computer Use 能力
技术探索:下载 GitHub 参考实现,在本地环境构建首个 agent
社区参与:加入开发者论坛,与其他开发者交流经验和最佳实践
安全规划:在生产部署前制定完善的安全策略和测试计划