2025 完整指南:Gemini 2.5 Computer Use 模型 - AI Agent 界面控制的革命性突破
🎯 核心要点 (TL;DR)
- 突破性技术:Google 发布首个专为界面控制设计的 Gemini 2.5 Computer Use 模型
- 卓越性能:Gemini 2.5 Computer Use 在多项网页和移动端控制基准测试中超越竞争对手,延迟更低
- 实用价值:Gemini 2.5 Computer Use 可构建自动填表、网页导航、UI 测试等 agent 应用
- 安全保障:Gemini 2.5 Computer Use 内置多层安全机制,包括用户确认和实时安全检查
- 即刻可用:通过 Google AI Studio 和 Vertex AI 平台的 Gemini API 可获取 Gemini 2.5 Computer Use 预览版
目录
- 什么是 Gemini 2.5 Computer Use 模型
- 核心工作原理
- 性能与基准测试
- 支持的操作类型
- 开发实现指南
- 安全机制与最佳实践
- 实际应用案例
- 定价与可用性
- 常见问题解答
什么是 Gemini 2.5 Computer Use 模型 {#what-is-computer-use}
Gemini 2.5 Computer Use 是 Google 基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专用模型,专门用于控制用户界面。与传统通过结构化 API 进行软件交互不同,该模型可以像人类一样直接与图形用户界面交互。
核心特性
- 视觉理解:能够"看到"计算机屏幕并理解界面元素
- 动作生成:生成具体的 UI 操作指令(点击、输入、滚动等)
- 多平台支持:主要针对网页浏览器优化,同时支持移动端控制
- 实时反馈:根据操作结果调整后续行为
💡 技术突破
这是首个专门针对界面控制任务优化的大语言模型,填补了 AI 与图形界面交互的重要空白。
核心工作原理 {#how-it-works}
Gemini 2.5 Computer Use 模型采用循环交互机制,整个过程分为四个核心步骤:
1. 向模型发送请求
- 在 API 请求中添加 Computer Use 工具
- 提供用户目标和当前 GUI 截图
- 可选择排除特定操作或添加自定义函数
2. 接收模型响应
- 模型分析用户请求和截图
- 生成包含
function_call
的响应,代表具体 UI 操作 - 可能包含需要用户确认的安全决策
3. 执行接收到的操作
- 客户端代码解析并执行
function_call
- 根据安全决策判断是否需要用户确认
- 在目标环境(如浏览器)中执行操作
4. 捕获新的环境状态
- 操作执行后捕获新的 GUI 截图
- 将结果作为
function_response
发送回模型 - 开始新的循环,直到任务完成
⚠️ 重要提示
必须使用gemini-2.5-computer-use-preview-10-2025
模型,其他模型不支持 Computer Use 工具。
性能与基准测试 {#performance-benchmarks}
Gemini 2.5 Computer Use 在多项权威基准测试中展现出色性能:
主要基准测试结果
基准测试 | Gemini 2.5 Computer Use | 最佳竞争对手 | 性能提升 |
---|---|---|---|
WebArena | 领先性能 | - | 显著优势 |
Online-Mind2Web | 高准确率 | - | 低延迟优势 |
Mobile Control | 强劲表现 | - | 多平台支持 |
性能特点
- 准确率领先:在网页和移动端控制任务中超越现有解决方案
- 延迟最低:提供业界领先的响应速度
- 稳定可靠:在复杂界面场景中保持高成功率
✅ 基准验证
测试结果来自自我报告数据、Browserbase 评估和 Google 内部测试。详细信息可查阅官方评估文档。
支持的操作类型 {#supported-actions}
Gemini 2.5 Computer Use 模型支持丰富的 UI 操作类型,涵盖日常界面交互的各个方面:
基础操作
操作名称 | 功能描述 | 参数示例 |
---|---|---|
open_web_browser | 打开网页浏览器 | 无参数 |
click_at | 在指定坐标点击 | {"x": 500, "y": 300} |
type_text_at | 在指定位置输入文本 | {"x": 400, "y": 250, "text": "搜索内容"} |
navigate | 导航到指定 URL | {"url": "https://example.com"} |
高级操作
操作名称 | 功能描述 | 参数示例 |
---|---|---|
scroll_document | 滚动整个页面 | {"direction": "down"} |
scroll_at | 在指定区域滚动 | {"x": 500, "y": 500, "direction": "down"} |
hover_at | 鼠标悬停 | {"x": 250, "y": 150} |
drag_and_drop | 拖放操作 | {"x": 100, "y": 100, "destination_x": 500, "destination_y": 500} |
特殊功能
- 等待机制:
wait_5_seconds
等待动态内容加载 - 浏览器控制:
go_back
、go_forward
进行历史导航 - 键盘组合:
key_combination
支持键盘快捷键 - 搜索功能:
search
导航到默认搜索引擎
💡 坐标系统
所有坐标基于 1000x1000 网格系统,自动缩放到实际屏幕尺寸。推荐屏幕分辨率:1440x900。
开发实现指南 {#implementation-guide}
环境设置
from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright# 初始化客户端
client = genai.Client()# 配置屏幕尺寸
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900
基础配置
# 配置 Computer Use 工具
generate_content_config = genai.types.GenerateContentConfig(tools=[types.Tool(computer_use=types.ComputerUse(environment=types.Environment.ENVIRONMENT_BROWSER,# 可选:排除特定函数excluded_predefined_functions=["drag_and_drop"]))]
)
Agent 循环实现
def build_agent_loop():with sync_playwright() as p:browser = p.chromium.launch(headless=False)page = browser.new_page()for iteration in range(10):# 1. 发送请求response = client.models.generate_content(model='gemini-2.5-computer-use-preview-10-2025',contents=contents,config=generate_content_config)# 2. 检查是否完成if not has_function_calls(response):print(f"任务完成: {response.text}")break# 3. 执行操作results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)# 4. 捕获新状态contents.append(create_feedback(results, page))
移动端扩展
对于移动应用,可以添加自定义函数:
def open_app(app_name: str, intent: Optional[str] = None):"""打开指定应用"""return {"status": "requested_open", "app_name": app_name}def long_press_at(x: int, y: int, duration_ms: int = 500):"""长按操作"""return {"x": x, "y": y, "duration_ms": duration_ms}def go_home():"""返回主屏幕"""return {"status": "home_requested"}
安全机制与最佳实践 {#safety-security}
内置安全功能
Gemini 2.5 Computer Use 模型集成了多层安全保护机制:
1. 实时安全检查
- 正常/允许:操作被认为是安全的
- 需要确认:执行前需要明确的用户同意
def handle_safety_decision(safety_decision):if safety_decision.get("decision") == "require_confirmation":user_input = input(f"安全提示: {safety_decision['explanation']}\n继续? (y/n): ")return user_input.lower() in ['y', 'yes']return True
2. 系统指令安全
## 安全规则示例### 规则 1: 用户确认 (USER_CONFIRMATION)
- 条款协议:禁止自动接受服务条款、隐私政策
- 机器人检测:禁止自动解决验证码
- 金融交易:完成购买前需用户确认
- 发送通信:发送邮件、消息前需确认
- 敏感信息:访问健康、财务记录需授权### 规则 2: 默认行为 (ACTUATE)
- 主动执行不在确认类别中的操作
- 持续推进用户请求直到完成或遇到限制
安全最佳实践
-
安全执行环境
- 使用沙箱虚拟机或容器
- 专用浏览器配置文件,权限受限
-
输入净化
- 净化用户生成的文本内容
- 防止提示注入攻击
-
访问控制
- 实施网站白名单/黑名单
- 限制可访问的函数范围
-
监控与日志
- 记录所有提示、截图和操作
- 维护详细的审计日志
⚠️ 风险警告
Gemini 2.5 Computer Use 引入新的风险类型,包括不可信内容、意外操作和政策违规。开发者必须实施适当的安全措施。
实际应用案例 {#use-cases}
企业应用
1. UI 自动化测试
- Google 支付平台团队:使用 Gemini 2.5 Computer Use 修复脆弱的端到端 UI 测试
- 结果:成功修复超过 60% 的测试执行失败(原本需要数天手动修复)
2. 工作流自动化
- 表单填写:自动化重复性数据录入任务
- 网页导航:跨多个网站收集信息
- 应用操作:在 Web 应用中执行复杂操作序列
第三方开发者反馈
Poke.com (AI 助手服务):
“Gemini 2.5 Computer Use 在速度上远超竞争对手,通常快 50%,性能优于我们考虑的下一个最佳解决方案。”
Autotab (AI Agent):
“在复杂情况下可靠解析上下文方面,Gemini 2.5 Computer Use 超越其他模型,在我们最困难的评估中性能提升高达 18%。”
典型使用场景
应用领域 | 具体用例 | 价值收益 |
---|---|---|
电商自动化 | 产品信息采集、价格比对 | 提高效率、降低人工成本 |
内容管理 | 批量发布、数据迁移 | 节省时间、减少错误率 |
客户服务 | 自动化客户支持流程 | 提高响应时间、增强满意度 |
数据分析 | 跨平台数据收集与整理 | 提升数据完整性、加速分析 |
定价与可用性 {#pricing-availability}
定价模式
- 定价标准:与 Gemini 2.5 Pro 相同的费率和 SKU
- 成本监控:可使用自定义元数据标签分离 Gemini 2.5 Computer Use 成本
- 计费方式:按 API 调用量和处理时间计费
可用性
平台 | 状态 | 访问方式 |
---|---|---|
Google AI Studio | 公开预览 | 直接 API 访问 |
Vertex AI | 公开预览 | 企业部署 |
Browserbase 演示 | 即时体验 | gemini.browserbase.com |
访问选项
- 立即试用:访问 Browserbase 托管的演示环境
- 开始构建:查看 GitHub 参考实现
- 加入社区:在开发者论坛分享反馈
✅ 即刻可用
无需等待,现在就可以通过 Gemini API 开始构建 Gemini 2.5 Computer Use 应用。
🤔 常见问题解答 {#faq}
Q: Gemini 2.5 Computer Use 模型与普通 Gemini 模型有何区别?
A: Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 专门优化的模型,具备视觉理解和界面操作能力。它不生成文本响应,而是生成具体的 UI 操作指令,如点击、输入、滚动等。
Q: 支持哪些平台和环境?
A: 主要针对网页浏览器优化,同时在移动端 UI 控制中也表现出色。目前不针对桌面操作系统级别的控制进行优化。
Q: 如何确保操作安全?
A: 模型内置多层安全机制,包括实时安全检查、用户确认机制和系统指令控制。开发者还应实施沙箱环境、访问控制和详细日志记录。
Q: 坐标系统如何工作?
A: 使用标准化的 1000x1000 网格系统,自动缩放到实际屏幕尺寸。建议使用 1440x900 分辨率以获得最佳效果。
Q: 可以添加自定义操作吗?
A: 可以,通过 function_declarations
添加自定义函数,同时可通过 excluded_predefined_functions
排除不需要的预定义操作。
Q: 如何处理动态内容和加载时间?
A: 模型提供 wait_5_seconds
操作用于等待动态内容加载,同时支持基于页面状态的智能等待机制。
Q: 错误处理如何进行?
A: 当操作失败或遇到错误时,模型会分析当前屏幕状态并自主决定恢复操作。Google 内部测试显示超过 60% 的失败执行可以成功修复。
Q: 是否支持并行操作?
A: 支持并行函数调用,模型可以在单次响应中返回多个独立的操作指令,提高执行效率。
总结与行动建议
Gemini 2.5 Computer Use 模型代表了 AI agent 技术的重大突破,首次实现了 AI 与图形用户界面的直接交互。其出色的性能、完善的安全机制和丰富的应用场景,为自动化、测试、数据采集等领域带来了革命性的可能。
即刻行动建议
- 快速体验:访问 Browserbase 演示环境,亲身体验 Gemini 2.5 Computer Use 能力
- 技术探索:下载 GitHub 参考实现,在本地环境构建首个 agent
- 社区参与:加入开发者论坛,与其他开发者交流经验和最佳实践
- 安全规划:在生产部署前制定完善的安全策略和测试计划
相关资源
- 官方文档
- Vertex AI 企业文档
- GitHub 参考实现
- 开发者社区论坛
Gemini 2.5 Computer Use 模型的发布标志着 AI agent 进入了全新的发展阶段。现在就开始探索这项技术,抢占 AI 自动化应用的先机!
Gemini 2.5 Computer Use 指南