当前位置: 首页 > news >正文

2025 完整指南:Gemini 2.5 Computer Use 模型 - AI Agent 界面控制的革命性突破

🎯 核心要点 (TL;DR)

  • 突破性技术:Google 发布首个专为界面控制设计的 Gemini 2.5 Computer Use 模型
  • 卓越性能:Gemini 2.5 Computer Use 在多项网页和移动端控制基准测试中超越竞争对手,延迟更低
  • 实用价值:Gemini 2.5 Computer Use 可构建自动填表、网页导航、UI 测试等 agent 应用
  • 安全保障:Gemini 2.5 Computer Use 内置多层安全机制,包括用户确认和实时安全检查
  • 即刻可用:通过 Google AI Studio 和 Vertex AI 平台的 Gemini API 可获取 Gemini 2.5 Computer Use 预览版

目录

  1. 什么是 Gemini 2.5 Computer Use 模型
  2. 核心工作原理
  3. 性能与基准测试
  4. 支持的操作类型
  5. 开发实现指南
  6. 安全机制与最佳实践
  7. 实际应用案例
  8. 定价与可用性
  9. 常见问题解答

什么是 Gemini 2.5 Computer Use 模型 {#what-is-computer-use}

Gemini 2.5 Computer Use 是 Google 基于 Gemini 2.5 Pro 的视觉理解和推理能力构建的专用模型,专门用于控制用户界面。与传统通过结构化 API 进行软件交互不同,该模型可以像人类一样直接与图形用户界面交互。

核心特性

  • 视觉理解:能够"看到"计算机屏幕并理解界面元素
  • 动作生成:生成具体的 UI 操作指令(点击、输入、滚动等)
  • 多平台支持:主要针对网页浏览器优化,同时支持移动端控制
  • 实时反馈:根据操作结果调整后续行为

💡 技术突破
这是首个专门针对界面控制任务优化的大语言模型,填补了 AI 与图形界面交互的重要空白。

核心工作原理 {#how-it-works}

Gemini 2.5 Computer Use 模型采用循环交互机制,整个过程分为四个核心步骤:

1. 向模型发送请求

  • 在 API 请求中添加 Computer Use 工具
  • 提供用户目标和当前 GUI 截图
  • 可选择排除特定操作或添加自定义函数

2. 接收模型响应

  • 模型分析用户请求和截图
  • 生成包含 function_call 的响应,代表具体 UI 操作
  • 可能包含需要用户确认的安全决策

3. 执行接收到的操作

  • 客户端代码解析并执行 function_call
  • 根据安全决策判断是否需要用户确认
  • 在目标环境(如浏览器)中执行操作

4. 捕获新的环境状态

  • 操作执行后捕获新的 GUI 截图
  • 将结果作为 function_response 发送回模型
  • 开始新的循环,直到任务完成

在这里插入图片描述

⚠️ 重要提示
必须使用 gemini-2.5-computer-use-preview-10-2025 模型,其他模型不支持 Computer Use 工具。

性能与基准测试 {#performance-benchmarks}

Gemini 2.5 Computer Use 在多项权威基准测试中展现出色性能:

主要基准测试结果

基准测试Gemini 2.5 Computer Use最佳竞争对手性能提升
WebArena领先性能-显著优势
Online-Mind2Web高准确率-低延迟优势
Mobile Control强劲表现-多平台支持

性能特点

  • 准确率领先:在网页和移动端控制任务中超越现有解决方案
  • 延迟最低:提供业界领先的响应速度
  • 稳定可靠:在复杂界面场景中保持高成功率

基准验证
测试结果来自自我报告数据、Browserbase 评估和 Google 内部测试。详细信息可查阅官方评估文档。

支持的操作类型 {#supported-actions}

Gemini 2.5 Computer Use 模型支持丰富的 UI 操作类型,涵盖日常界面交互的各个方面:

基础操作

操作名称功能描述参数示例
open_web_browser打开网页浏览器无参数
click_at在指定坐标点击{"x": 500, "y": 300}
type_text_at在指定位置输入文本{"x": 400, "y": 250, "text": "搜索内容"}
navigate导航到指定 URL{"url": "https://example.com"}

高级操作

操作名称功能描述参数示例
scroll_document滚动整个页面{"direction": "down"}
scroll_at在指定区域滚动{"x": 500, "y": 500, "direction": "down"}
hover_at鼠标悬停{"x": 250, "y": 150}
drag_and_drop拖放操作{"x": 100, "y": 100, "destination_x": 500, "destination_y": 500}

特殊功能

  • 等待机制:wait_5_seconds 等待动态内容加载
  • 浏览器控制:go_backgo_forward 进行历史导航
  • 键盘组合:key_combination 支持键盘快捷键
  • 搜索功能:search 导航到默认搜索引擎

💡 坐标系统
所有坐标基于 1000x1000 网格系统,自动缩放到实际屏幕尺寸。推荐屏幕分辨率:1440x900。

开发实现指南 {#implementation-guide}

环境设置

from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright# 初始化客户端
client = genai.Client()# 配置屏幕尺寸
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

基础配置

# 配置 Computer Use 工具
generate_content_config = genai.types.GenerateContentConfig(tools=[types.Tool(computer_use=types.ComputerUse(environment=types.Environment.ENVIRONMENT_BROWSER,# 可选:排除特定函数excluded_predefined_functions=["drag_and_drop"]))]
)

Agent 循环实现

def build_agent_loop():with sync_playwright() as p:browser = p.chromium.launch(headless=False)page = browser.new_page()for iteration in range(10):# 1. 发送请求response = client.models.generate_content(model='gemini-2.5-computer-use-preview-10-2025',contents=contents,config=generate_content_config)# 2. 检查是否完成if not has_function_calls(response):print(f"任务完成: {response.text}")break# 3. 执行操作results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)# 4. 捕获新状态contents.append(create_feedback(results, page))

移动端扩展

对于移动应用,可以添加自定义函数:

def open_app(app_name: str, intent: Optional[str] = None):"""打开指定应用"""return {"status": "requested_open", "app_name": app_name}def long_press_at(x: int, y: int, duration_ms: int = 500):"""长按操作"""return {"x": x, "y": y, "duration_ms": duration_ms}def go_home():"""返回主屏幕"""return {"status": "home_requested"}

安全机制与最佳实践 {#safety-security}

内置安全功能

Gemini 2.5 Computer Use 模型集成了多层安全保护机制:

1. 实时安全检查
  • 正常/允许:操作被认为是安全的
  • 需要确认:执行前需要明确的用户同意
def handle_safety_decision(safety_decision):if safety_decision.get("decision") == "require_confirmation":user_input = input(f"安全提示: {safety_decision['explanation']}\n继续? (y/n): ")return user_input.lower() in ['y', 'yes']return True
2. 系统指令安全
## 安全规则示例### 规则 1: 用户确认 (USER_CONFIRMATION)
- 条款协议:禁止自动接受服务条款、隐私政策
- 机器人检测:禁止自动解决验证码
- 金融交易:完成购买前需用户确认
- 发送通信:发送邮件、消息前需确认
- 敏感信息:访问健康、财务记录需授权### 规则 2: 默认行为 (ACTUATE)
- 主动执行不在确认类别中的操作
- 持续推进用户请求直到完成或遇到限制

安全最佳实践

  1. 安全执行环境

    • 使用沙箱虚拟机或容器
    • 专用浏览器配置文件,权限受限
  2. 输入净化

    • 净化用户生成的文本内容
    • 防止提示注入攻击
  3. 访问控制

    • 实施网站白名单/黑名单
    • 限制可访问的函数范围
  4. 监控与日志

    • 记录所有提示、截图和操作
    • 维护详细的审计日志

⚠️ 风险警告
Gemini 2.5 Computer Use 引入新的风险类型,包括不可信内容、意外操作和政策违规。开发者必须实施适当的安全措施。

实际应用案例 {#use-cases}

企业应用

1. UI 自动化测试
  • Google 支付平台团队:使用 Gemini 2.5 Computer Use 修复脆弱的端到端 UI 测试
  • 结果:成功修复超过 60% 的测试执行失败(原本需要数天手动修复)
2. 工作流自动化
  • 表单填写:自动化重复性数据录入任务
  • 网页导航:跨多个网站收集信息
  • 应用操作:在 Web 应用中执行复杂操作序列

第三方开发者反馈

Poke.com (AI 助手服务):
“Gemini 2.5 Computer Use 在速度上远超竞争对手,通常快 50%,性能优于我们考虑的下一个最佳解决方案。”

Autotab (AI Agent):
“在复杂情况下可靠解析上下文方面,Gemini 2.5 Computer Use 超越其他模型,在我们最困难的评估中性能提升高达 18%。”

典型使用场景

应用领域具体用例价值收益
电商自动化产品信息采集、价格比对提高效率、降低人工成本
内容管理批量发布、数据迁移节省时间、减少错误率
客户服务自动化客户支持流程提高响应时间、增强满意度
数据分析跨平台数据收集与整理提升数据完整性、加速分析

定价与可用性 {#pricing-availability}

定价模式

  • 定价标准:与 Gemini 2.5 Pro 相同的费率和 SKU
  • 成本监控:可使用自定义元数据标签分离 Gemini 2.5 Computer Use 成本
  • 计费方式:按 API 调用量和处理时间计费

可用性

平台状态访问方式
Google AI Studio公开预览直接 API 访问
Vertex AI公开预览企业部署
Browserbase 演示即时体验gemini.browserbase.com

访问选项

  1. 立即试用:访问 Browserbase 托管的演示环境
  2. 开始构建:查看 GitHub 参考实现
  3. 加入社区:在开发者论坛分享反馈

即刻可用
无需等待,现在就可以通过 Gemini API 开始构建 Gemini 2.5 Computer Use 应用。

🤔 常见问题解答 {#faq}

Q: Gemini 2.5 Computer Use 模型与普通 Gemini 模型有何区别?

A: Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 专门优化的模型,具备视觉理解和界面操作能力。它不生成文本响应,而是生成具体的 UI 操作指令,如点击、输入、滚动等。

Q: 支持哪些平台和环境?

A: 主要针对网页浏览器优化,同时在移动端 UI 控制中也表现出色。目前不针对桌面操作系统级别的控制进行优化。

Q: 如何确保操作安全?

A: 模型内置多层安全机制,包括实时安全检查、用户确认机制和系统指令控制。开发者还应实施沙箱环境、访问控制和详细日志记录。

Q: 坐标系统如何工作?

A: 使用标准化的 1000x1000 网格系统,自动缩放到实际屏幕尺寸。建议使用 1440x900 分辨率以获得最佳效果。

Q: 可以添加自定义操作吗?

A: 可以,通过 function_declarations 添加自定义函数,同时可通过 excluded_predefined_functions 排除不需要的预定义操作。

Q: 如何处理动态内容和加载时间?

A: 模型提供 wait_5_seconds 操作用于等待动态内容加载,同时支持基于页面状态的智能等待机制。

Q: 错误处理如何进行?

A: 当操作失败或遇到错误时,模型会分析当前屏幕状态并自主决定恢复操作。Google 内部测试显示超过 60% 的失败执行可以成功修复。

Q: 是否支持并行操作?

A: 支持并行函数调用,模型可以在单次响应中返回多个独立的操作指令,提高执行效率。

总结与行动建议

Gemini 2.5 Computer Use 模型代表了 AI agent 技术的重大突破,首次实现了 AI 与图形用户界面的直接交互。其出色的性能、完善的安全机制和丰富的应用场景,为自动化、测试、数据采集等领域带来了革命性的可能。

即刻行动建议

  1. 快速体验:访问 Browserbase 演示环境,亲身体验 Gemini 2.5 Computer Use 能力
  2. 技术探索:下载 GitHub 参考实现,在本地环境构建首个 agent
  3. 社区参与:加入开发者论坛,与其他开发者交流经验和最佳实践
  4. 安全规划:在生产部署前制定完善的安全策略和测试计划

相关资源

  • 官方文档
  • Vertex AI 企业文档
  • GitHub 参考实现
  • 开发者社区论坛

Gemini 2.5 Computer Use 模型的发布标志着 AI agent 进入了全新的发展阶段。现在就开始探索这项技术,抢占 AI 自动化应用的先机!

Gemini 2.5 Computer Use 指南

http://www.dtcms.com/a/456993.html

相关文章:

  • 云南网站建设专业品牌网站域名怎么转
  • Vue项目中如何实现表格选中数据的 Excel 导出
  • 【多模态学习】QA7: GRPO算法?KL散度指的是什么?什么叫做长思维连冷启动?模型退火是什么意思?
  • 无人机_鲁棒性
  • 用自己的计算机做服务器建网站海外模板网站有哪些
  • 检测MODBUS通讯连接 (MODBUS POLL)
  • 数据结构(陈越,何钦铭)期末考试
  • 接口测试-Postman的关联
  • 重庆网站建设快忻科技国外h5汇总网站
  • 解决 LÖVE 引擎 liblua.so.5.4 库缺失问题
  • 从原始数据到实时防御:与 John Hammond 的对话
  • JavaScript事件流:冒泡与捕获的深度解析
  • 避免网站侵权免费域名申请 freenom最新
  • 【C++进阶】---- 红黑树实现
  • 【多模态学习】QA6: 什么是MOE架构?Router Z Loss函数是指什么?
  • 做seo网站公司jsp做网站还
  • 本地部署javaweb项目到Tomcat的三种方法
  • 中秋月满,心却不满
  • VSCode 中 c_cpp_properties.json 配置项 includePath 通配符“**”含义
  • 电商网站建设要多少钱建设银行官方网站入口
  • VS Code配置Python开发环境系列(1)___VScode的安装 ,VScode常用快捷键
  • Redis 集群分片算法
  • 【MYSQL】SQL学习指南:从常见错误到高级函数与正则表达式
  • 个人网站开发 怎么赚钱吗wordpress阿里图标库
  • 镇江网站推广排名有回定ip怎么做网站
  • Windows 11系统鼠标键盘被禁用问题的全面解决方案
  • 多字节串口收发IP设计(一)概述
  • python如何使用abd操作手机
  • PHP SimpleXML 深入解析与应用
  • C# MVC 修复DataTable时间排序以及中英文系统的时间筛选问题