有哪些cua模型 Computer-Using Agent
目前公开可查、已形成一定影响力的 Computer-Using Agent(CUA)模型/框架主要有下面几类,按发布时间先后排列,方便快速对照:
| 名称 | 核心亮点 | 典型出处 |
|---|---|---|
| **OS-Copilot** | 通用计算机智能体,具备自我提升能力 | 2024-11 论文合集 |
| **Agent S / S2** | 经验增强分层规划 + 混合式定位(通用 LLM + 专用 UI-TARS 模型) | 2025-08 技术报告 |
| **OSCAR** | 状态感知推理 + 动态任务重规划,跨桌面/移动 GUI | 2024-11 论文 |
| **Cradle** | 无需预训练,直接用键盘鼠标操作任意应用 | 2024-11 论文 |
| **OpenAI CUA (Operator)** | GPT-4o 视觉 + o系模型推理,云端浏览器端到端操作 | 2025-01 官方发布 |
| **Agent-E** | 层次化设计 + DOM 提炼与降噪,专注网页导航 | 2024-11 论文 |
补充说明
- **Agent 1.0** 与 **Agent 2.0(Deep Agent)** 更多是架构演进概念:前者依赖上下文窗口做简单循环;后者引入显式规划、持久记忆、分层委托等工程优化,尚未对应单一模型名称。
- 中医领域的“辩证分型”“方剂推荐”等智能体属于垂直场景应用,未列入上表。
