Alita:通过 MCP 实现自主进化的通用 AI 代理
Alita 是一个创新的通用 AI 代理,采用极简主义设计哲学,强调 minimal predefinition(最小预定义)和 maximal self-evolution(最大自主进化)。通过利用 Model Context Protocols (MCPs),Alita 能够在执行任务时动态生成、适应和重用外部能力,从而实现高效且可扩展的代理推理。
什么是 MCPs?
Model Context Protocols (MCPs) 是一种由 Anthropic 提出的标准,旨在统一 AI 系统与外部数据源和服务之间的连接方式。MCPs 提供了一个通用、开放的标准,使大型语言模型(LLMs)能够与不同系统交互并获取所需的上下文信息。通过 MCPs,AI 助手可以连接到各种数据源,如内容存储库、商业工具和开发环境(如 Google Drive、Slack、GitHub),从而生成更好、更相关的响应。这种标准化的连接方式取代了碎片化的集成,实现了数据源与 AI 工具之间的安全双向连接。
Alita 如何使用 MCPs?
在 Alita 中,MCPs 被用于根据任务需求动态生成和适应外部能力。Alita 能够从开源资源中生成任务相关的 MCPs,并将这些 MCPs 存储在“MCP Box”中以供将来重用。这种方法使得 Alita 能够在不依赖预定义工具的情况下,自主地扩展其功能。生成的 MCPs 具有可重用性和跨代理兼容性,这意味着它们可以在不同的代理系统之间共享和使用,进一步促进了 AI 生态系统的发展。
示例:YouTube 视频字幕爬取器
在处理 GAIA 基准测试中的一个任务时,Alita 生成了一个“YouTube 视频字幕爬取器”MCP,利用 GitHub 上的 youtube-transcript-api 来提取视频字幕。这一过程展示了 Alita 如何通过 MCPs 动态获取和使用外部工具来完成具体任务。
性能与优势
通过使用 Alita 生成的 MCPs,代理在 GAIA 基准测试上的表现得到了显著提升。在验证数据集上,Alita 实现了 75.15% 的 pass@1 准确率和 87.27% 的 pass@3 准确率,领先于许多其他通用代理系统。此外,在 Mathvista 和 PathVQA 等基准测试上,Alita 也展现了出色的性能,分别达到 74.00% 和 52.00% 的 pass@1 准确率。
Alita 不仅自身在基准测试上取得了优异的成绩,其生成的 MCPs 还能显著提升其他代理系统的性能。例如,在 ODR-smolagents + GPT-4o 配置中,使用 Alita 生成的 MCPs 后,pass@1 准确率从 27.88% 提升至 33.94%。以下是性能对比数据:
模型配置 | Level 1 | Level 2 | Level 3 | 总计/平均 |
---|---|---|---|---|
ODR-smolagents + GPT-4o (无 MCPs) | 33.96% | 29.07% | 11.54% | 27.88% |
ODR-smolagents + GPT-4o (有 MCPs) | 39.62% | 36.05% | 15.38% | 33.94% |
Base Framework + GPT-4o-mini (无 MCP) | 32.08% | 20.93% | 3.85% | 21.82% |
Base Framework + GPT-4o-mini (有 MCP) | 39.62% | 27.91% | 11.54% | 29.09% |
alita-mcp CLI 工具
为了方便用户与 MCP 系统交互,alita-mcp 提供了一个命令行客户端。用户可以通过该工具运行应用程序、管理项目,并与 MCP 系统进行交互。以下是基本使用方法:
使用方法
- 安装
使用 pipx 安装 alita-mcp 以在隔离环境中运行:
pipx install alita-mcp
- 配置
通过 bootstrap 命令配置部署 URL 和认证令牌:
alita-mcp bootstrap --deployment_url https://api.example.com --auth_token YOUR_TOKEN
- 运行
使用 run 命令启动任务,指定项目 ID:
alita-mcp run --project_id YOUR_PROJECT_ID
结论
Alita 通过其独特的设计和对 MCPs 的利用,展示了一种新的 AI 代理开发范式,强调自主进化和动态能力扩展。这种方法不仅提高了代理的性能,还为其在各种复杂任务中的应用开辟了新的可能性。MCPs 的开放性和跨代理兼容性进一步增强了 Alita 的潜力,使其成为 AI 生态系统中一个重要的创新。