当前位置：首页 > news >正文

Alita：通过 MCP 实现自主进化的通用 AI 代理

news 2025/9/6 16:15:34

Alita 是一个创新的通用 AI 代理，采用极简主义设计哲学，强调 minimal predefinition（最小预定义）和 maximal self-evolution（最大自主进化）。通过利用 Model Context Protocols (MCPs)，Alita 能够在执行任务时动态生成、适应和重用外部能力，从而实现高效且可扩展的代理推理。

什么是 MCPs？

Model Context Protocols (MCPs) 是一种由 Anthropic 提出的标准，旨在统一 AI 系统与外部数据源和服务之间的连接方式。MCPs 提供了一个通用、开放的标准，使大型语言模型（LLMs）能够与不同系统交互并获取所需的上下文信息。通过 MCPs，AI 助手可以连接到各种数据源，如内容存储库、商业工具和开发环境（如 Google Drive、Slack、GitHub），从而生成更好、更相关的响应。这种标准化的连接方式取代了碎片化的集成，实现了数据源与 AI 工具之间的安全双向连接。

Alita 如何使用 MCPs？

在 Alita 中，MCPs 被用于根据任务需求动态生成和适应外部能力。Alita 能够从开源资源中生成任务相关的 MCPs，并将这些 MCPs 存储在“MCP Box”中以供将来重用。这种方法使得 Alita 能够在不依赖预定义工具的情况下，自主地扩展其功能。生成的 MCPs 具有可重用性和跨代理兼容性，这意味着它们可以在不同的代理系统之间共享和使用，进一步促进了 AI 生态系统的发展。

示例：YouTube 视频字幕爬取器

在处理 GAIA 基准测试中的一个任务时，Alita 生成了一个“YouTube 视频字幕爬取器”MCP，利用 GitHub 上的 youtube-transcript-api 来提取视频字幕。这一过程展示了 Alita 如何通过 MCPs 动态获取和使用外部工具来完成具体任务。

性能与优势

通过使用 Alita 生成的 MCPs，代理在 GAIA 基准测试上的表现得到了显著提升。在验证数据集上，Alita 实现了 75.15% 的 pass@1 准确率和 87.27% 的 pass@3 准确率，领先于许多其他通用代理系统。此外，在 Mathvista 和 PathVQA 等基准测试上，Alita 也展现了出色的性能，分别达到 74.00% 和 52.00% 的 pass@1 准确率。

Alita 不仅自身在基准测试上取得了优异的成绩，其生成的 MCPs 还能显著提升其他代理系统的性能。例如，在 ODR-smolagents + GPT-4o 配置中，使用 Alita 生成的 MCPs 后，pass@1 准确率从 27.88% 提升至 33.94%。以下是性能对比数据：

模型配置	Level 1	Level 2	Level 3	总计/平均
ODR-smolagents + GPT-4o (无 MCPs)	33.96%	29.07%	11.54%	27.88%
ODR-smolagents + GPT-4o (有 MCPs)	39.62%	36.05%	15.38%	33.94%
Base Framework + GPT-4o-mini (无 MCP)	32.08%	20.93%	3.85%	21.82%
Base Framework + GPT-4o-mini (有 MCP)	39.62%	27.91%	11.54%	29.09%

alita-mcp CLI 工具

为了方便用户与 MCP 系统交互，alita-mcp 提供了一个命令行客户端。用户可以通过该工具运行应用程序、管理项目，并与 MCP 系统进行交互。以下是基本使用方法：

使用方法

安装
使用 pipx 安装 alita-mcp 以在隔离环境中运行：

pipx install alita-mcp

配置
通过 bootstrap 命令配置部署 URL 和认证令牌：

alita-mcp bootstrap --deployment_url https://api.example.com --auth_token YOUR_TOKEN

运行
使用 run 命令启动任务，指定项目 ID：

alita-mcp run --project_id YOUR_PROJECT_ID

结论

Alita 通过其独特的设计和对 MCPs 的利用，展示了一种新的 AI 代理开发范式，强调自主进化和动态能力扩展。这种方法不仅提高了代理的性能，还为其在各种复杂任务中的应用开辟了新的可能性。MCPs 的开放性和跨代理兼容性进一步增强了 Alita 的潜力，使其成为 AI 生态系统中一个重要的创新。