当前位置：首页 > news >正文

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

news 2025/9/26 16:04:39

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间难以“说同一种语言”。

1. Agent2Agent (A2A) 协议：协作式 AI 的新纪元

1.1. 为什么 AI 代理需要相互通信？

当前，各行各业正广泛部署专业化 AI 代理和多代理系统（MAS），以处理从客户服务到供应链管理等多样化任务。这些代理通常由不同的框架和供应商构建，导致 AI 生态系统日益碎片化。这种缺乏标准化通信的现状，催生了所谓的“AI 巴别塔问题”，即代理之间无法自然地“说同一种语言”，严重阻碍了它们之间的有效协作。

这种碎片化不仅导致代理行为的孤立，还带来了脆弱且难以维护和扩展的定制化集成方案。随着更多专业化代理的加入，系统的复杂性呈指数级增长，严重影响了快速创新的能力，并阻碍了多代理协同效应的充分发挥。这表明，缺乏通用通信标准不仅仅是一种不便，更是一种根本性的架构限制，直接阻碍了多代理 AI 系统的扩展和演进。若无 A2A 协议，企业在部署 AI 时将面临巨大的技术债务和更长的价值实现时间，因为集成工作将成为主要瓶颈，限制了 AI 驱动自动化项目的范围和雄心。

然而，我们设想了一个未来：智能代理能够像数字同事团队一样进行协调、谈判和协作，以最小的人工干预自适应地管理任务。要实现这一愿景，AI 系统之间需要一种通用的交互语言。正是在这样的背景下，Google 联合 50 多家行业合作伙伴，推出了 Agent2Agent (A2A) 协议，旨在弥合这一关键的互操作性鸿沟。该协议有望彻底改变 AI 系统的工作方式，使其从孤立的模型转变为智能的、协作的整体。

1.2. 深入理解 A2A：互操作性的开放标准

A2A 协议是一个开放标准，它使自主 AI 代理能够安全地跨平台发现、通信和协作。它充当多代理系统的“通用翻译器”或“通用粘合剂”，允许来自不同供应商的代理“说同一种语言”。

A2A 超越了传统的 API 模式，通过提供标准化的语言和交互模式，使一个代理能够将另一个代理的功能作为服务来利用。它抽象了代理的内部逻辑、提示或工具使用，将每个 AI 代理都转化为一个服务终结点。这种将每个 AI 代理转变为服务终结点的描述，以及“以一致的方式抽象这些交互，因此客户端无需担心远程代理的底层框架或技术栈”的表述，与微服务架构中的服务网格概念高度相似。服务网格抽象了服务间的通信、发现、安全和可观察性，这与 A2A 旨在为 AI 代理实现的目标不谋而合。这种架构上的相似性表明，A2A 不仅仅是一个通信协议，更是构建真正分布式、弹性且可扩展的 AI 生态系统的基础层。它预示着 AI 系统设计向更模块化和可组合架构的重大转变。

A2A 协议支持的关键能力包括：安全地发现其他代理；交换结构化任务；流式传输响应并处理多轮对话；跨文本、图像、视频和数据等多种模态进行操作；处理长时间运行的任务和推送更新；以及默认提供企业级安全性。由 Google 与包括 Atlassian、Box、LangChain、SAP、Salesforce、Workday、PayPal、Accenture 和 Microsoft 在内的 50 多个主要合作伙伴共同开发，A2A 协议促进了整个行业的协作，并正在 Azure AI Foundry 和 Copilot Studio 等平台中得到支持。这种广泛的支持旨在使 A2A 成为多代理系统的“通用粘合剂”。

1.3. 核心设计原则：A2A 的支柱

A2A 协议建立在一系列基础设计原则之上，旨在解决现实世界中 AI 代理交互的复杂性，确保其鲁棒性、灵活性和安全性。

首先是拥抱代理能力（代理卡）。A2A 协议深刻认识到 AI 代理是具有独特能力的智能实体，而非仅仅是静态的终结点。它引入了“代理卡”的概念，这是一种动态元数据，用于描述代理的技能、知识领域、计算资源和交互偏好。这些代理卡实现了“前所未有的能力发现”，允许代理广播其专业知识，并使其他代理能够了解其潜在贡献。这类似于团队会议中专业人员介绍各自专长的方式。A2A 协议通过利用 HTTP、JSON-RPC 和 SSE 等现有标准，实现了务实的创新。这种方法不仅仅是为了易于采用，更是一种战略选择。通过抽象 AI 代理复杂的内部工作原理并利用熟悉的网络协议，A2A 降低了开发人员的学习曲线，并使其“更容易与现有技术栈集成”。这种务实的方法允许在 AI 代理协作方面进行快速创新，而无需重新发明整个通信层，将重点放在交互的“语言”而非底层的“线路”上。这种设计理念使得 A2A 能够广泛、快速地在企业环境中部署，因为它最大限度地减少了对现有 IT 基础设施和开发人员技能集的干扰，从而加速了向多代理系统的过渡。

其次是基于现有标准构建。A2A 战略性地利用了现有且经过实践检验的通信标准，确保了向后兼容性并降低了开发人员的学习曲线。其中，HTTP 提供了熟悉的请求-响应模型作为传输层；JSON-RPC 实现了标准化方法调用，用于结构化通信；而 Server-Sent Events (SSE) 则促进了实时、单向的通信流，用于更新。这种务实的设计理念强调智能集成而非彻底替换。

第三是默认安全。鉴于 AI 代理交互可能涉及敏感数据和关键决策，安全性在 A2A 协议中被视为一项基础设计原则，而非事后考量。它实现了多层安全机制，包括身份验证（加密验证代理身份）、加密（端到端通信保护）和授权（基于代理能力的细粒度访问控制）。

第四是支持长时间运行任务。A2A 原生支持异步、长时间运行的计算过程，这通常是传统通信协议难以处理的。代理可以启动复杂任务，定期检查状态，接收增量更新，并根据中间结果动态调整策略。

最后是模态无关设计。A2A 协议从根本上是模态无关的，以适应 AI 系统的多样性。无论代理是处理文本、分析音频、解释视频，还是处理多模态数据，该协议都提供了一致的通信框架。这确保了专门从事自然语言处理的代理可以与计算机视觉代理无缝协作，打破了传统的技术壁垒。

1.4. A2A 与 MCP：AI 生态系统中的互补力量

尽管 A2A 和模型上下文协议（MCP）对于 AI 互操作性都至关重要，但它们解决了代理系统中不同但互补的挑战。

模型上下文协议（MCP）：LLM-工具交互的基础。 MCP 由 Anthropic 开发，旨在将代理与结构化工具和外部资源连接起来。它定义了应用程序如何构建和解释与模型上下文的交互，使基于 LLM 的应用程序能够访问各种工具、服务和数据源。MCP 专注于通过提供来自不同来源的上下文相关信息来增强单个代理在推理过程中的能力。它是“连接模型与工具的粘合剂”。可以将其比作 MCP 确保每个“机械师”（代理）都能可靠地使用他们的“工具”（扭矩扳手、诊断平板电脑）。

Agent2Agent (A2A)：代理生态系统的协议。 A2A 旨在使智能代理作为自主对等体进行协作。它定义了代理如何相互发现、协商任务、交换消息以及跨系统协调行动。A2A 实现了多代理工作流、协调和委派，允许数字助理在没有人为干预的情况下协调任务、共享上下文和调整行为。可以将其比作 A2A 协议让这些“机械师”能够相互交流、委派任务并同步工作。

互补而非竞争。 Google 明确指出“A2A ❤️ MCP”，强调它们之间的协同关系。它们并非竞争标准，而是可扩展代理系统中的互补层。MCP 提供垂直集成（代理到环境），而 A2A 提供水平集成（代理到代理）。一个代理可以使用 MCP 获取数据或执行工具，然后通过 A2A 将结果共享或将后续操作委派给另一个代理。在一个工作流中，一个代理可能同时充当 A2A 客户端、A2A 服务器和 MCP 用户。

A2A 和 MCP 之间这种清晰的区分和互补性，标志着 AI 领域架构模式的日益成熟。MCP 处理“垂直”交互（代理到工具/数据），使代理“有能力”，而 A2A 处理“水平”交互（代理到代理），使代理“协作”。这种职责分离，即“每一层都做好一件事”，是健壮、可扩展软件设计的标志（例如，OSI 模型、微服务）。“AI 的下一次飞跃将不会由一个更智能的模型驱动，而是由一个更智能的模型系统驱动，它们能够有效、高效地相互通信和协作”的说法直接支持了这一点。这种分层架构方法意味着未来的复杂 AI 系统将由专业化代理组成，每个代理根据其交互需求利用适当的协议。它将 AI 开发从单一模型或简单 API 调用转向更复杂、分布式的“系统之系统”范式，要求开发人员理解这些协议如何协同工作。

特性/关注点	A2A (Agent-to-Agent)	MCP (Model Context Protocol)
主要目标	实现代理间任务交换	使 LLM 能够访问外部工具或上下文
设计用途	自主代理间的通信	增强推理过程中单代理的能力
关注点	多代理工作流、协调、委派	动态工具使用、上下文增强
执行模型	代理发送/接收任务和工件	LLM 在推理过程中选择并执行工具
安全方法	OAuth 2.0、API 密钥、声明式作用域	在应用程序集成层处理
开发人员角色	构建通过终结点公开任务和工件的代理	定义模型可使用的结构化工具和上下文
生态系统伙伴	Google、Salesforce、SAP、LangChain 等	Anthropic，工具型 LLM UI 中新兴采用
集成类型	水平集成：连接不同的、独立的代理跨各种系统	垂直集成：将应用程序（及其 AI 模型）与所需的工具和数据深度连接