采用模型上下文协议和 AIStor 的代理人工智能
与众多竞争对手相比,Anthropic 的模型上下文协议 (MCP) 代表了 Agentic AI 工具的独特方法。MCP 并非构建框架(调用代码的软件)或库(代码可调用的软件),而是专注于代理不同部分之间相互通信所需的协议。这样做的优势在于,代理的各个部分可以跨越不同的环境甚至组织边界进行通信,从而实现跨组织协调。
软件行业的另一个重要发展是,全球非结构化数据量正以前所未有的速度增长。这是因为宇宙本质上是非结构化的——它本身没有任何结构化——数据无法被传感器捕获,也无法被我们的感官感知为组织有序、可赋予精确数据类型的表格、行和列。随着技术的进步,我们越来越有能力捕获越来越多代表我们周围世界的非结构化数据。反过来,这些数据又正在彻底改变软件系统的功能。在过去,传统的软件系统仅使用结构化数据来自动执行重复性任务。如今,现代系统还可以利用非结构化数据来训练模型,这些模型可以进行预测(传统人工智能)、生成新数据(生成式人工智能),并可能基于这些数据采取行动(代理式人工智能)。
本文探讨如何将基于协议的代理工具包与用于存储全球数据的 AIStor 相结合,构建超越生成式 AI 能力的代理。由于代理式 AI 建立在生成式 AI 的能力之上,因此我们首先对生成式 AI 和代理式 AI 进行简要比较。
生成式人工智能与代理式人工智能的比较
生成式人工智能利用采用“零样本提示”的大型语言模型 (LLM)。换句话说,要求 LLM 仅使用“首要”信息或可从参数记忆中轻松获取的信息尽快创建响应。例如,假设你向 LLM 发送一个问题。本质上,你要求 LLM 执行以下操作:“请一次性从头到尾回答我的问题,不要使用退格键、删除键或箭头键返回并重做任何部分。不要将我的问题分解成更小的任务,也不要检查你的答案是否准确。” 零样本提示有时被称为要求 LLM 快速思考。
令人惊讶的是,法学硕士(LLM)能够使用零样本提示生成连贯且有条理的回答,因为他们是机器。如果人类大脑试图以这种方式交流,结果将是一连串毫无意义的词语。想想你回答问题时的思维过程。你会发现自己会把原始问题分解成更容易回答的小问题,然后把所有答案放在一起形成原始问题的答案,然后在开口说话之前,你会回顾答案,并可能对其进行修改。所有人类都是这样思考的——没有人聪明到能够以零样本的方式运作,并得出与经过计划和修改的答案一样好的结果。
Agentic AI 是一种利用 LLM 掌握组织数据的全面知识,使其能够构建和执行超越零样本提示所需的逻辑的方法。这可以通过向已根据组织专有数据和业务逻辑进行微调的 LLM 提供“少量样本”提示来实现。以下是一个“少量样本”提示的示例,它回答了之前提出的相同假设问题。这也被称为让 LLM 慢慢思考。
小样本提示示例:
1、将我的问题分解成更小的问题。
2、为每个较小的问题写一份答复草稿。
3、考虑需要修改或更多研究的小问题。
4、您需要任何额外的研究吗?
5、修改你的答案。
6、把所有东西放在一起。
7、审查您的最终答复。
上述任务的假设是,较小的问题可以与控制 LLM 所感知的内部工具配对,并且响应(或答案)会附带确定性等级,以表明该工具对答案的信心程度。上述流程通常分为控制平面(控制 LLM)和工具平面(进一步培训控制 LLM 完成当前任务所需的附加工具)。有关其工作原理的更多信息,请参阅《架构师指南:理解代理人工智能》。控制平面和工具平面的逻辑图如下所示。
接下来,让我们看看标准协议对于连接代理的不同移动部件的优势。
与 MCP 的互操作性
上图所示的基于协议的连接控制平面和工具平面的一个优势是互操作性。同一组织内的团队可以在工具平面中重用以不同编程语言编写并在不同环境中运行的工具。这类似于分布式计算的早期阶段,组件只有使用相同的编程语言实现才能相互通信。例如,Java 组件可以与另一个 Java 组件通信,但 Java 组件不能与 C# 组件通信。换句话说,发送方和接收方只有使用相同的编程语言编写才能相互理解。最终,业界将 REST 标准化为表示数据和操作请求的方式。采用 REST 的组件变成了服务。如今,用任何语言编写的服务都可以与任何其他服务通信。MCP 将为代理 AI 提供同样的好处。(MCP 实际上是 REST 的一种变体。)无论实现细节和运行时环境如何,控制平面和工具平面中的服务都可以互操作。
如上所述,基于协议的方法的另一个好处是可以实现开源工具库。Anthropic 已经通过其MCP 服务器开源库开启了这一先河。此 GitHub 库中列出的所有工具都可以参与代理工作流。如果其他组织创建额外的 MCP 服务器库,那么所有服务器,无论来自何处,都将能够相互操作。
解锁非结构化数据中的知识
非结构化数据是训练构成控制平面的 LLM 以及工具平面中所有用作服务的模型的基础。代理需要在未明确标记或结构化的环境中进行规划、推理、学习和行动。以下按数据集类型和用例对非结构化数据在代理 AI 中的应用进行了细分:
数据集类型 | 代理用例 |
---|---|
电子邮件和短信 | 上下文建模、情绪分析、偏好学习 |
图片(截图、照片) | 导航、物体识别 |
文件(专有知识) | 生成特定领域的响应 |
视频(教程、会议、演示) | 专有信息的实时更新 |
音频(通话、语音备忘录) | 语音理解、意图检测 |
源代码(片段、存储库) | 生成代码 |
服务描述(Swagger 文件) | 规划、特定领域的行动以及收集其他信息 |
可能性的艺术
Agentic AI 利用人工智能实现传统软件无法实现的自动化。设想一个工厂代理,负责管理工厂设备、产品质量和客户沟通。以下是该工厂代理可以执行的一些任务:
- 在产品从装配线上下来时扫描产品图像,寻找缺陷。
- 有缺陷的产品被转移,因此不会发送给客户,从而引起不满。
- 对于已知问题,工厂代理会与设备交互并采取直接措施,调整设备设置以解决问题。这是一项“慢思考”的任务。可能有很多操作可供选择,这些操作可能需要以独特的方式组合起来才能解决当前问题。
- 对于工厂代理无法解决的问题,故障设备会被关闭,并向人工维修人员发送通知。这是“缓慢思考”的另一个例子,工厂代理必须知道它对自己的选择缺乏信心。
- 由于停机成本高昂,零件达到一定使用寿命后,即使没有出现故障,也通常会进行更换。工厂代理会跟踪所有设备中每个零件的使用寿命,从而有效地安排停机时间和人力资源。(这又是另一项需要思考和时间的慢工出细活。)
- 当产品下线时,工厂代理会向客户发送电子邮件,告知他们订单正在运送途中。
结论
Anthropic 的模型上下文协议 (MCP) 和非结构化数据的爆炸式增长,为 AI 代理的蓬勃发展创造了绝佳条件。MCP 的互操作性将允许代理服务以使用特定编程语言的框架和库无法实现的方式进行连接。互操作性还将促进服务的开源存储库。同时,非结构化数据的公开使新知识能够流入代理工作流程。AIStor 的存储功能使组织能够快速启动并随着需求的增长进行扩展。