Gartner《Emerging Patterns for Building LLM-Based AIAgents》学习心得
一、AI代理概述
2024年,AI代理成为市场热点,它们能自主规划和行动以实现用户目标,与仅能感知、决策、行动和达成目标的AI助手及聊天机器人有本质区别。Gartner定义的AI代理是使用AI技术在数字或物理环境中自主或半自主运行的软件实体。
二、LLM基础AI代理的特性和挑战
-
优势 :LLM基础AI代理结合软件编排和基于语言或多模态基础模型,可实现规划、行动、工具选择等功能,是更成熟的AI代理替代方案。
-
风险 :许多高级代理模式在企业环境中未经验证,存在原型和概念验证解决方案遇阻、无法生产部署的风险。
三、LLM基础AI代理软件架构
架构概述
LLM基础AI代理的软件架构主要协调以下组件之间的交互:
-
输入接口:包括用户或其他系统组件。
-
一个或多个LLM:用于处理输入并生成输出。
-
“记忆”(持久状态):用于存储和检索信息。
-
外部接口:如工具和其他代理。
-
该架构通过以下步骤实现代理的功能:
-
输入整合:将输入、从记忆中检索的上下文和工具定义整合成一个提示(prompt)。
-
LLM处理:提示被LLM处理,生成输出,包括工具或函数调用请求。
-
工具调用与信息更新:调用工具并将返回的信息添加到提示上下文中。
-
循环处理或结果生成:新的提示再次被LLM处理,可能继续循环或返回结果(如生成的输出或处理成功的确认)。
架构的简化表示
文中通过一个简化图示(Figure 1)展示了LLM基础AI代理的架构。该图示有助于理解代理如何与用户、工具和其他代理进行交互,以及如何在代理内部处理信息。
架构的核心特点
-
核心简单性:尽管架构在核心上相对简单,但在实际应用中仍需解决许多问题,以创建有效的解决方案。
-
编排管理:开发LLM基础代理的工具和框架通常管理这种编排过程,从而简化开发工作和复杂性。