AI Agents执行流程和决策流程学习
文章目录
- 参考资料
- Agents简介
- Agents执行流程
- Agent决策流程
- 规划(Planing)
- 子任务分解
- 记忆(Memory)
- 工具使用(Tools/Toolkits)
- 思考并自我反思(Thinking and Self-Refection)
参考资料
- Agent学习视频
Agents简介
- 大语言模型,可以分析&推理,可以输出文字、代码、媒体,但是,无法像人类一样拥有规划思考、运行各种工具与物理世界互动的能力。
- AI Agents是基于LLM能够自主理解、自主规划决策、执行复杂任务的智能体。Agent的设计目的是处理多步骤或需要外部数据源的复杂任务。
- LLM:接受输入、思考、输出。Agents:LLM(输入、思考、输出)+记忆+工具+规划。
Agents执行流程
- Agents流程图:
- 规划(Planning):智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。
- 记忆(Memory):记忆分为短期记忆和长期记忆。短期记忆,是指在执行任务的过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空;长期记忆是长时间保留的信息,一般是指外部知识库,通常用向量数据库来存储和检索。
- 工具使用(Tools):为智能体配备工具API,比如:计算器、搜索工具、代码执行器、数据库查询工具等。智能体可以借助工具与物理世界交互,解决实际的问题。
- 执行(Action):根据规划和记忆来实施具体行动,涉及与外部世界的互动或通过工具来完成任务。
Agent决策流程
- 场景:假设有一个智能家居系统,他的任务是根据家庭成员的需求调节室内环境,比如温度和灯光。Agent在该场景中的决策流程如下:
- 感知(Perception):家庭成员对语音助手说:“我感觉有点冷,能不能把温度调高一些?”。智能家居系统通过语音识别和情感分析技术“感知”到用户觉得房间温度太低,需要提高温度。
- 规划(Planning):系统根据用户的需求,规划出下一步行动,决定如何调节房间温度。系统可能会制定以下的计划:
- 检查当前的室内温度
- 根据用户的偏好和当前温度决定升高几度合适
- 调整温度设置,并通知用户
- 行动(Action):系统执行计划的行动,首先检查当前温度,如发现温度为20℃。根据用户偏好,将温度提高到23℃,并通过语音助手反馈给用户:“我已经将温度提高到23℃,请您稍等,温度正在逐渐上升。”
- 观察(Observation):系统观察房间温度变化和用户的反馈。如果用户几分钟后说“现在温度可以”,系统会感知到温度调节成功。如果用户还觉得冷,系统可能会调整计划,进一步提高温度。
- 循环执行:在每个阶段,智能家居系统都可以更具环境变化和用户反馈调整操作。例如,如果调高温度后用户依旧觉得冷,系统可能重新规划,进一步调整温度设置。通过一系列的感知、规划、行动、观察,智能家居系统能够动态响应用户的需求,不断调整室内环境、直到用户感到属实为止。
规划(Planing)
- 规划可以理解为观察和思考。例如,当我们开始一个任务的时候,我们的思维模式可能如下:
- 首先思考如何完成这个任务
- 然后审视手头的工具和计划使用的方法
- 如果任务复杂,我们回答任务进行拆分和规划
- 接着在执行任务的过程中,我们会对执行过程进行反思和完善,吸取教训完善后续的步骤
- 基于人类的规划能力,智能体可以通过LLM的提供工程,为智能体赋予这样的思维能力。在智能体中,最重要的是让LLM具备如下两个能力:子任务分解、反思与改进
子任务分解
- 通过LLM可以使智能体把大型任务拆分为更小的、更可控的子任务,从而有效完成复杂任务。
- 思维链(Chain of Thoughts/COT):思维链是一种比较标准的提示技术,能显著提升LLM完成复杂能力的效果。当我们对LLM要求一步一步思考时,LLM会把问题分解为多个步骤,一步一步思考和解决,使输出的结果更为准确。
- 思维树(Tree-of-thought/ToT):对CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS等算法来探索思维树,并进行前瞻和回溯。
记忆(Memory)
- 生活中的记忆机制
- 瞬时记忆:记忆的最早阶段,提供在原始刺激后保留感觉信息(视觉、听觉)的印象能力。瞬时记忆通常只持续几秒钟。
- 短期记忆:持续时间较短的记忆,能够暂时存储和处理有限数量的信息。例如,记住快递取件号直到取件完成。
- 长期记忆:持续时间较长的记忆,可以存储大量信息。长期记忆可以分为显性记忆和隐性记忆。显性记忆,可以有意识地回忆和表达信息。隐性记忆通常是无意识的,设计技能和习惯,如开车和打字。
- 智能体中的记忆机制
- 形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为“记忆"的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆
- 短期记忆:在当前任务执行过程中所产生的信息,比如某个工具或某个子任务执行的结果,会写入短期记忆中。记忆在当前任务过程中产生和暂存,在任务完结后被清空。
- 长期记忆:长期记忆是长时间保留的信息。一般是指外部知识库,通常用向量数据库来存储和检索。
工具使用(Tools/Toolkits)
- Agent可以通过学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。
- 掌握使用工具是人类最独特和重要的特质之一。为语言模型(LLM)提供外部工具来显著提升其能力,通过创造、修改和利用外部工具有助于突破LLM的认知限制。
思考并自我反思(Thinking and Self-Refection)
- 思考并自我反思(Thinking and Self-Refection)框架主要用于模型和实现负责决策过程,通过不断评估和调整,使系统能够学习并改进决策过程,从而在面对复杂问题做出有效决策。