AI产品经理学习笔记3 - Agent认知与原理分析
Agent:智能体
一、agent认知与原理分析
1.1 Agents是什么:
大语言横型可以接受输入,可以分析&推理、可以输出文字、代码、媒体。然而,其无法像人类一样,拥有规划思考能力、运用各种工具与物理世界互动,以及拥有人类的记忆能力。
Al Agents是基于LLM的能够自主理解、自主规划决策、执行复杂任务的智能体。
Agent的设计目的是为了处理那些简单的语言模型可能无法直接解决的问题,尤其是当这些任务涉及到多个步骤或者需要外部数据源的情况。
LLM:接受输入、思考、输出
人类:LLM(接受输入、思考、输出) + 记忆 + 工具 + 规划 -------> Agents
1.2 Agent流程图(配有图):
**规划(Planning):**智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。
**记忆(Memory):**短期记忆,是指在执行任务的过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空。长期记忆是长时间保留的信息,一般是指外部知识库,通常用向量数据库来存储和检索。
**工具使用(Tools):**为智能体配备工具 API,比如:计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具API,智能体就可以是物理世界交互,解决实际的问题。
**执行(Action):**根据规划和记忆来实施具体行动,这可能会涉及到与外部世界的互动或通过工具来完成任务
1.3 Agent决策流程(配有图)
场景:假设我们有一个智能家居系统,它的任务是根据家庭成员的需求调节室内环境,比如温度和灯光。
1、感知(Perception):
- 家庭成员通过语音助手说:“我感觉有点冷,能不能把温度调高一些?”
- 智能家居系统通过语音识别和情感分析技术“感知"到用户觉得房间温度太低,需要提高温度。
2、规划(Planning):
- 系统根据用户的需求,规划出下一步的行动,决定如何调节房间温度。
- 系统可能会制定以下计划:
1、检查当前的室内温度。
2、根据用户的偏好和当前温度决定升高几度合适。
3、调整温度设置,并告知用户。
3、行动(Action):
- 系统执行计划的行动,首先检查当前温度,例如发现室温度20度。
- 根据用户的偏好,将温度调高至23度,并通过语音助手反馈给用户:“我已经将温度调高到23度,请你稍等,温度将逐渐上升。”
4、观察(Observation):
- 系统观察房间温度的变化,以及用户的反馈。如果用户在几分钟后再次说“现在温度刚刚好”,系统会感知到环境调节成功。
- 如果用户还觉得冷,系统可能会调整计划,进一步调高温度。
上述步骤循环执行
- 在每个阶段,智能家居系统都可能根据环境变化和用户反馈调整操作。例如,如果调高温度后用户依然觉得冷,系统会重新规划,进一步调整温度设置。
- 通过这一系列的感知、规划、行动和观察,智能家居系统能够动态响应家庭成员的需求,不断调整室内环境,直到用户感觉舒适为止。
1.4 Agent组件详解
1.4.1 规划(Planing)
规划,可以为理解观察和思考,如果用人类来类比,当我们接到一个任务,我们的思维模式可能会像下面这样:
1、首先会思考怎么完成这个任务。
2、然后审视手头上所拥有的工具,以及如何使用这些工具高效地达成目的。
3、再会把任务拆分成子任务。(就像咱们做思维导图一样。)
4、在执行任务的时候,我们会对执行过程进行反思和完善,吸取教训以完善未来的步骤。
5、执行过程中思考任务何时可以终止。
这是人类的规划能力,我们希望智能体也拥有这样的思维模式,因此可以通过LLM提示工程,为智能体赋予这样的思维模式。在智能体中,最重要的是让LLM具备这以下两个能力:
1、子任务分解
通过LLM使得智能体可以把大型任务分解为更小的,更可控的子任务,从而能够有效完成复杂的任务。
思维链(Chain of Thought, CoT)
思维链已经是一种比较标准的提示技术,能显著提升LLM完成复杂任务的效果。当我们对LLM这样要求【think step by step】,会发现LLM会把问题分解成多个步骤,一步一步思考和解决,能使得输出的结果更加准确。这是一种线性的思维方式。
思维树(Tree - of - thought, ToT)
对CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS)等算法来探索思维树,并进行前瞻和回溯。
2、反思与改进
Agent对过去的行动进行自我批评和反思,从错误中学习并改进未来的步骤,从而提高最终结果的质量。
在实际任务中,试错是不可避免的,而自我反思在这个过程中起着至关重要的作用。它允许Agent通过改进过去的行动决策和纠正以前的错误来进行迭代改进。
反思是Agent对事情进行更高层次、更抽象思考的结果,反思是周期性生成的,当Agent感知到最新事件的重要性评分之和超过一定阈值时,就会生成反思。这可以类比为我们常用的成语“三思而后行”,做重大决策的时候,我们会反思自己先前的决策。
1.4.2 记忆(Memory)
生活中的记忆机制:
- 感觉记忆(Sensory Memory):这是记忆的最早阶段,提供在原始刺激结束后保留感官信息(视觉、听觉等)的印象能力,感觉记忆通常只持续几秒钟。
- 短期记忆(或工作记忆):这是一种持续时间较短的记忆,能够暂时存储和处理有限数量的信息。例如,记住一个电话号码直到拨打完毕。
- 长期记忆:这是一种持续时间较长的记忆,可以存储大量信息,从几分钟到一生。长期记忆可以进一步分为显性记忆和隐性记忆。
- 显性记忆:可以有意识地回忆和表达的信息,显性记忆又可以分为情景记忆(个人经历的具体事件)和语义记忆(一般知识和概念)。
- 隐性记忆:这种记忆通常是无意识的,涉及技能和习惯,如骑自行车或打字。
智能体中的记忆机制:
- 形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为“记忆”的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆。
- 短期记忆:在当前任务执行过程中所产生的信息,比如某个工具或某个子任务执行的结果,会写入短期记忆中。记忆在当前任务过程中产生和暂存,在任务完结后被清空。
- 长期记忆:长期记忆是长时间保留的信息。一般是指外部知识库,通常用向量数据库来存储和检索。
1.4.3 工具(Tools/Toolkits)
Agent可以通过学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。这对于预训练后难以修改的模型权重来说是非常重要的。
掌握使用工具是人类最独特和重要的物质之一。我们通过创造、修改和利用外部工具来突破我们身体和认知的限制。同样地,我们也可以为语言模型(LLM)提供外部工具来显著提升其能力。