当前位置: 首页 > news >正文

AI Agents执行流程和决策流程学习

文章目录

  • 参考资料
  • Agents简介
  • Agents执行流程
  • Agent决策流程
    • 规划(Planing)
      • 子任务分解
    • 记忆(Memory)
    • 工具使用(Tools/Toolkits)
    • 思考并自我反思(Thinking and Self-Refection)

参考资料

  • Agent学习视频

Agents简介

  • 大语言模型,可以分析&推理,可以输出文字、代码、媒体,但是,无法像人类一样拥有规划思考、运行各种工具与物理世界互动的能力。
  • AI Agents是基于LLM能够自主理解、自主规划决策、执行复杂任务的智能体。Agent的设计目的是处理多步骤或需要外部数据源的复杂任务。
  • LLM:接受输入、思考、输出。Agents:LLM(输入、思考、输出)+记忆+工具+规划。

Agents执行流程

  • Agents流程图:
    在这里插入图片描述
  • 规划(Planning):智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。
  • 记忆(Memory):记忆分为短期记忆和长期记忆。短期记忆,是指在执行任务的过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空;长期记忆是长时间保留的信息,一般是指外部知识库,通常用向量数据库来存储和检索。
  • 工具使用(Tools):为智能体配备工具API,比如:计算器、搜索工具、代码执行器、数据库查询工具等。智能体可以借助工具与物理世界交互,解决实际的问题。
  • 执行(Action):根据规划和记忆来实施具体行动,涉及与外部世界的互动或通过工具来完成任务。

Agent决策流程

在这里插入图片描述

  • 场景:假设有一个智能家居系统,他的任务是根据家庭成员的需求调节室内环境,比如温度和灯光。Agent在该场景中的决策流程如下:
  1. 感知(Perception):家庭成员对语音助手说:“我感觉有点冷,能不能把温度调高一些?”。智能家居系统通过语音识别和情感分析技术“感知”到用户觉得房间温度太低,需要提高温度。
  2. 规划(Planning):系统根据用户的需求,规划出下一步行动,决定如何调节房间温度。系统可能会制定以下的计划:
    1. 检查当前的室内温度
    2. 根据用户的偏好和当前温度决定升高几度合适
    3. 调整温度设置,并通知用户
  3. 行动(Action):系统执行计划的行动,首先检查当前温度,如发现温度为20℃。根据用户偏好,将温度提高到23℃,并通过语音助手反馈给用户:“我已经将温度提高到23℃,请您稍等,温度正在逐渐上升。”
  4. 观察(Observation):系统观察房间温度变化和用户的反馈。如果用户几分钟后说“现在温度可以”,系统会感知到温度调节成功。如果用户还觉得冷,系统可能会调整计划,进一步提高温度。
  • 循环执行:在每个阶段,智能家居系统都可以更具环境变化和用户反馈调整操作。例如,如果调高温度后用户依旧觉得冷,系统可能重新规划,进一步调整温度设置。通过一系列的感知、规划、行动、观察,智能家居系统能够动态响应用户的需求,不断调整室内环境、直到用户感到属实为止。

规划(Planing)

  • 规划可以理解为观察和思考。例如,当我们开始一个任务的时候,我们的思维模式可能如下:
  1. 首先思考如何完成这个任务
  2. 然后审视手头的工具和计划使用的方法
  3. 如果任务复杂,我们回答任务进行拆分和规划
  4. 接着在执行任务的过程中,我们会对执行过程进行反思和完善,吸取教训完善后续的步骤
  • 基于人类的规划能力,智能体可以通过LLM的提供工程,为智能体赋予这样的思维能力。在智能体中,最重要的是让LLM具备如下两个能力:子任务分解、反思与改进

子任务分解

  • 通过LLM可以使智能体把大型任务拆分为更小的、更可控的子任务,从而有效完成复杂任务。
  1. 思维链(Chain of Thoughts/COT):思维链是一种比较标准的提示技术,能显著提升LLM完成复杂能力的效果。当我们对LLM要求一步一步思考时,LLM会把问题分解为多个步骤,一步一步思考和解决,使输出的结果更为准确。
  2. 思维树(Tree-of-thought/ToT):对CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。使用启发式方法评估每个推理分支对问题解决的贡献。选择搜索算法,使用广度优先搜索(BFS)或深度优先搜索(DFS等算法来探索思维树,并进行前瞻和回溯。
    在这里插入图片描述

记忆(Memory)

  • 生活中的记忆机制
    • 瞬时记忆:记忆的最早阶段,提供在原始刺激后保留感觉信息(视觉、听觉)的印象能力。瞬时记忆通常只持续几秒钟。
    • 短期记忆:持续时间较短的记忆,能够暂时存储和处理有限数量的信息。例如,记住快递取件号直到取件完成。
    • 长期记忆:持续时间较长的记忆,可以存储大量信息。长期记忆可以分为显性记忆和隐性记忆。显性记忆,可以有意识地回忆和表达信息。隐性记忆通常是无意识的,设计技能和习惯,如开车和打字。
  • 智能体中的记忆机制
    • 形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为“记忆"的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆
    • 短期记忆:在当前任务执行过程中所产生的信息,比如某个工具或某个子任务执行的结果,会写入短期记忆中。记忆在当前任务过程中产生和暂存,在任务完结后被清空。
    • 长期记忆:长期记忆是长时间保留的信息。一般是指外部知识库,通常用向量数据库来存储和检索。

工具使用(Tools/Toolkits)

  • Agent可以通过学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。
  • 掌握使用工具是人类最独特和重要的特质之一。为语言模型(LLM)提供外部工具来显著提升其能力,通过创造、修改和利用外部工具有助于突破LLM的认知限制。
    在这里插入图片描述

思考并自我反思(Thinking and Self-Refection)

  • 思考并自我反思(Thinking and Self-Refection)框架主要用于模型和实现负责决策过程,通过不断评估和调整,使系统能够学习并改进决策过程,从而在面对复杂问题做出有效决策。
    在这里插入图片描述

相关文章:

  • 多相电机驱动控制学习(1)——基于双dq坐标系的六相PMSM驱动控制
  • 基于物联网(IoT)的电动汽车(EVs)智能诊断
  • Unsupervised Learning-Word Embedding
  • Java-Set集合遍历的全面指南
  • Flink Table API 编程入门实践
  • LVS负载均衡群集
  • 深入剖析Java CompletableFuture:原理、陷阱与高并发场景优化指南
  • IT编程学习资料大全​​​​​​​​
  • 分布式光伏接入引起农村电压越限,如何处理?
  • 人工智能100问☞第34问:什么是语音识别与合成?
  • 网络拓扑如何跨网段访问
  • 基于深度学习的语音识别系统设计与实现
  • 【ASR】基于分块非自回归模型的流式端到端语音识别
  • 二十九、面向对象底层逻辑-SpringMVC九大组件之MultipartResolver接口设计
  • JSON全面解析
  • 体绘制学习
  • P2 C++基础(2.2)
  • Matlab快速上手五十六:详解符号运算里假设的用法,通过假设可以设置符号变量的取值范围,也可以通过假设设置变量属于集合:整数、正数和实数等
  • 让 Deepseek 写一个尺码计算器
  • 鸿蒙OSUniApp 实现自定义的侧边栏菜单组件#三方框架 #Uniapp
  • 音乐网站后台模板/网络营销工具体系
  • 网站建设设计 网络服务/免费网站收录入口
  • 如何对网站做压力测试/长沙网站关键词推广
  • 衡水哪个公司做网站好/网站排名优化师
  • 海口网站制作公司/百度seo排名优化联系方式
  • 建设网站用英文怎么说/长沙哪里有网站推广优化