AI产品经理学习笔记4 - Agent的技术框架
二、agent技术框架
2.1 Plan - and - Execute
计划与执行(Plan - and - Execute)框架侧重于先规划一系列的行动,然后执行。这个框架可以使大模型能够先综合考虑任务的多个方面,然后按照计划进行行动。
应用在比较复杂的项目管理中或者需要多步决策的场景下会比较合适。
简易流程
用户提出问题 -> 进行计划 -> 生成一个任务列表 -> 执行每一个任务(有可能用到外部工具)-> 对每个子任务的返回结果进行状态更新来确保每个子任务被完成 -> 如果每个子任务都完成,就会给出一个答案。如果子任务没有完成,则我们会为这个子任务制定一个新的计划再进行循环。这时候,有可能只会影响到当前任务,也有可能会影响其它的任务,只有当所有任务都完成了,才算是完成。
2.2 Self - Ask
自问自答(Self - Ask)框架这个允许大模型自己提出问题并回答,来增强对问题的理解以提高回答质量,这个框架在需要深入分析或者提供创造性解决方案下可以比较适合,例如创意写作。
2.3 Thinking and Self - Refection
思考并自我反思(Thinking and Self - Refection)框架主要用于模拟和实现复杂决策过程,通过不断自我评估和调整,使系统能够学习并改进决策过程,从而在面对复杂问题可以作出更加有效的决策。
2.4 ReAct框架
是一种用于增强大型语言模型的方法,它通过结合推理(Reasoning)和行动(Acting)来增强推理和决策的效果。
当我们提出一个问题:
除了苹果遥控器,还有哪些设备可以控制苹果遥控器?
-
标准(standard):
直接给出错误的答案 : ipad。没有提供任何推理过程或外部交互,直接给出答案。
-
仅推理(Reason only):
尝试通过逐步推理来解决问题,但没有与外部环境交互来验证信息。错误地推断出答案是iPhone、iPad、iPod、Touch.
错误的答案:iPhone、iPad、iPod、Touch
-
仅行动(Act only):
通过与外部环境(如维基百科)的一系列交互来获取信息,尝试多次搜索,但缺乏推理支持,未能综合这些观察结果后得出正确答案。认为需要结束搜索。
错误的决策:结束搜索
-
ReAct::
组合推理和行动,首先通过推理确定搜索苹果遥控器,并从外部环境中观察结果,随着推理的深入,识别出需要搜索的软件。在几轮交互后,通过进一步推理,准确得出答案“键盘功能键”
正确的答案:键盘功能键。
为什么结合推理和行动,就会有效增强LLM完成任务的能力?
- 仅推理(Reasoning Only):LLM仅仅基于已有的知识进行推理,生成答案回答这个问题。很显然,如果LLM本身不具备这些知识,可能会出现幻觉,胡乱回答一通。
- 仅行动(Acting Only): 大模型不加以推理,仅使用工具搜索这个问题,得出来的将会是海量的资料,不能直接回到这个问题。
- 推理 + 行动(Reasoning and Acting):LLM首先会基于已有的知识,并审视拥有的工具。当发现已有的知识不足以回答这个问题,则会调用工作,比如:搜索工具、生成报告等,然后得到新的信息,基于新的信息重复进行推理和行动,直到完成这个任务。
在langchain使用Agent ,我们重点需要理解下面4个元素。
- LLM:提供逻辑的引擎,负责生成预测和处理输入。
- prompt:负责指导模型,形成推理框架。
- tools:外部工具的使用,包含数据增加、清洗、搜索引擎、api等。
- Agent Executor:负责调用合适的外部工具,并管理整个流程。