LLM-Based Agent及其框架学习的学习(三)
文章目录
- 摘要
- Abstract
- 1. 引言
- 2. 推理与规划
- 2.1 推理
- 2.2 规划
- 2.2.1 计划指定
- 2.2.2 计划反思
- 3. 迁移与泛化
- 3.1 未知任务的泛化
- 3.2 情景学习
- 3.3 持续学习
- 4. 学习Crewai和LangGraph
- 4.1 Crewai
- 4.2 LangGraph
- 参考
- 总结
摘要
本文系统阐述了基于大语言模型的智能体在认知架构中的核心能力发展。研究聚焦于推理与规划模块的创新突破,揭示了思维链(CoT)方法通过分步推理生成逻辑依据的增强机制,并对比了分层规划与自适应策略在任务分解中的优劣。规划能力通过"制定-反思"双阶段模型实现动态优化,结合环境反馈与人类交互提升执行精度。在迁移学习方向,文章论证了预训练模型的零样本泛化特性,指出模型规模扩大引发的涌现能力可支持跨领域任务处理,而上下文学习机制通过类比推理显著降低计算成本。针对持续学习中的灾难性遗忘问题,研究提出基于自动课程设计的渐进式技能合成方案,展示了Voyager智能体通过难度梯度任务实现知识累积的实践路径。
Abstract
This paper systematically elaborates on the development of core capabilities of Large Language Model-Based Agents within cognitive architectures. The study focuses on innovative advancements in reasoning and planning modules, highlighting how the Chain-of-Thought (CoT) approach enhances logical inference through step-by-step reasoning. It compares the advantages and disadvantages of hierarchical planning and adaptive strategies in task decomposition. Planning capabilities are dynamically optimized via a two-stage “Formulate-Reflect” model, which integrates environmental feedback and human interaction to improve execution accuracy. In the area of transfer learning, the paper demonstrates the zero-shot generalization capabilities of pretrained models, noting that the emergence of abilities driven by model scaling supports cross-domain task handling. The context learning mechanism significantly reduces computational costs through analogical reasoning. To address the issue of catastrophic forgetting in continual learning, the study proposes a progressive skill composition strategy based on automated curriculum design. It illustrates how the Voyager agent accumulates knowledge through tasks organized by difficulty gradients, offering a practical path toward lifelong learning.
1. 引言
在LLM-Based Agent及其框架学习的学习(二)中探讨了LLM-Based Agent概念框架Brain部分的一些内容——自然语言交互能力和记忆,本文会接着这部分继续探讨Brain部分的推理与规划、迁移与泛化。
2. 推理与规划
2.1 推理
以证据和逻辑为基础的推理是人类智力活动的基础,是解决问题、决策和批判性分析的基石。演绎、归纳和溯因是智力活动中普通认可的主要推理形式。对于基于大语言模型的智能体来说,推理能力对解决复杂任务至关重要。
关于大语言模型的推理能力存在不同的学术观点。一些人认为语言模型在预训练或微调期间具有推理能力,而另一些人则认为它在达到一定规模后才会出现推理能力。具体来说,具有代表性的思维链CoT方法已经被证明可以通过引用大语言模型在输出答案之前生成推理依据来增强大语言模型的推理能力。此外,还有一些其他方法来提升大语言模型的推理能力,如自洽性校验、自我优化、自我修正以及选择性推理等。除此之外,一些研究表明,分步推理的有效性可归因于训练数据的局部统计结构,相较于对所有变量进行训练,变量间局部结构化的依赖关系能带来更高的数据利用效率。
2.2 规划
规划是人类在面对复杂挑战时采用的关键策略。对于人类来说,规划有助于组织思想,设定目标,并确定实现这些目标的步骤。就像人类一样,规划能力对智能体来说也至关重要,而这个规划模块的核心是推理能力。这为LLM-Based Agent提供了结构化的思维过程。通过推理,智能体能将复杂任务分解成更易于管理的子任务,为每个子任务设置合理的计划。此外,随着任务的进展,智能体可以利用自省来修改它们的计划,确保它们更好地与现实世界保持一致,从而使任务顺利执行。
规划包含两个阶段:计划制定和计划反思。
2.2.1 计划指定
在计划制定过程中,智能体通常会将一个总体任务分解成许多子任务,在这一阶段已经提出了各种方法。值得注意的是,一些论文主张LLM-Based Agent一次性分解完问题,随后立即制定完整的计划,然后依次执行计划。与之相反,像CoT系列的其他研究采用了自适应策略,它们一次计划和解决一个子任务,从而在整体处理复杂任务时具有更大的流动性。此外,一些方法强调分层规划,而另一些强调一种策略,在这种策略中,最终的计划是从以树型格式的推理步骤中衍生出来的。后一种方法认为智能体应该在最终确定计划之前评估所有可能的路径。虽然LLM-Based Agent展现出了广泛的知识范围,但它们在处理需要专业知识的情况时偶尔会面临挑战。通过将智能体与特定领域的规划者集成来增强这些智能体已被证明可以产生更好的性能。
2.2.2 计划反思
制定计划后,必须对其优点进行反思和评估。LLM-Based Agent利用内部反馈机制,经常从已有模型中获取见解,以磨练和增强其策略和规划能力。为了更好地与人类的价值观和偏好保持一致,智能体积极地与人类接触,允许它们纠正一些误解,并将这种量身定制的反馈吸收到它们的规划能力中。此外,它们可以从有形或虚拟的环境中获取反馈,比如从任务结果或行动后的观察中获得线索,帮助它们修改和完善计划。
3. 迁移与泛化
智能不应该局限于特定领域或人物,而是包含广泛的认知技能和能力。人类大脑的非凡本质在很大程度上归功于其高度的可塑性和适应性。它可以根据外部刺激和内部需求不断调整其结构和功能,从而适应不同的环境和任务。近年来,大量研究表明,大规模语料库上的预训练模型可以学习通用语言表征。利用预训练模型的力量,只需要少量的数据进行微调,大语言模型就可以在下游任务中表现出优异的性能,而不需要从头开始训练新模型,这节省了大量的计算资源。然而,通过这种针对特定任务的微调,模型缺乏通用性,难以推广到其他任务。不仅仅作为一个静态的知识库,LLM-Based Agent表现出动态学习能力,使他们能够快速和稳健地适应新的任务。
3.1 未知任务的泛化
研究表明,指令调整的大语言模型在不需要特定任务微调的情况下表现零样本泛化能力。随着模型规模和语料库规模的扩大,大语言模型在不熟悉任务中逐渐表现出显著的涌现能力。具体来说,大语言模型可以根据自己的理解,按照指导完成在训练阶段没有遇到的新任务。其中一种实现是多任务学习,例如FLAN在通过指令描述的任务集合上微调语言模型,T0引入了一个统一的框架,将每个语言问题转换为文本到文本的格式。尽管是纯粹的语言模型,GPT-4在各种领域和任务中表现出卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情感等。值得注意的是,提示中的选择对于适当的预测至关重要,直接在提示上进行训练可以提高模型在泛化到未知任务时的鲁棒性。这种泛化能力可以通过扩大模型规模和训练指令的数量或多样性来进一步增强。
3.2 情景学习
大量研究表明,大语言模型可以通过上下文学习来执行各种复杂任务,上下文学习是指模型从上下文中的几个例子中学习的能力。零样本上下文学习通过将原始输入与几个完整的示例拼接起来作为提示来丰富上下文,从而增强了语言模型的预测性能。上下文学习的关键思想是从类比中学习,这与人类的学习过程类似。此外,由于提示是由自然语言编写的,因此这种交互方式具备可解释性和可调整性,从而更容易将人类知识融入到大语言模型。与监督学习过程不同,上下文学习不涉及微调或参数更新,这可以大大降低使模型适应新任务的计算成本。除了文本,研究人员还探索了不同多模态任务中潜在的上下文学习能力,使智能体能够应用于大规模的现实任务。
3.3 持续学习
近期研究强调了大语言模型的规划能力在促进智能体持续学习方面具有巨大潜力——这种学习过程涉及技能的持续获取与更新。持续学习的一个核心挑战是灾难性遗忘,当一个模型学习新的任务时,它往往会失去以前任务中的知识。针对上述挑战,现有研究主要从三大方向展开探索:引入基于先前模型的常规术语[、近似先验数据分布,以及设计具有任务自适应参数的架构。LLM-Based Agent已经称为一种新的范式,利用大语言模型的规划能力并结合现有技能来解决更复杂的挑战。Voyager智能体通过GPT-4设计的自动课程体系,尝试逐步解决难度递增的任务。通过从更简单的程序中合成复杂的技能,智能体不仅可以快速增强其能力,还可以有效地对抗灾难性遗忘。
4. 学习Crewai和LangGraph
4.1 Crewai
Crewai学习进度指路:CrewAI Community Version(三)——Task
4.2 LangGraph
LangGraph学习进度指路:LangGraph(二)——QuickStart样例中的第二步
参考
Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.
总结
LLM-Based Agent通过整合结构化推理与动态适应能力,展现出接近人类认知范式的智能特征。其核心突破体现在:推理能力的可解释性提升、规划过程的多模态反馈融合,以及迁移学习中的资源效率优化。尤其值得注意的是,基于大语言模型的持续学习框架为解决传统机器学习中的稳定性-可塑性困境提供了新思路。这些发现不仅深化了对智能体认知架构的理论认知,更在机器人控制、决策支持系统等领域展现出广阔应用前景。