【多智能体】基于嵌套进化算法的多代理工作流
😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体
等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:EvoFlow: Evolving Diverse Agentic Workflows On The Fly
💻时间:202502
💭推荐指数:🌟🌟🌟🌟🌟
往期精彩专栏内容,欢迎订阅:
🔗【多智能体】20250610:受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体
创新性
- 范式转变:首次明确将代理工作流程自动化表述为成本效益驱动的多目标优化问题,强调了LLM异质性和复杂性多样性在多智能体系统发展中的关键作用。
- 实用解决方案:提出了一种基于生态位进化算法的框架EvoFlow,能够在各种任务领域中自动演化出异质且复杂性自适应的代理工作流程,最小化人为干预。
- 实证评估:在七个基准测试上的广泛实验表明,EvoFlow具有多样性、高性能和经济性,优于之前的手工制作和自动化工作流程。
- 多样性演化:能够演化出从简单I/O任务到复杂多轮交互的工作流程群体。
- 性能提升:在六个基准测试中,EvoFlow的性能比现有的手工设计或自动化工作流程提高了1.23%到29.86%。
- 经济性:训练成本仅为SOTA基线AFlow的1/3,推理成本仅为AFlow的1/5,同时在MATH基准上超越了AFlow 5.91%。
补充这里可能会存在的疑点
EvoFlow在处理多目标优化问题时是如何定义其优化目标的?
EvoFlow的多目标优化目标是通过平衡成本和性能来生成的。具体来说,EvoFlow的优化目标函数定义为: G ⋆ = arg max G ∈ H ( I , E o ) [ u ( G , T ) , − c ( G , T ) ] ⊤ , \mathcal{G}^{\star}=\underset{\mathcal{G}\in\mathcal{H}(\mathcal{I},\mathcal{E}^{o})}{\arg\max}\left[u(\mathcal{G},T),-c(\mathcal{G},T)\right]^{\top}, G⋆=G∈H(I,Eo)argmax[u(G,T),−c(G,T)]⊤,
其中, u ( ⋅ ) u(\cdot) u(⋅)表示任务领域的性能评估函数, c ( ⋅ ) c(\cdot) c(⋅)表示系统成本的评估函数。
这个目标函数表示在寻找一个工作流集合 G ⋆ \mathcal{G}^{\star} G⋆,使得在性能和成本之间达到最佳平衡。具体来说, G ⋆ \mathcal{G}^{\star} G⋆包括一组非支配的工作流,这些工作流在目标空间中分布均匀,并且位于帕累托前沿(Pareto front)附近。
EvoFlow在实验中是如何设置初始工作流种群的?
EvoFlow的初始工作流种群是通过选择一个包含多种强大单代理和多代理结构的篮子来初始化的。这些结构包括CoT(Chain-of-Thought)、Ensemble、Self-Reflexion、Multi-agent
Debate等。具体初始化过程如下:
- 从操作符节点池 O ( 0 ) \mathcal{O}^{(0)} O(0)中选择多个操作符模板,并从LLM池 M \mathcal{M} M中随机抽样LLM实例和提示。
- 将选定的操作符模板实例化,生成初始工作流个体 G k \mathcal{G}_{k} Gk,并为其分配多个效用指示标签,这些标签反映了工作流在特定任务领域的专长。
- 通过上述步骤生成初始工作流种群 P ( 0 ) P^{(0)} P(0),并为其分配多个效用指示标签,以便快速匹配用户查询和相关工作流。
EvoFlow在进化过程中如何利用小生境选择机制来维持种群的多样性和质量?
具体步骤如下:
- 对于每个新个体 G ⊙ ( t ) \mathcal{G}_{\odot}^{(t)} G⊙(t),计算其在成本和效用标签上的排名,以确定其所属的小生境区域 P N A P^{NA} PNA。
- 在小生境区域内执行查询,记录每个个体在处理查询时的累计成本和性能。
- 计算每个个体在小生境区域内的适应度值 F ( G ) \mathcal{F}(\mathcal{G}) F(G),适应度值较低的个体被认为更优。
- 在小生境区域内执行选择操作,淘汰适应度值最低的个体 G worst \mathcal{G}^{\text{worst}} Gworst,并将
其他个体(包括父代、后代和新个体)更新到种群中。
通过这种方式,EvoFlow能够在保持种群多样性的同时,逐步进化出高性能的工作流。
研究背景
- 研究问题:这篇文章要解决的问题是如何自动优化一组异构且复杂度自适应的智能工作流程,以提供多样化的解决方案。现有的自动化管道通常缺乏LLM异质性和复杂性调度,限制了它们结合较弱模型以实现更定制化和成本效益解决方案的潜力。
- 研究难点:该问题的研究难点包括:如何在多目标优化中平衡成本和性能;如何在大规模搜索空间中找到高效的进化算法;如何在保持种群多样性的同时提高进化效率。
- 相关工作:该问题的研究相关工作包括早期的手动配置工作流(如CAMEL、AutoGen、MetaGPT),以及后续显著减少人类干预的工作流(如DsPy、GPTSwarm、EvoAgent)。最近的研究表明,这些自动化管道能够开发出惊人且强大的智能工作流,标志着向完全自主智能代理AI的重大进步。然而,这些管道仍然缺乏LLM异质性和复杂性多样性。
研究方法
这篇论文提出了EvoFlow,一种基于小生境进化算法的框架,用于自动搜索异构且复杂度自适应的智能工作流程。具体来说,
- 标签检索:首先,EvoFlow通过标签检索从代理种群中提取父工作流程。标签是通过LLM生成的,反映了工作流程的任务领域专长。
- 交叉和变异:然后,EvoFlow通过交叉和变异操作进化新工作流程。交叉操作在选定的父工作流程之间进行,变异操作包括LLM/提示/操作符变异,以提高后代的多样性。
- 小生境选择:最后,EvoFlow利用小生境选择机制维持种群的多样性和质量。小生境选择通过计算每个个体在成本和效用标签上的排名来确定小生境区域,并在该区域内执行查询。
公式解释:
- 调用节点 I i I_{i} Ii 的定义: I i = ( M i , P i , τ i ) , , P i ∈ P , τ i ∈ [ 0 , 1 ] , I_{i}=(M_{i},P_{i},\tau_{i}),,P_{i}\in\mathcal{P},\tau_{i}\in[0,1], Ii=(Mi,Pi,τi),,Pi∈P,τi∈[0,1],其中 P i P_{i} Pi 表示关联的提示, P \mathcal{P} P 表示可行的提示空间, τ i \tau_{i} τi 是温度参数。 M i M_{i} Mi 表示从可行模型池 M \mathcal{M} M 中选择的LLM实例。
- 操作符节点 O j O_{j} Oj 的定义: O j = ( I j o , E j o ) , I j o = I 1 , … , I n , E j o ⊆ I j o × I j o , O_{j}=(\mathcal{I}{j}^{o},\mathcal{E}{j}^{o}),\mathcal{I} {j}^{o}={I{1},\ldots,I_{n}},\mathcal{E}{j}^{o}\subseteq\mathcal{I}{j}^{o}\times\mathcal{I}{j}^{o}, Oj=(Ijo,Ejo),Ijo=I1,…,In,Ejo⊆Ijo×Ijo,其中 I j o \mathcal{I}{j}^{o} Ijo 是选定的调用节点集合, E j o \mathcal{E}_{j}^{o} Ejo表示调用节点之间的连接关系。
- 工作流 G \mathcal{G} G 的定义:KaTeX parse error: Expected '}', got '\right' at position 91: …_1,\ldots, O_ m\̲r̲i̲g̲h̲t̲},\mathcal{E}^a…
其中 O S \mathcal{O}^S OS 是操作符节点的子集, E a / E o \mathcal{E}^a/\mathcal{E}^{o} Ea/Eo表示操作符节点内部/之间的连接。 - EvoFlow的多目标优化目标: G ⋆ = arg m a x G ∈ H ( I , E o ) [ u ( G , T ) , − c ( G , T ) ] ⊤ , \mathcal{G}^{\star}=\underset{\mathcal{G}\in\mathcal{H}(\mathcal{I},\mathcal{E}^{o})}{\arg\ max}\left[u(\mathcal{G},T),-c(\mathcal{G},T)\right]^{\top}, G⋆=G∈H(I,Eo)arg max[u(G,T),−c(G,T)]⊤,其中 u ( ⋅ ) u(\cdot) u(⋅)表示任务领域的性能评估函数, c ( ⋅ ) c(\cdot) c(⋅) 表示系统成本的评估函数, G ⋆ \mathcal{G}^{\star} G⋆表示平衡成本和性能的帕累托最优工作流集合。
实验设计
- 任务和基准:实验在六个公共基准上进行,涵盖四个领域:数学推理(GSM8K、MATH、MultiArith)、代码生成(HumanEval、MBPP)、具身智能(ALFWorld)。对于MATH基准,选择了难度为5的617个问题。
- 基线:比较了EvoFlow与手工设计的工作流(如Chain-of-Thought、ComplexCoT)和自动化工作
流(如GPTSwarm、ADAS)。 - LLM骨干网络:使用了四个开源模型(llama-3.1-70b、Qwen-2.5-72b、Deepseek-V2.5、Hermes-3-70b)和一个闭源模型(gpt-4o-mini-0718)。
- 参数配置:选择了七个操作符来初始化操作符节点的可行空间,种群大小为15,效用标签数量为5。
结果与分析
- 同质性能:在六个基准上,EvoFlow的性能均优于现有的手工设计或自动化工作流。例如,在MATH基准上,EvoFlow比vanilla gpt-4o-mini提高了11.41%,比最先进的AFlow提高了6.42%。
- 异质性能:在异质设置中,EvoFlow通过优化四个开源模型,整体成本仅为ol-preview的12.4%。例如,在MATH基准上,EvoFlow比ol-preview提高了2.7%。
- 跨域性能:在跨域优化设置中,EvoFlow通过在MBPP数据集上的优化,提高了从87.62%到88.35%的性能,证明了其在不同领域间的优化能力。
总体结论
这篇论文提出了一种新的范式,将自主多代理工作流搜索从单目标优化转向成本效益驱动的多目标优
化。通过基于小生境的进化算法,EvoFlow能够自动进化出异构且复杂度自适应的智能工作流。广泛的实验结果表明,EvoFlow在性能上有显著提升,同时在成本上具有显著优势。
📌 [ 笔者 ] 文艺倾年
📃 [ 更新 ] 2025.6.11
❌ [ 勘误 ] /* 暂无 */
📜 [ 声明 ] 由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!