【多智能体】受木偶戏启发实现多智能体协作编排
😊你好,我是小航,一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿,包括大模型、具身智能、智能体
等相关领域,期待与你一同探索、学习、进步,一起卷起来叭!
🚩Paper:Multi-Agent Collaboration via Evolving Orchestration
💻时间:202505
💭推荐指数:🌟🌟🌟🌟
往期精彩专栏内容,欢迎订阅:
🔗【多智能体】20250609:基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608:EvoAgent:针对长时程任务具有持续世界模型的自主进化智能体
创新性
- 动态编排:提出了一种集中式的“指挥者”(puppeteer)来动态选择和组织代理(puppets),根据任务状态的演变进行推理。这种编排方式超越了静态的协作模式,提供了灵活且可扩展的代理协调。
- 自适应进化:通过强化学习(RL)不断更新指挥者的策略,利用已完成任务的反馈来优化代理选择。随着时间的推移,指挥者学会了强调强代理轨迹并剪枝不有效的代理,使系统逐步进化到更高的效率和性能。
- 实验验证:在封闭域和开放域场景下的实验表明,该方法在提高解决方案质量的同时减少了计算开销。分析进一步揭示了指挥者演化过程中更紧凑、循环推理结构的涌现是关键改进的根源。
- 统一的框架:提出了一个统一的框架,通过集中式策略动态组织多样化的基于LLM的代理,并通过强化学习不断优化其协作过程。
- 拓扑结构演化:通过动态编排自然地促进了树状结构的交互,支持分支行为和并行路径,增强了系统的可扩展性。演化过程中出现了紧凑和循环的推理结构,显著提升了系统的内部反馈和信息重用效率。
补充这里可能会存在的疑点
论文中提出的动态指挥者是如何实现多代理协作的?其核心机制是什么?
动态指挥者通过一个集中式的指挥者(“木偶师”)来实现多代理协作。指挥者在每个时间步根据当前任务状态动态地选择激活哪个代理进行推理。这个过程被形式化为一个顺序决策问题,生成了一个隐式的推理图,支持灵活且可扩展的代理协调。具体来说,指挥者的选择过程遵循以下公式: a t ∼ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at∼π(St,τ)=P(a∣St,τ)其中, π \pi π是一个将可观测上下文(如当前状态和任务描述)映射到候选代理分布的函数。指挥者根据全局系统状态和任务规范选择代理,代理生成输出并更新系统状态,过程迭代进行,直到满足停止准则。这种机制使得系统能够在任务复杂性和代理数量增加时保持高效的协作和协调开销。
论文中提到的自适应进化是如何通过强化学习优化指挥者策略的?具体优化目标是什么?
自适应进化通过强化学习来优化指挥者的策略,以最大化效率和最小化冗余。具体来说,使用REINFORCE作为底层优化框架,指挥者在每个推理回合后接收联合评估解决方案质量和资源消耗的反馈。优化目标是最大化完整推理轨迹上的期望回报,公式如下: J ( θ ) = E π θ [ R ( τ ) ] , ∇ θ J ( θ ) ≈ 1 N ∑ n = 1 N ( ∑ t = 1 T ∇ θ log π θ ( a t ∣ S t ) ) ⋅ R ( τ ) J(\theta)=E_{\pi_{\theta}}[R(\tau)],\quad\nabla_{\theta} J(\theta)\approx\frac{1}{N}\sum_{n=1}^{N}\left(\sum_{t=1}^{T}\nabla_ {\theta}\log\pi_{\theta}\left(a_{t}\mid S_{t}\right)\right)\cdot R(\tau) J(θ)=Eπθ[R(τ)],∇θJ(θ)≈N1n=1∑N(t=1∑T∇θlogπθ(at∣St))⋅R(τ)其中, R ( τ ) R(\tau) R(τ) 表示轨迹 τ \tau τ 的总奖励, N N N 是样本大小, T T T是总推理步数。通过这种RL驱动的优化,指挥者学会了强调强代理轨迹并剪枝掉较弱的代理,使系统逐步进化到更高的效率和性能。
研究背景
- 研究问题:这篇文章要解决的问题是大型语言模型(LLMs)在复杂问题求解中的可扩展性和效率问题。LLMs的单体性质限制了其在复杂任务中的表现。
- 研究难点:该问题的研究难点包括:如何在任务复杂性和代理数量增加时保持高效的协作和协调开销;如何避免静态组织结构带来的僵化和低效。
- 相关工作:该问题的研究相关工作包括基于静态组织结构的多人协作方法,这些方法在任务多样性和代理数量增加时表现出协调开销大、系统性能下降和效率低下的问题。
研究方法
这篇论文提出了一种基于集中式指挥者的多代理协作范式,用于解决LLMs在复杂问题求解中的可扩展性和效率问题。具体来说,
- 动态指挥者:首先,提出了一个集中式的指挥者(“木偶师”),它根据任务的动态状态动态地指导代理(“木偶”)进行推理。这个过程被形式化为一个顺序决策问题,生成了一个隐式的推理图,支持灵活且可扩展的代理协调。
- 自适应进化:其次,为了最大化效率和最小化冗余,采用了强化学习来连续更新指挥者的策略。通过利用已完成任务的反馈,指挥者学会了强调强代理轨迹并剪枝掉较弱的代理,使系统逐步进化到更高的效率和性能。
- 策略优化:使用REINFORCE作为底层优化框架,系统地优化协作的有效性和效率。优化目标是通过最大化完整推理轨迹上的期望回报来改进指挥者的策略。
- 奖励设计:设计了一个联合考虑解决方案质量和计算效率的奖励函数。通过在每个任务轨迹完成后分配一个终止奖励,鼓励指挥者优先考虑使用令牌消耗少的代理并尽早终止推理。
公式解释:
- 指挥者在每个时间步选择激活一个代理的概率为: a t ∼ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at∼π(St,τ)=P(a∣St,τ)其中, π \pi π是一个将可观测上下文(如当前状态和任务描述)映射到候选代理分布的函数。
- 代理生成输出并更新系统状态为: o t = f a t ( s t ( a t ) , S t ) , S t + 1 = Φ ( S t , o t ) o_{t}=f_{a_{t}}(s_{t}(a_{t}),S_{t}),\quad S_{t+1}=\Phi(S_{t},o_{t}) ot=fat(st(at),St),St+1=Φ(St,ot)
- 过程迭代进行,直到满足停止准则: P ( a t + 1 ∣ S 0 , … , S t + 1 , τ ) = P ( a t + 1 ∣ S t + 1 , τ ) P(a_{t+1}\mid S_{0},\ldots,S_{t+1},\tau)=P(a_{t+1}\mid S_{t+1},\tau) P(at+1∣S0,…,St+1,τ)=P(at+1∣St+1,τ)
- 最终聚合函数结合所有代理的输出生成整体解决方案: o ∗ = F a g g ( o 0 , o 1 , … , o T ) = Φ ( S T , o T ) o^{*}=F_{agg}({o_{0},o_{1},\ldots,o_{T}})=\Phi(S_{T},o_{T}) o∗=Fagg(o0,o1,…,oT)=Φ(ST,oT)
实验设计
为了全面评估所提出的框架,使用了多种公开可用的数据集,涵盖闭域和开域推理任务。
- 闭域任务:包括GSM-Hard和MMLU-Pro,分别涉及复杂的算术问题和多样化的学科知识。评估指标为准确性。
- 开域任务:包括SRDD和CommonGen-Hard,分别涉及软件开发和常识推理。评估指标包括完整性、可执行性和一致性。
- 基线方法:为了评估方法的适应性,将代理池划分为Mimas子空间(小型模型)和Titan子空间(大型模型),并选择了多种代表性的基线方法,包括纯模型、单代理方法和多代理方法。
结果与分析
- 性能提升:在所有评估的任务中,Puppeteer在进化阶段始终表现出优越的平均性能。与使用相同基础模型的其他代理工作流程和多代理基线方法相比,Puppeteer-Mono在几乎所有评估任务中都表现出色。
- 效率提升:系统的性能提升并未带来计算开销的增加。通过调整奖励设计中的权重因子 λ \lambda λ,可以在不同应用需求之间实现可适应的权衡。
- 组织拓扑进化:指挥者的动态指挥促进了树状、图状和循环状的交互结构。随着时间的推移,系统从松散的探索性交互模式转变为紧密协调的专门集体。
- 紧凑性和循环性:优化过程中出现了显著的紧凑性和循环性趋势。紧凑性表现为图密度的增加,循环性表现为循环结构的增加。
总体结论
这篇论文提出了一种新颖的框架,通过集中式的、可学习的“木偶师”指挥者来实现自适应的多代理LLMs协作。与传统的静态或手动设计的拓扑结构不同,该方法结合了上下文敏感的指挥和强化学习驱动的策略适应,实现了更原则化和高效的协作。实验结果表明,该方法在解决方案质量和计算成本方面均优于现有方法。分析进一步揭示了指挥者促进紧凑、循环推理结构的出现,这是性能提升的关键原因。希望这项工作能为多代理协作中的动态和可扩展协调提供一个有价值的步骤。
📌 [ 笔者 ] 文艺倾年
📃 [ 更新 ] 2025.6.10
❌ [ 勘误 ] /* 暂无 */
📜 [ 声明 ] 由于作者水平有限,本文有错误和不准确之处在所难免,本人也很想知道这些错误,恳望读者批评指正!