Google DeepMind 的 “心智进化”(Mind Evolution)
这项技术旨在显著提升大型语言模型(LLM)在复杂规划和推理任务上的性能。
核心目标: 让 LLM 在生成答案时能进行更深入、更有效的“思考”,从而解决复杂的、需要多步骤规划和推理的任务(如行程规划、会议安排、创意写作嵌入隐藏信息)。
问题背景:LLM 在复杂规划上的瓶颈
- 推理时间扩展的需求:
- 传统 LLM 输出(1-Pass)通常是“一次性思考”,对于简单问题有效,但对复杂问题(如多天多城市旅行规划、多人会议安排)往往力不从心。
- 推理时间扩展 技术允许 LLM 在生成最终答案前,生成多个候选方案,评估它们,并进行迭代优化,就像人类会多想几个方案再选最好的。
- 传统方法的局限 - “形式化”困境:
- 早期提升 LLM 规划能力的方法通常需要先将自然语言描述的用户需求(如“预算5k内,想去海边,行程轻松点”)形式化为一组精确的符号约束(如
总花费 <= 5000
,目的地包含海滩城市
,每日行程时间 <= 8小时
)。 - 问题:
- 耗时费力: 手动形式化每个任务成本高。
- 易错且不灵活: 用户需求复杂多变,形式化容易遗漏或错误表达细微需求。需求稍有变化,形式化就得重做。
- 不通用: 不同任务需要不同的形式化方法。
- 早期提升 LLM 规划能力的方法通常需要先将自然语言描述的用户需求(如“预算5k内,想去海边,行程轻松点”)形式化为一组精确的符号约束(如
Mind Evolution 解决方案:自然语言空间的“进化论”
Mind Evolution 的核心创新在于完全绕过形式化步骤,直接在自然语言描述的问题空间中进行优化搜索。它借鉴了遗传算法的思想:
-
核心比喻:像生物进化一样优化解决方案
- 种群: 一组候选解决方案(例如,多个不同的旅行计划草案)。
- 个体: 一个候选解决方案。
- 适应度: 衡量方案好坏的标准(由评估器打分)。
- 进化操作: 选择(优胜劣汰)、交叉(组合优秀方案片段)、变异(引入随机变化)。
- 岛屿模型: 将种群分成几个子群独立进化,定期交换优秀个体,保持多样性,避免过早陷入局部最优解。
-
算法流程:迭代优化
- 1. 种群初始化:
- LLM 根据用户需求生成一批随机、多样化的初始方案(种群)。
- (旅行例子:生成10个不同风格、不同景点组合、不同时间分配的7天旅行计划草案)
- 2. 适应度评估:
- 一个可编程的评估器分析每个方案,给出分数(适应度)和详细的文本反馈(哪里好,哪里不好,如何改进)。
- (旅行例子:评估器检查计划A:预算超了500元(扣分),D3下午行程太赶(扣分),但包含了用户指定所有景点(加分),总评75分。反馈:“预算超支,建议选择更经济酒店;D3下午减少一个景点或延长停留时间。”)
- 3. 选择:
- 根据适应度分数,选择优秀个体进入下一代(轮盘赌选择:分数高的选中概率高,但也给低分个体留点机会保持多样性)。
- 4. 交叉与变异:
- 交叉: 将两个选中的优秀方案的片段组合,生成新方案。
- (旅行例子:把计划A的“前3天行程”和计划B的“后4天行程及预算控制策略”组合成新计划C)
- 变异: 随机修改选中的方案(如替换一个景点、调整时间、改变交通方式)。
- (旅行例子:把计划C中某个博物馆替换成一个用户可能喜欢的公园;或将某段高铁改成飞机看看是否更省时/更贵)
- 交叉: 将两个选中的优秀方案的片段组合,生成新方案。
- 5. (可选)岛屿模型操作:
- 如果种群被分成多个岛屿(子群),定期将各岛表现最好的方案迁移到其他岛。
- 6. 迭代:
- 用新生成的方案(交叉、变异、迁移产生的)形成新一代种群。
- 重复步骤2-5,直到达到预设迭代次数、找到满意方案或资源耗尽。
- 1. 种群初始化:
-
关键创新点:
- 自然语言空间操作: 直接在用户描述的需求和生成的方案文本上工作,无需任何形式化。这是最核心的突破。
- LLM 作为“进化引擎”: LLM 负责生成初始种群、执行交叉(组合文本片段)、执行变异(修改文本描述)。
- 批判性对话优化 (RCC): 在评估反馈和方案改进中,模拟一个“评论者”(指出问题)和“作者”(根据反馈修改方案)之间的对话,进行精细打磨。
- 两阶段模型(效率优化):
- 先用快速、成本低的 LLM(如 Gemini 1.5 Flash)进行大部分进化迭代。
- 如果 Flash 搞不定(在规定代数内没找到好方案),再切换给更强、但更慢更贵的 LLM(如 Gemini 1.5 Pro)攻坚剩下的难题。
实验结果:大幅超越传统方法
研究者在多个基准测试上验证了 Mind Evolution 的效果,对比了:
- 1-Pass: 标准LLM一次性输出。
- Best-of-N: 生成N个方案选最好的(广撒网)。
- Sequential Revision+: 对单个方案进行多轮修订(深度优化一个点)。
- TravelPlanner (旅行规划):
- 任务:根据用户复杂需求(天数、预算、兴趣点、约束)生成行程。
- 结果:Mind Evolution (Flash + Pro) 成功率100%!远超其他方法(1-Pass 仅5.6%, Best-of-N 55.6%, Seq-Rev+ 82.8%)。天数越多、约束越复杂,优势越明显。
- Natural Plan (包含 Trip Planning & Meeting Planning):
- Trip Planning (多城市旅行):
- 城市越多越难。Mind Evolution 在10城市规划上成功率91%,远高于 Best-of-N (35%) 和 Seq-Rev+ (20%)。生成的计划能完美衔接交通、合理分配时间满足用户重点需求。
- Meeting Planning (多人会议安排):
- 人数越多越难。Mind Evolution 在安排10人会议时成功率80%,显著优于其他方法。能巧妙避免时间冲突,确保关键人员参会。
- Trip Planning (多城市旅行):
- StegPoet (创意隐写任务):
- 任务:写一首特定风格(如儿童诗)的诗歌,无缝嵌入一串给定的数字序列(如
[10,20,30...]
),每个数字对应一个单词(如10=rooster)。 - 结果:Mind Evolution 生成的诗歌不仅准确嵌入所有数字,而且诗歌本身流畅、自然、符合风格要求。其他方法要么嵌入错误,要么诗歌质量差。
- 例子输出:
"I like to walk, I like to stride, With ROOSTER crows and FLOWERS by my side."
(成功嵌入了10-rooster和20-flowers)
- 任务:写一首特定风格(如儿童诗)的诗歌,无缝嵌入一串给定的数字序列(如
- 效率:
- Mind Evolution 在达到高成功率的同时,资源消耗(LLM调用次数、Token数、成本) 与 Best-of-N 相当,但效果远好于 Best-of-N;比深度优化的 Seq-Rev+ 更高效。
优势与意义
- 突破形式化瓶颈: 解锁了大量难以或无法形式化的自然语言规划任务。
- 显著提升复杂任务性能: 在行程、会议、创意写作等需要多步骤推理和优化的任务上,效果碾压传统方法。
- 更接近人类思考模式: 通过生成-评估-迭代优化的循环,模拟了人类解决问题的过程(想几个方案,比较优缺点,改进)。
- 推动AI Agent发展: 强大的规划与推理能力是构建能真正解决问题的AI智能体(Agent)的核心。Mind Evolution 提供了提升此能力的新范式。
局限性与未来方向
- 对评估器的依赖:
- 目前严重依赖人工设计的可编程评估器来打分和反馈。
- 问题:
- 设计高质量评估器本身可能很复杂(尤其对于抽象任务,如评估创意小说的“独特性”)。
- 评估器可能带有主观性,影响最终方案。
- 未来方向: 探索更通用、自适应的评估器,如利用LLM本身进行评估(LLM-as-a-Judge)、结合强化学习让Agent自我学习评估标准。
- 应用范围限制:
- 目前最适合评估标准相对明确且可编程的任务(如预算、时间冲突等)。
- 对于极度开放、抽象或评估标准模糊的任务(如“写一部伟大的科幻小说”),应用难度大。
- 对实时性要求极高的大规模任务(如全球实时物流调度)可能存在计算效率瓶颈。
- 成本与资源:
- 尽管有两阶段优化,迭代过程仍比1-Pass消耗更多计算资源。
- 未来研究方向:
- 开发通用 LLM 基评估器 (General LLM-based Evaluator)。
- 提升评估器的自动化程度、适应性和可解释性。
- 优化算法效率,减少资源消耗。
- 探索在更广泛、更抽象任务上的应用(如开放式创新、战略决策)。
- 结合其他技术(如强化学习、元学习)。
总结
Google DeepMind 的 Mind Evolution 技术是一种革命性的方法,它通过直接在自然语言空间模拟“进化”过程(选择、交叉、变异),并辅以批判性对话优化 (RCC) 和高效的两阶段模型策略,显著提升了 LLM 解决复杂规划和推理任务的能力。它成功绕过了传统形式化方法的瓶颈,在旅行规划、会议安排、创意隐写等多个具有挑战性的基准测试上取得了接近完美或远超现有方法的效果。虽然目前仍依赖评估器设计并在应用范围上有一定限制,但它为构建更强大、更灵活的 AI Agent,尤其是在需要深度规划和优化的场景中,开辟了极具前景的道路。它是继 AlphaEvolve 之后,DeepMind 在优化 Agent 能力方面的又一重要突破。
-
DeepMind’s new inference-time scaling technique improves planning accuracy in LLMs
https://venturebeat.com/ai/deepmind-new-inference-time-scaling-technique-improves-planning-accuracy-in-llms/ -
Mind Evolution 技术论文
https://arxiv.org/pdf/2501.09891v1