L0:让大模型成为通用智能体的强化学习新范式
L0:让大模型成为通用智能体的强化学习新范式
在AI智能体研究领域,如何让大语言模型高效完成多轮、长周期任务仍是难题。本文将解读论文L0,其提出的端到端训练 pipeline 与 NB-Agent 架构,通过强化学习显著提升模型在问答任务上的表现,为通用智能体发展提供新思路。
论文标题
L0: REINFORCEMENT LEARNING TO BECOME GENERAL AGENTS
来源
arXiv:2506.23667v1 [cs.CL] 30 Jun 2025 + https://arxiv.org/abs/2506.23667
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁
文章核心
研究背景
近年来,强化学习的快速发展推动大语言模型(LLMs)向主动智能体演进,使其能够通过与外部环境和工具的交互完成复杂多步骤任务。众多先驱工作已展现出显著成果,例如Search-o1融入智能体检索增强生成(RAG)机制,让模型在遇到不确定性时动态检索外部知识;Search-R1则训练LLM在逐步推理中生成多个搜索查询并获取实时信息,大幅提升问答任务准确率。
然而,现有方法在处理长周期任务时仍存在明显局限,难以满足实际场景中智能体协调多工具、利用中间反馈优化行为的需求,这使得构建能应对复杂现实任务的通用智能体成为当前领域的重要挑战。
研究问题
-
现有多轮强化学习 pipeline 将长周期推理视为单步问题,忽略中间信号。
-
严格的提示模板限制工具调用,难以协调多工具和利用回合反馈。
-
缺乏能管理内部状态的表达性智能体架构和处理多轮交互的可扩展强化学习基础设施。
主要贡献
-
提出 L-Zero(L0),一种可扩展的端到端通用智能体训练 pipeline,降低复杂环境中强化学习应用门槛。
-
设计 NB-Agent 架构,以“代码即行动”方式在交互式 Python 环境中运作,通过 Read-Eval-Print-Loop(REPL)实现多轮推理。
-
提出基于可验证奖励的强化学习(RLVR),仅用该方法就让基础模型在问答任务上精度大幅提升,且开源了整个系统。
方法论精要
核心算法/框架名称
L0 系统及其中的 NB-Agent 架构,结合 Agentic Policy Gradient 强化学习算法。
关键参数设计原理
- 优势估计采用 REINFORCE++ 方法,$ γ $为折扣因子,且进行批处理步级优势归一化稳定训练。
- 目标函数含 KL 散度惩罚项,采用动态采样策略,生成多条轨迹并随机丢弃奖励为零或最大的轨迹,增强探索和训练稳定性。
创新性技术组合
- NB-Agent 采用“Think-Code-Observe”循环,LLM 生成推理轨迹和 Python 代码,在 Jupyter 内核执行,输出作为下一轮观察。
- 引入“记事本”实现上下文 - 变量绑定,借助 REPL 驱动信息检索,解决上下文窗口有限问题。
- 可验证奖励结合最终答案正确性、步骤格式合规性和代码执行正确性,自动计算无需人工判断。
实验验证方式
- 数据集:选用 HotpotQA、Musique、Bamboogle 等多跳问答数据集,以及 SimpleQA 等事实性问答基准。
- 基线方法:包括基础提示工程(Direct Prompting 等)、先进 RAG 方法(RAgent 等)和基于强化学习的方法(Search-R1 等),对比评估 L0 性能。
实验洞察
1. 性能优势
- 在 SimpleQA 上,Qwen2.5-7B-Instruct 模型经 L0 方法训练后,准确率从 30%提升至 80%。
- 在 HotpotQA 上,该模型准确率从 22%提升至 41%。
- 与其他方法相比,L0-RL 平均得分 38.28%,远超 L0-Scaffold 的 20.52%,也优于 Search-R1 和 ZeroSearch 等方法。
2. 效率突破
- L0 具备低成本、可扩展且沙盒化的并发智能体工作池,降低复杂环境中强化学习应用门槛。
- 采用解耦架构,Agent Workers 处理环境交互和轨迹收集,Inference Server 负责查询最新策略,各组件可独立扩展,提升效率。
3. 分析
- 任务难度对训练影响显著,在高难度数据集上不采用动态采样会导致训练不稳定和模型崩溃,而动态采样策略能维持训练稳定。
- 不同基础模型中,Qwen-34B-Thinking 经 RL 训练后提升显著,EM 从 14.78%升至 44.67%,表明具推理和工具使用能力的模型更易从 AgentRL 训练中获益。