Agentic RL: 大模型后训练 SFT、PPO和GRPO
文章目录
-
-
- 11.1 从LLM训练到Agentic RL
-
- 11.1.1 从强化学习到Agentic RL
- 11.1.2 LLM训练全景图
- 11.1.3 Agentic RL的核心理念
- 11.1.4 HelloAgents的Agentic RL设计
- 11.1.5 快速上手示例
- 11.2 数据集与奖励函数
-
- 11.2.1 GSM8K数学推理数据集
- 11.2.2 奖励函数设计
- 11.2.3 自定义数据集和奖励函数
- 11.3 SFT训练
-
- 11.3.1 为什么需要SFT
- 11.3.2 LoRA:参数高效微调
- 11.3.3 SFT训练实战
- 11.3.4 模型评估
- 11.4 GRPO训练
-
- 11.4.1 从PPO到GRPO
- 11.4.2 GRPO训练实战
- 11.4.3 GRPO训练过程解析
- 11.5 模型评估与分析
-
- 11.5.1 评估指标体系
- 11.5.2 评估实战
- 11.5.3 错误分析
- 11.5.4 改进方向
- 11.6 完整训练流程实战
-
- 11.6.1 端到端训练流程
- 11.6.2 超参数调优
- 11.6.3 分布式训练
- 11.6.4 生产部署
- 11.8 本章小结
-
- 参考文献
-
11.1 从LLM训练到Agentic RL
在前面的章节中,我们实现了多种智能体范式和通信协议。不过智能体处理更复杂的任务时表现不佳,自然会有疑问:如何让智能体具备更强的推理能力?如何让智能体学会更好地使用工具?如何让智能体能够自我改进?
这正是Agentic RL(基于强化学习的智能体训练)要解决的核心问题。本章将为HelloAgents框架引入强化学习训练能力,让你能够训练出具备推理、工具使用等高级能力的智能体。我们将从LLM训练的基础知识开始,逐步深入到监督微调(Supervised Fine-Tuning,SFT)、群组相对策略优化(Group Relative Policy Optimization, GRPO)等实用技术,最终构建一个完整的智能体训练pipeline。
11.1.1 从强化学习到Agentic RL
在第二章的2.4.2节中,我们介绍了基于强化学习的智能体。强化学习(Reinforcement Learning, RL)是一种专注于解决序贯决策问题的学习范式,它通过智能体与环境的直接交互,在"试错"中学习如何最大化长期收益。
现在,让我们将这个框架应用到LLM智能体上。考虑一个数学问题求解智能体,它需要回答这样的问题:
- 问题: Janet’s ducks lay 16 eggs pe
