当前位置：首页 > news >正文

Agentic RL: 大模型后训练 SFT、PPO和GRPO

news 2025/10/26 14:38:13

文章目录

- - 11.1 从LLM训练到Agentic RL
  - - 11.1.1 从强化学习到Agentic RL
    - 11.1.2 LLM训练全景图
    - 11.1.3 Agentic RL的核心理念
    - 11.1.4 HelloAgents的Agentic RL设计
    - 11.1.5 快速上手示例
  - 11.2 数据集与奖励函数
  - - 11.2.1 GSM8K数学推理数据集
    - 11.2.2 奖励函数设计
    - 11.2.3 自定义数据集和奖励函数
  - 11.3 SFT训练
  - - 11.3.1 为什么需要SFT
    - 11.3.2 LoRA:参数高效微调
    - 11.3.3 SFT训练实战
    - 11.3.4 模型评估
  - 11.4 GRPO训练
  - - 11.4.1 从PPO到GRPO
    - 11.4.2 GRPO训练实战
    - 11.4.3 GRPO训练过程解析
  - 11.5 模型评估与分析
  - - 11.5.1 评估指标体系
    - 11.5.2 评估实战
    - 11.5.3 错误分析
    - 11.5.4 改进方向
  - 11.6 完整训练流程实战
  - - 11.6.1 端到端训练流程
    - 11.6.2 超参数调优
    - 11.6.3 分布式训练
    - 11.6.4 生产部署
  - 11.8 本章小结
  - - 参考文献

11.1 从LLM训练到Agentic RL

在前面的章节中，我们实现了多种智能体范式和通信协议。不过智能体处理更复杂的任务时表现不佳，自然会有疑问:如何让智能体具备更强的推理能力?如何让智能体学会更好地使用工具?如何让智能体能够自我改进?

这正是Agentic RL(基于强化学习的智能体训练)要解决的核心问题。本章将为HelloAgents框架引入强化学习训练能力，让你能够训练出具备推理、工具使用等高级能力的智能体。我们将从LLM训练的基础知识开始，逐步深入到监督微调(Supervised Fine-Tuning，SFT)、群组相对策略优化(Group Relative Policy Optimization， GRPO)等实用技术，最终构建一个完整的智能体训练pipeline。