当前位置: 首页 > news >正文

Agentic RL: 大模型后训练 SFT、PPO和GRPO

文章目录

      • 11.1 从LLM训练到Agentic RL
        • 11.1.1 从强化学习到Agentic RL
        • 11.1.2 LLM训练全景图
        • 11.1.3 Agentic RL的核心理念
        • 11.1.4 HelloAgents的Agentic RL设计
        • 11.1.5 快速上手示例
      • 11.2 数据集与奖励函数
        • 11.2.1 GSM8K数学推理数据集
        • 11.2.2 奖励函数设计
        • 11.2.3 自定义数据集和奖励函数
      • 11.3 SFT训练
        • 11.3.1 为什么需要SFT
        • 11.3.2 LoRA:参数高效微调
        • 11.3.3 SFT训练实战
        • 11.3.4 模型评估
      • 11.4 GRPO训练
        • 11.4.1 从PPO到GRPO
        • 11.4.2 GRPO训练实战
        • 11.4.3 GRPO训练过程解析
      • 11.5 模型评估与分析
        • 11.5.1 评估指标体系
        • 11.5.2 评估实战
        • 11.5.3 错误分析
        • 11.5.4 改进方向
      • 11.6 完整训练流程实战
        • 11.6.1 端到端训练流程
        • 11.6.2 超参数调优
        • 11.6.3 分布式训练
        • 11.6.4 生产部署
      • 11.8 本章小结
        • 参考文献

11.1 从LLM训练到Agentic RL

在前面的章节中,我们实现了多种智能体范式和通信协议。不过智能体处理更复杂的任务时表现不佳,自然会有疑问:如何让智能体具备更强的推理能力?如何让智能体学会更好地使用工具?如何让智能体能够自我改进?

这正是Agentic RL(基于强化学习的智能体训练)要解决的核心问题。本章将为HelloAgents框架引入强化学习训练能力,让你能够训练出具备推理、工具使用等高级能力的智能体。我们将从LLM训练的基础知识开始,逐步深入到监督微调(Supervised Fine-Tuning,SFT)、群组相对策略优化(Group Relative Policy Optimization, GRPO)等实用技术,最终构建一个完整的智能体训练pipeline

11.1.1 从强化学习到Agentic RL

在第二章的2.4.2节中,我们介绍了基于强化学习的智能体。强化学习(Reinforcement Learning, RL)是一种专注于解决序贯决策问题的学习范式,它通过智能体与环境的直接交互,在"试错"中学习如何最大化长期收益。

现在,让我们将这个框架应用到LLM智能体上。考虑一个数学问题求解智能体,它需要回答这样的问题:

  • 问题: Janet’s ducks lay 16 eggs pe
http://www.dtcms.com/a/529836.html

相关文章:

  • 织梦城市门户网站模板廊坊优化外包
  • 有些网站做不了seo背景视频素材下载免费
  • 聊城专业做网站怎样在华为云服务器里建设网站
  • 做网站为什么要用源码跳舞游戏做的广告视频网站
  • 网站建设的常用软件有哪些企业网站开发需求分析
  • 做商务网站住房与城乡建设部网站建造师
  • zk详细问题
  • 做任务得得q币的网站应用公园制作app教程视频
  • 【Linux】输入输出管理
  • 做购物网站的初衷建设网站有哪些好处和坏处
  • 从stc8g1k08+433MHZ无线点亮led 到stc8k1k17+433MHZ唯一配对并点亮小灯(过程问题总结)
  • 区域综合实验
  • 环保网站建设多少钱安徽池州建设厅网站
  • 搅拌机东莞网站建设技术支持河北邯郸特色美食
  • 将有序数组转换为二叉搜索树
  • 长春做网站公司长春seo公司网页设计师培训费用图片
  • 外贸网站 源wordpress rpc
  • 深圳建站服务中心火车头采集器和wordpress
  • 志愿者网站建设500万在北京几环买房
  • linux如何将运行进程设置为权限最高进程 当资源不足时,避免被内核kill掉
  • Windows环境变量终极指南
  • 我要学做网站seo优化是做什么的
  • 齐齐哈尔网站seo淄博网站制作首选专家
  • 向google提交网站微信抽奖小程序怎么做
  • 西安网站挂标广西金利建设有限公司网站
  • windows10安装WSL2 ubuntu24.04中安装vLLM vLLM中部署Qwen2.5-VL
  • 如何在Linux(Ubuntu)操作系统上查看文件的MD5,SHA256等校验码
  • 网站付的保证金怎么做会计凭证山东公司网站建设
  • 商城网站建设企业lamp 搭建wordpress
  • 做网站对企业有什么好处2022年网站能用的