当前位置: 首页 > news >正文

什么是 LLM训练中的PPO和GRPO

什么是 LLM训练中的PPO和GRPO

目录

  • 什么是 LLM训练中的PPO和GRPO
    • 智能推荐系统举例
    • 标准差反映了这些奖励分数相对于均值的平均离散程度。
    • 同一尺度衡量的原因

GRPO全称Group Relative Policy Optimization,即组相对策略优化;PPO全称Proximal Policy Optimization,即近端策略优化。它们都是在强化学习领域用于优化策略的算法,下面详细介绍:

  • GRPO(Group Relative Policy Optimization):由字节跳动提出,是对近端策略优化(PPO)算法改进的强化学习算法。它在训练语言模型时,取消了评论家模型,为每个查询生成多个响应,根据同一查询所有响应的均值和标准差标准化奖励来计算优势值,基于组采样鼓励探索,减少内存和计算开销,能更有效地利用数据进行策略优化,提高模型训练效率和性能,如在训练大型语言模型的过程中发挥重要作用。
  • PPO(Proximal Policy Optimization):由OpenAI开发,旨在优化策略网络,使策略更新时不会过于远离之前的策略,避免训练过程中出现不稳定或退化情况。它通过引入裁剪的替代目标、熵奖励、KL惩罚等技术,平衡策
http://www.dtcms.com/a/22631.html

相关文章:

  • MySQL:MySQL8.0 JSON类型使用整理,基于用户画像的案例
  • 计算机组成原理—— 外围设备(十四)
  • FreeRTOS第12篇:系统的“绿色通道”——中断管理与临界区
  • 假面与演员:到底是接口在使用类,还是类在使用接口?编程接口与物理接口的区别又是什么?
  • 欢乐力扣:旋转图像
  • 16-使用QtChart创建动态图表:入门指南
  • Docker+DockerCompose+Harbor安装
  • 【问题记录】Windows使用gRPC通信问题
  • 【Linux】动静态库的制作与原理
  • vue学习笔记
  • 如何做好项目变更管理
  • Linux定时静默执行桌面/前台程序
  • windows Redis Insight 如何查看宝塔docker里的redis数据
  • DIC技术用于混凝土泵车臂架三维姿态与振动测量
  • 怎么把pyqt界面做的像web一样漂亮
  • Windsurf Wave 3发布:MCP协议、更多模型支持等重要功能解析
  • RIP路由协议的知识要点
  • Python Django 入门教程
  • 【开源向量数据库】Milvus简介
  • LabVIEW 中的 3dgraph.llb 库
  • 重生之我在异世界学编程之C语言:深入预处理篇(上)
  • PHP 数据库操作:以 MySQL 为例
  • 【Python】实现文件移动与文件夹删除工具
  • MySQL 查询缓存技术深度解析
  • container::erase
  • 推荐几款较好的开源成熟框架
  • Day4 25/2/17 MON
  • TCP/IP参考模型之区别(Differences Between the OSI and TCP/IP Reference Models)
  • C++Linux进阶项目分析-仿写Redis之Qedis
  • C++ list:链表的“乐高积木”与“灵活小火车”