当前位置：首页 > news >正文

什么是 LLM训练中的PPO和GRPO

news 2025/10/14 9:58:54

什么是 LLM训练中的PPO和GRPO

目录

什么是 LLM训练中的PPO和GRPO
- 智能推荐系统举例
- 标准差反映了这些奖励分数相对于均值的平均离散程度。
- 同一尺度衡量的原因

GRPO全称Group Relative Policy Optimization，即组相对策略优化；PPO全称Proximal Policy Optimization，即近端策略优化。它们都是在强化学习领域用于优化策略的算法，下面详细介绍：

GRPO（Group Relative Policy Optimization）：由字节跳动提出，是对近端策略优化（PPO）算法改进的强化学习算法。它在训练语言模型时，取消了评论家模型，为每个查询生成多个响应，根据同一查询所有响应的均值和标准差标准化奖励来计算优势值，基于组采样鼓励探索，减少内存和计算开销，能更有效地利用数据进行策略优化，提高模型训练效率和性能，如在训练大型语言模型的过程中发挥重要作用。
PPO（Proximal Policy Optimization）：由OpenAI开发，旨在优化策略网络，使策略更新时不会过于远离之前的策略，避免训练过程中出现不稳定或退化情况。它通过引入裁剪的替代目标、熵奖励、KL惩罚等技术，平衡策

http://www.dtcms.com/a/22631.html

相关文章：

MySQL：MySQL8.0 JSON类型使用整理，基于用户画像的案例

计算机组成原理—— 外围设备（十四）

FreeRTOS第12篇：系统的“绿色通道”——中断管理与临界区

假面与演员：到底是接口在使用类，还是类在使用接口？编程接口与物理接口的区别又是什么？

欢乐力扣：旋转图像

16-使用QtChart创建动态图表：入门指南

Docker+DockerCompose+Harbor安装

【问题记录】Windows使用gRPC通信问题

【Linux】动静态库的制作与原理

vue学习笔记

如何做好项目变更管理

Linux定时静默执行桌面/前台程序

windows Redis Insight 如何查看宝塔docker里的redis数据

DIC技术用于混凝土泵车臂架三维姿态与振动测量

怎么把pyqt界面做的像web一样漂亮

Windsurf Wave 3发布：MCP协议、更多模型支持等重要功能解析

RIP路由协议的知识要点

Python Django 入门教程

【开源向量数据库】Milvus简介

LabVIEW 中的 3dgraph.llb 库

重生之我在异世界学编程之C语言：深入预处理篇（上）

PHP 数据库操作：以 MySQL 为例

【Python】实现文件移动与文件夹删除工具

MySQL 查询缓存技术深度解析

container::erase

推荐几款较好的开源成熟框架

Day4 25/2/17 MON

TCP/IP参考模型之区别（Differences Between the OSI and TCP/IP Reference Models）

C++Linux进阶项目分析-仿写Redis之Qedis

C++ list：链表的“乐高积木”与“灵活小火车”