什么是 LLM训练中的PPO和GRPO
什么是 LLM训练中的PPO和GRPO
目录
- 什么是 LLM训练中的PPO和GRPO
-
- 智能推荐系统举例
- 标准差反映了这些奖励分数相对于均值的平均离散程度。
- 同一尺度衡量的原因
GRPO全称Group Relative Policy Optimization,即组相对策略优化;PPO全称Proximal Policy Optimization,即近端策略优化。它们都是在强化学习领域用于优化策略的算法,下面详细介绍:
- GRPO(Group Relative Policy Optimization):由字节跳动提出,是对近端策略优化(PPO)算法改进的强化学习算法。它在训练语言模型时,取消了评论家模型,为每个查询生成多个响应,根据同一查询所有响应的均值和标准差标准化奖励来计算优势值,基于组采样鼓励探索,减少内存和计算开销,能更有效地利用数据进行策略优化,提高模型训练效率和性能,如在训练大型语言模型的过程中发挥重要作用。
- PPO(Proximal Policy Optimization):由OpenAI开发,旨在优化策略网络,使策略更新时不会过于远离之前的策略,避免训练过程中出现不稳定或退化情况。它通过引入裁剪的替代目标、熵奖励、KL惩罚等技术,平衡策