当前位置: 首页 > news >正文

PPO近端策略优化算法

本文学习自不去幼儿园大佬的文章!加上自己的一些小见解,欢迎交流!【强化学习】近端策略优化算法(PPO)万字详解(附代码)-腾讯云开发者社区-腾讯云

过去,在强化学习中,直接优化策略会导致不稳定的训练,模型可能因为过大的参数更新而崩溃。

解决方案:PPO通过限制策略更新幅度,使得每一步训练都不会偏离当前策略太多,同时高效利用采样数据。

PPO(Proximal Policy Optimization)核心思想

PPO的目标是:

1、限制策略更新幅度,防止策略过度偏离

2、使用优势函数   A(s, a)   来评价某个动作的相对好坏。

PPO目标函数如下:

                        L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]

其中,有一些重要参数:

E_t :表示对时间步 t 的期望值,时间步 t 的期望值,即对

一、概率比例    r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}   它表示新策略旧策略在同一状态下选择动作的概率比值。

\pi_\theta(a_t | s_t):新策略对动作a_t的概率。

\pi_{\theta_{\text{old}}}(a_t | s_t):旧策略对动作a_t的概率。

这个比率表示策略变化的程度。

二、优势函数  A_t = Q(s_t, a_t) - V(s_t),或者用广义优势估计(GAE)的方法近似。

表示在状态s_t下采取动作a_t相对于平均情况的优越程度。

三、剪辑操作 \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon),它将 r_t(\theta) 限制在区间 [1-\epsilon, 1+\epsilon],防止策略变化过大。

为什么 PPO 很强?

  1. 简洁性: 比 TRPO(Trust Region Policy Optimization)更简单,无需二次优化。
  2. 稳定性: 使用剪辑机制防止策略更新过度。
  3. 高效性: 利用采样数据多次训练,提高样本利用率。

PPO的直观类比

假设你是一个篮球教练,训练球员投篮:

如果每次训练晚秋改变投篮动作,球员可能会表现失常(类似于策略更新过度)

如果每次训练动作变化太小,可能很难进步(类似于更新不足)

PPO的剪辑机制就像一个“适度改进”的规则,告诉球员在合理范围内调整投篮动作,同时评估每次投篮的表现是否优于平均水平。

强化学习的核心目标是优化策略\pi_\theta,表示在给定状态下采取某个动作的概率分布

最大化累计奖励R

策略梯度方法(如REINFORCE)直接优化策略,但更新过大可能导致不稳定。为了解决这个问题,PPO通过引入限制更新幅度的机制,保证策略的稳定性。

目标是优化以下期望:J(\theta) = \mathbb{E}{\pi\theta} \left[ R \right]

通过梯度上升法更新策略。

值函数优化

PPO不仅优化策略,还同时更新值函数V(s_t)

通过最小化均方误差来更新:L^{VF}(\theta) = \mathbb{E}_t \left[ \left( V(s_t; \theta) - R_t \right)^2 \right]

V(s_t; \theta):表示当前状态的值函数的预测

R_t = \sum_{k=0}^n \gamma^k r_{t+k}:累计回报。

策略熵正则化

为了鼓励策略探索,PPO引入了熵正则化项:L^{ENT}(\theta) = \mathbb{E}t \left[ H(\pi\theta(s_t)) \right]

H(\pi_\theta(s_t)):策略的熵,表示策略分布的不正确性

增加熵可以防止策略过早收敛到局部最优。

总损失函数

PPO结合策略损失、值函数损失和熵正则化项,形成总损失函数:L(\theta) = \mathbb{E}_t \left[ L^{CLIP}(\theta) - c_1 L^{VF}(\theta) + c_2 L^{ENT}(\theta) \right]

c_1c_2:权重系数,用于平衡策略优化、值函数更新和熵正则化。

相关文章:

  • 《Python星球日记》 第54天:卷积神经网络进阶
  • SQL注入问题
  • 用jsp简单实现C语言标准化测试系统
  • 2505d,d的借用检查器
  • 【Redis】string 字符串
  • Kubernetes 生产实战(十五):生产环境敏感信息纳入Secret管理指南
  • DB4S:一个开源跨平台的SQLite数据库管理工具
  • ThreadPoolExecutor源码阅读以及手写简单线程池 —— JDK17
  • @Transactional注解失效
  • 用c语言实现——一个交互式的中序线索二叉树系统,支持用户动态构建、线索化、遍历和查询功能
  • 超详细Kokoro-82M本地部署教程
  • 自定义类型-结构体(二)
  • 本地大模型工具深度评测:LM Studio vs Ollama,开发者选型指南
  • Java多线程(超详细版!!)
  • C++STL——priority_queue
  • 【Redis】基础命令数据结构
  • 【C++】string类
  • Linux进程间通信(四)之补充【日志】
  • 算法训练营第十三天|226.翻转二叉树、101. 对称二叉树、 104.二叉树的最大深度、111.二叉树的最小深度
  • 使用 librosa 测量《忘尘谷》节拍速度
  • “海豚音”依旧互动更多,玛丽亚·凯莉本周来沪开唱
  • 上海“量子城市”先导应用场景落地曹杨社区,提供哪些服务?
  • 全国重点网络媒体和网络达人走进沧州,探寻“文武双全”的多重魅力
  • 网红街区如厕难,如何多管齐下补缺口?
  • 当创业热土遇上年轻气息,上海南汇新城发展如何再发力?
  • 卢正已任上海市司法局党委委员、副局长