当前位置：首页 > news >正文

PPO近端策略优化算法

news 2025/11/1 11:58:26

本文学习自不去幼儿园大佬的文章！加上自己的一些小见解，欢迎交流！【强化学习】近端策略优化算法(PPO)万字详解（附代码）-腾讯云开发者社区-腾讯云

过去，在强化学习中，直接优化策略会导致不稳定的训练，模型可能因为过大的参数更新而崩溃。

解决方案：PPO通过限制策略更新幅度，使得每一步训练都不会偏离当前策略太多，同时高效利用采样数据。

PPO（Proximal Policy Optimization）核心思想

PPO的目标是：

1、限制策略更新幅度，防止策略过度偏离

2、使用优势函数 $A(s, a)$ 来评价某个动作的相对好坏。

PPO目标函数如下：

$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]$

其中，有一些重要参数：

$E_t$ ：表示对时间步 t 的期望值，时间步 t 的期望值，即对

一、概率比例 $r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}$ 它表示新策略和旧策略在同一状态下选择动作的概率比值。

$\pi_\theta(a_t | s_t)$ ：新策略对动作 $a_t$ 的概率。

$\pi_{\theta_{\text{old}}}(a_t | s_t)$ ：旧策略对动作 $a_t$ 的概率。

这个比率表示策略变化的程度。

二、优势函数 $A_t = Q(s_t, a_t) - V(s_t)$ ，或者用广义优势估计（GAE）的方法近似。

表示在状态 $s_t$ 下采取动作 $a_t$ 相对于平均情况的优越程度。

三、剪辑操作 $\text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)$ ，它将 $r_t(\theta)$ 限制在区间 $[1-\epsilon, 1+\epsilon]$ ，防止策略变化过大。

为什么 PPO 很强？

简洁性： 比 TRPO（Trust Region Policy Optimization）更简单，无需二次优化。
稳定性： 使用剪辑机制防止策略更新过度。
高效性： 利用采样数据多次训练，提高样本利用率。

PPO的直观类比

假设你是一个篮球教练，训练球员投篮：

如果每次训练晚秋改变投篮动作，球员可能会表现失常（类似于策略更新过度）

如果每次训练动作变化太小，可能很难进步（类似于更新不足）

PPO的剪辑机制就像一个“适度改进”的规则，告诉球员在合理范围内调整投篮动作，同时评估每次投篮的表现是否优于平均水平。

强化学习的核心目标是优化策略 $\pi_\theta$ ，表示在给定状态下采取某个动作的概率分布

最大化累计奖励 $R$ 。

策略梯度方法（如REINFORCE）直接优化策略，但更新过大可能导致不稳定。为了解决这个问题，PPO通过引入限制更新幅度的机制，保证策略的稳定性。

目标是优化以下期望： $J(\theta) = \mathbb{E}{\pi\theta} \left[ R \right]$

通过梯度上升法更新策略。

值函数优化

PPO不仅优化策略，还同时更新值函数 $V(s_t)$

通过最小化均方误差来更新： $L^{VF}(\theta) = \mathbb{E}_t \left[ \left( V(s_t; \theta) - R_t \right)^2 \right]$

$V(s_t; \theta)$ ：表示当前状态的值函数的预测

$R_t = \sum_{k=0}^n \gamma^k r_{t+k}$ ：累计回报。

策略熵正则化

为了鼓励策略探索，PPO引入了熵正则化项： $L^{ENT}(\theta) = \mathbb{E}t \left[ H(\pi\theta(s_t)) \right]$

$H(\pi_\theta(s_t))$ ：策略的熵，表示策略分布的不正确性

增加熵可以防止策略过早收敛到局部最优。

总损失函数

PPO结合策略损失、值函数损失和熵正则化项，形成总损失函数： $L(\theta) = \mathbb{E}_t \left[ L^{CLIP}(\theta) - c_1 L^{VF}(\theta) + c_2 L^{ENT}(\theta) \right]$

$c_1$ 和 $c_2$ ：权重系数，用于平衡策略优化、值函数更新和熵正则化。

http://www.dtcms.com/a/183559.html

相关文章：

《Python星球日记》第54天：卷积神经网络进阶

SQL注入问题

用jsp简单实现C语言标准化测试系统

2505d,d的借用检查器

【Redis】string 字符串

Kubernetes 生产实战(十五)：生产环境敏感信息纳入Secret管理指南

DB4S：一个开源跨平台的SQLite数据库管理工具

ThreadPoolExecutor源码阅读以及手写简单线程池 —— JDK17

@Transactional注解失效

用c语言实现——一个交互式的中序线索二叉树系统，支持用户动态构建、线索化、遍历和查询功能

超详细Kokoro-82M本地部署教程

自定义类型-结构体（二）

本地大模型工具深度评测：LM Studio vs Ollama，开发者选型指南

Java多线程(超详细版！！）

C++STL——priority_queue

【Redis】基础命令数据结构

【C++】string类

Linux进程间通信（四）之补充【日志】

算法训练营第十三天｜226.翻转二叉树、101. 对称二叉树、 104.二叉树的最大深度、111.二叉树的最小深度

使用 librosa 测量《忘尘谷》节拍速度

人形机器人量产元年开启，AI与物理世界深度融合

局域网常用的测速工具，Iperf3使用教程

数仓-如何保障指标的一致性

U盘制作系统盘（含U盘恢复）

dockerfile编写入门

正式部署abp vnext应用程序时，如何生成openiddict.pfx证书文件

Proser：在使用中改进

21、DeepSeekMath论文笔记（GRPO）

如何更改typora图片存储位置

从前端视角看网络协议的演进