当前位置：首页 > news >正文

强化学习 Reinforcement Learing

news 2025/9/11 6:06:40

Proximal Policy Optimization (PPO)

PPO 是一种策略梯度方法，核心思想是通过限制策略更新的幅度，确保新策略与旧策略的差异不会过大，从而稳定训练过程。PPO 有两种主要变体：PPO-Clip（最常用）和 PPO-Penalty。本文将重点解释 PPO-Clip 的原理，并给出严谨的数学公式。

1. 核心问题：策略更新的稳定性

策略梯度方法（如 REINFORCE、Actor-Critic）直接优化策略网络参数 $θ\theta$ ，目标函数为期望回报：
$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t r_t \right]$
但直接最大化 $J(θ)J(\theta)$ 可能导致策略更新步长过大，破坏训练稳定性。PPO 通过约束新旧策略的差异解决此问题。

2. 重要性采样（Importance Sampling）

PPO 利用重要性采样，用旧策略 (behavior policy) $πθold\pi_{\theta_{\text{old}}}$ 收集的数据评估新策略(target policy) $πθ\pi_\theta$ 。定义概率比（Probability Ratio）：
$r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)}$
策略梯度目标可改写为：
$J(\theta) = \mathbb{E}_{t} \left[ r_t(\theta) A_t \right]$
其中 $A_t$ 是优势函数（Advantage Function），衡量动作 $a_t$ 相对于平均水平的优劣。

3. PPO-Clip 的目标函数

为防止 $rt(θ)r_t(\theta)$ 偏离 1 过远（即策略变化过大），PPO-Clip 引入裁剪机制：
$L^{\text{CLIP}}(\theta) = \mathbb{E}_{t} \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]$

$ϵ\epsilon$ 是超参数（通常取 0.1 或 0.2），定义裁剪范围。
$clip(x,a,b)\text{clip}(x, a, b)$ 将 $x$ 限制在 $[a, b]$ 区间内。

目标函数行为分析：

当 $A_t > 0$ （动作优于平均）：
- 未裁剪项： $rt(θ)Atr_t(\theta) A_t$ 鼓励增大动作概率。
- 裁剪项：限制 $rt(θ)≤1+ϵr_t(\theta) \leq 1+\epsilon$ ，防止过度优化。
当 $A_t < 0$ （动作劣于平均）：
- 未裁剪项： $rt(θ)Atr_t(\theta) A_t$ 鼓励减小动作概率。
- 裁剪项：限制 $rt(θ)≥1−ϵr_t(\theta) \geq 1-\epsilon$ ，防止过度避开。

最终目标取二者最小值，形成保守的悲观估计（避免因策略更新过大导致性能崩溃）。

4. 优势函数估计

优势函数 $A_t$ 使用 Generalized Advantage Estimation (GAE) 计算：
$A_t^{\text{GAE}(\gamma, \lambda)} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$
其中：
$\delta_t = r_t + \gamma V^\phi(s_{t+1}) - V^\phi(s_t)$

$VϕV^\phi$ 是值函数（Critic 网络），参数为 $ϕ\phi$ 。
$γ\gamma$ 为折扣因子， $λ\lambda$ 为 GAE 超参数（平衡偏差与方差）。

5. 完整目标函数

PPO 的最终目标包含三部分：

策略损失（Clipped Surrogate Objective）
值函数损失（Mean Squared Error）
熵正则项（鼓励探索）

$L_t^{\text{PPO}}(\theta, \phi) = \mathbb{E}_t \left[ L_t^{\text{CLIP}}(\theta) - c_1 L_t^{\text{VF}}(\phi) + c_2 H(\pi_\theta(\cdot|s_t)) \right]$
其中：

值函数损失： $(LtVF(ϕ)=(Vϕ(st)−Vttarget)2)(L_t^{\text{VF}}(\phi) = \left( V^\phi(s_t) - V_t^{\text{target}} \right)^2)$
熵正则项： $H(πθ(⋅∣st))=−∑aπθ(a∣st)log⁡πθ(a∣st)H(\pi_\theta(\cdot|s_t)) = -\sum_a \pi_\theta(a|s_t) \log \pi_\theta(a|s_t)$
$c_1, c_2$ 为权重系数（如 $c_1=0.5, c_2=0.01$ ）。

6. 算法流程

数据收集：用当前策略 $πθold\pi_{\theta_{\text{old}}}$ 与环境交互，收集轨迹 $τ\tau$ 。
优势计算：用 GAE 计算每个时间步的优势 $A_t$ 。
目标优化：对收集的数据进行 $K$ 次迭代（通常 $K=3∼4K=3\sim4$ ），每轮迭代将数据分为小批量：
- 更新策略网络：最大化 $LCLIP(θ)L^{\text{CLIP}}(\theta)$
- 更新值函数网络：最小化 $LVF(ϕ)L^{\text{VF}}(\phi)$
策略同步：将 $θ\theta$ 复制到 $θold\theta_{\text{old}}$ ，开始下一轮数据收集。

7. 数学公式总结

组件	公式
概率比（重要性采样）	$rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}$
Clipped 策略目标函数	$LtCLIP(θ)=min⁡(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)L^{\text{CLIP}}_t(\theta) = \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right)$
GAE 优势	$At=∑l=0T−t(γλ)lδt+lA_t = \sum_{l=0}^{T-t} (\gamma \lambda)^l \delta_{t+l}$ , $δt=rt+γVϕ(st+1)−Vϕ(st)\delta_t = r_t + \gamma V^\phi(s_{t+1}) - V^\phi(s_t)$
值函数损失	$LtVF(ϕ)=(Vϕ(st)−Vttarget)2L_t^{\text{VF}}(\phi) = \left( V^\phi(s_t) - V_t^{\text{target}} \right)^2$
熵正则项	$H(πθ)=−∑aπθ(a∣st)log⁡πθ(a∣st)H(\pi_\theta) = -\sum_a \pi_\theta(a \mid s_t) \log \pi_\theta(a \mid s_t)$
总目标	$LtPPO=Et[LtCLIP−c1LtVF+c2H(πθ)]L_t^{\text{PPO}} = \mathbb{E}_t \left[ L_t^{\text{CLIP}} - c_1 L_t^{\text{VF}} + c_2 H(\pi_\theta) \right]$

8. PPO 的优势

稳定性：Clip 机制避免破坏性的大幅更新。
样本效率：支持多次 epochs 重用数据（on-policy）。
调参简单：超参数少（ $ϵ,K,c1,c2\epsilon, K, c_1, c_2$ ），鲁棒性强。

PPO 已成为深度强化学习的标准算法，广泛应用于游戏控制、机器人、自然语言处理等领域。其核心创新在于裁剪机制，平衡了策略更新的性能与稳定性。

熵正则项（Entropy Regularization）是PPO算法目标函数中的关键组件之一，其核心作用是增强策略的探索能力，防止策略过早收敛到次优解。下面从数学原理和实际影响两个层面进行严谨解释：

一、熵的数学定义与物理意义

设策略网络输出动作概率分布 $πθ(⋅∣st)\pi_\theta(\cdot|s_t)$ ，则其熵定义为：
$H(\pi_\theta(\cdot|s_t)) = -\sum_{a \in \mathcal{A}} \pi_\theta(a|s_t) \log \pi_\theta(a|s_t)$
其中 $A\mathcal{A}$ 是动作空间。熵的物理意义：

不确定性度量：熵值越大，策略选择动作的随机性越强（探索充分）。
确定性度量：熵值越小，策略对某些动作的偏好越强（利用当前知识）。

二、熵正则项的作用机制

在目标函数中加入熵的正则化项：
$L_t^{\text{PPO}}(\theta, \phi) = \mathbb{E}_t \left[ L_t^{\text{CLIP}}(\theta) - c_1 L_t^{\text{VF}}(\phi) + \color{red}{c_2 H(\pi_\theta(\cdot|s_t))} \right]$
其中 $c_2 > 0$ 是正则化系数。最大化总目标函数时，熵项会推动策略向高熵（高随机性）方向更新。

具体作用：

促进探索：
- 当策略倾向于少数动作（熵低）时， $H(πθ)H(\pi_\theta)$ 较小，正则项惩罚较大。
- 算法通过增大 $H(πθ)H(\pi_\theta)$ 鼓励策略更均匀地尝试不同动作，避免陷入局部最优。
防止策略过早收敛：
- 未加熵正则时，策略可能过早确定“看似最优”的动作，忽略潜在更好的选择。
- 熵正则通过保持策略的随机性，延迟策略的“硬化”（Hardening），提高全局收敛性。
改善训练稳定性：
- 高熵策略对环境扰动更鲁棒，减少因噪声导致的学习震荡。
- 尤其在稀疏奖励环境中，探索不足会导致训练停滞，熵正则可缓解此问题。

三、熵正则的直观示例

假设某状态下有两个动作 ${a_1, a_2\}$ ：

低熵策略： $π(a1∣s)=0.99,π(a2∣s)=0.01→H≈0.06\pi(a_1|s)=0.99, \pi(a_2|s)=0.01 \rightarrow H \approx 0.06$
高熵策略： $π(a1∣s)=0.6,π(a2∣s)=0.4→H≈0.67\pi(a_1|s)=0.6, \pi(a_2|s)=0.4 \rightarrow H \approx 0.67$

若 $a_2$ 的实际价值未被充分探索，低熵策略几乎不尝试 $a_2$ ，可能错过更优解；而高熵策略持续探索 $a_2$ ，最终可能发现更高奖励。

四、熵正则对策略更新的影响

通过梯度分析理解其数学行为：
$\nabla_\theta H(\pi_\theta) = -\nabla_\theta \sum_a \pi_\theta(a|s_t) \log \pi_\theta(a|s_t)$
展开后的梯度形式：
$\nabla_\theta H = -\sum_a \left( \nabla_\theta \pi_\theta(a|s_t) \cdot \log \pi_\theta(a|s_t) + \nabla_\theta \pi_\theta(a|s_t) \right)$
梯度更新会：

降低高概率动作的确定性：对 $πθ(a∣st)≈1\pi_\theta(a|s_t) \approx 1$ 的动作， $log⁡πθ≈0\log \pi_\theta \approx 0$ ，但第二项 $∇θπθ\nabla_\theta \pi_\theta$ 推动其概率减小。
提升低概率动作的概率：对 $πθ(a∣st)≈0\pi_\theta(a|s_t) \approx 0$ 的动作， $log⁡πθ→−∞\log \pi_\theta \to -\infty$ ，梯度强烈增大其概率。

五、超参数 $c_2$ 的调节

较大 $c_2$ ：探索性增强，适合复杂/稀疏奖励环境（如蒙特祖玛的复仇）。
较小 $c_2$ ：利用性增强，适合奖励密集的稳定环境（如连续控制任务）。
动态衰减：部分实现随着训练步数衰减 $c_2$ ，后期侧重策略利用。

六、熵正则的算法意义总结

问题类型	熵正则的作用	数学本质
探索不足	强制策略尝试新动作	增大 $H(πθ)H(\pi_\theta)$
早熟收敛	维持策略随机性	约束 $πθ\pi_\theta$ 分布熵
高方差训练	平滑策略更新方向	在梯度中引入均匀化分量

熵正则项是PPO能稳定处理复杂任务的关键设计之一，其通过信息论约束平衡了探索（Exploration）与利用（Exploitation）的矛盾。实验表明，移除熵正则会使PPO在Atari等任务上的性能显著下降（详见OpenAI Spinning Up基准测试）。

Generalized Advantage Estimation (GAE) 详解

GAE 是一种高效估计优势函数的技术，由 Schulman 等人于 2015 年提出。它通过平衡偏差-方差权衡，解决了传统优势估计的局限性。以下是严谨的数学推导和解释：

1. 基础概念回顾

优势函数定义：
$A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$
表示在状态 $s_t$ 下选择动作 $a_t$ 相对于平均水平的优势。
估计挑战：
- 直接估计 $Q$ 函数需要模拟完整轨迹（高方差）
- TD 方法只使用单步奖励（高偏差）

2. k 步优势估计

定义 k 步优势函数：
$A_t^{(k)} = \sum_{l=0}^{k-1} \gamma^l r_{t+l} + \gamma^k V(s_{t+k}) - V(s_t)$

物理意义：
- 前 $k$ 步使用实际奖励
- $k$ 步后用值函数估计剩余回报
特殊情形：
- $k = 1$ ：TD 误差 $δt=rt+γV(st+1)−V(st)\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$
- $k=∞k=\infty$ ：蒙特卡洛估计 $At(∞)=∑l=0∞γlrt+l−V(st)A_t^{(\infty)} = \sum_{l=0}^{\infty} \gamma^l r_{t+l} - V(s_t)$

3. GAE 核心思想

GAE 将不同步数的估计通过参数 $λ∈[0,1]\lambda \in [0,1]$ 进行指数加权平均：
$A_t^{\text{GAE}(\gamma,\lambda)} = (1-\lambda) \left( A_t^{(1)} + \lambda A_t^{(2)} + \lambda^2 A_t^{(3)} + \cdots \right)$

4. 数学推导

步骤 1：用 TD 误差表示 k 步优势

可证：
$A_t^{(k)} = \sum_{l=0}^{k-1} \gamma^l \delta_{t+l}$
其中 $δt=rt+γV(st+1)−V(st)\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是 TD 误差。

步骤 2：代入 GAE 定义

$\begin{align*} A_t^{\text{GAE}} &= (1-\lambda) \left( \delta_t + \lambda (\delta_t + \gamma \delta_{t+1}) + \lambda^2 (\delta_t + \gamma \delta_{t+1} + \gamma^2 \delta_{t+2}) + \cdots \right) \\ &= (1-\lambda) \sum_{k=0}^{\infty} \lambda^k \sum_{l=0}^{k} \gamma^l \delta_{t+l} \end{align*}$

步骤 3：交换求和顺序（关键步骤）

$\begin{align*} A_t^{\text{GAE}} &= (1-\lambda) \sum_{l=0}^{\infty} \gamma^l \delta_{t+l} \sum_{k=l}^{\infty} \lambda^k \\ &= (1-\lambda) \sum_{l=0}^{\infty} \gamma^l \delta_{t+l} \left( \frac{\lambda^l}{1-\lambda} \right) \\ &= \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l} \end{align*}$
最终形式：
$\boxed{A_t^{\text{GAE}(\gamma,\lambda) }= \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}}$

5. 参数 $λ\lambda$ 的作用

$λ\lambda$ 值	估计特性	偏差-方差特性
$λ=0\lambda=0$	退化为 TD 误差 $At=δtA_t = \delta_t$	高偏差，低方差
$λ=1\lambda=1$	退化为 MC 估计 $At=∑l=0∞γlδt+lA_t = \sum_{l=0}^{\infty} \gamma^l \delta_{t+l}$	低偏差，高方差
$0<λ<10<\lambda<1$	平滑过渡	平衡偏差与方差

实验建议： $λ≈0.95\lambda \approx 0.95$ 在多数任务中表现良好

6. 高效计算算法

实际中通过反向递归计算（复杂度 $O (T)$ ）：

def compute_gae(rewards, values, gamma=0.99, lambda_=0.95):deltas = rewards + gamma * values[1:] - values[:-1]A = np.zeros_like(rewards)gae = 0for t in reversed(range(len(rewards))):gae = deltas[t] + gamma * lambda_ * gaeA[t] = gaereturn A

数学形式：
$A_t = \delta_t + \gamma \lambda A_{t+1}$
其中 $AT=δTA_{T} = \delta_T$ （轨迹终点）

7. GAE 的统计性质

期望值（无偏性）

$\mathbb{E}[A_t^{\text{GAE}}] = \mathbb{E}\left[ \sum_{l=0}^{\infty} (\gamma\lambda)^l \delta_{t+l} \right] = A_t^{\text{true}}$
当 $V^{\text{true}}(s)$ 时成立。

方差分析

方差表达式：
$\text{Var}(A_t^{\text{GAE}}) = \sum_{l=0}^{\infty} (\gamma\lambda)^{2l} \text{Var}(\delta_{t+l})$

$λ\lambda$ 减小会指数级降低方差
$γ\gamma$ 减小同时降低偏差和方差

8. 与其他方法的对比

方法	估计形式	优缺点
TD(0)	$At=δtA_t = \delta_t$	低方差，高偏差
MC	$At=∑γlrt+l−V(st)A_t = \sum \gamma^l r_{t+l} - V(s_t)$	高方差，无偏
TD( $λ\lambda$ )	$At=(1−λ)∑(γλ)lδt+lA_t = (1-\lambda)\sum (\gamma\lambda)^l \delta_{t+l}$	通用但需重要性采样
GAE	$∑(γλ)lδt+l\sum (\gamma\lambda)^l \delta_{t+l}$	专为优势函数设计

9. 在 PPO 中的具体应用

数据收集：采样轨迹 ${(s_t, a_t, r_t)\}_{t=0}^{T-1}$
计算值函数：用 Critic 网络输出 $Vϕ(st)V_\phi(s_t)$
计算 TD 误差： $δt=rt+γVϕ(st+1)−Vϕ(st)\delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t)$
计算 GAE： $At=∑l=0T−t−1(γλ)lδt+lA_t = \sum_{l=0}^{T-t-1} (\gamma\lambda)^l \delta_{t+l}$
优化目标：
$\max_\theta \frac{1}{T} \sum_{t=0}^{T-1} \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right)$