当前位置：首页 > news >正文

从策略梯度到 PPO

news 2025/9/29 14:34:35

在强化学习中，常用参数化策略 $πθ(a∣s)\pi_\theta(a\mid s)$ 来表示智能体的行为策略。目标是最大化策略下的期望回报。

1. 轨迹与策略的概率分布

定义一个（随机）轨迹

$\tau=(s_0,a_0,r_0,s_1,a_1,r_1,\dots,s_{T})$

轨迹在参数化策略下的概率为

$p_\theta(\tau)=p(s_0)\prod_{t=0}^{T-1}\pi_\theta(a_t\mid s_t)\,p(s_{t+1}\mid s_t,a_t).$

其中环境动力学 $p(st+1∣st,at)p(s_{t+1}\mid s_t,a_t)$ 与初始态分布 $p(s_0)$ 不依赖于 $θ\theta$ 。

定义轨迹的回报：

$R(\tau)=\sum_{t=0}^{T-1}\gamma^{t} r_t,$

策略的目标（期望回报）为：

$J(\theta)=\mathbb{E}_{\tau\sim p_\theta}[R(\tau)].$

2. 对参数的梯度

对 $J(θ)J(\theta)$ 求梯度：

$\begin{aligned} \nabla_\theta J(\theta) &=\nabla_\theta \int p_\theta(\tau) R(\tau)\,d\tau = \int R(\tau)\nabla_\theta p_\theta(\tau)\,d\tau\\ &= \int R(\tau) p_\theta(\tau)\nabla_\theta\log p_\theta(\tau)\,d\tau = \mathbb{E}_{\tau\sim p_\theta}\big[R(\tau)\nabla_\theta\log p_\theta(\tau)\big]. \end{aligned}$

该积分是勒贝格积分。展开 $log⁡pθ(τ)\log p_\theta(\tau)$ ：

$\log p_\theta(\tau)=\log p(s_0)+\sum_{t=0}^{T-1}\big(\log\pi_\theta(a_t\mid s_t)+\log p(s_{t+1}\mid s_t,a_t)\big).$

因为 $p(s_0)$ 和 $p(st+1∣st,at)p(s_{t+1}\mid s_t,a_t)$ 不依赖 $θ\theta$ ，它们的梯度为零，于是

$\nabla_\theta\log p_\theta(\tau)=\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta(a_t\mid s_t).$

代入上式得：

$\nabla_\theta J(\theta) = \mathbb{E}_{\tau\sim p_\theta}\Big[R(\tau)\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta(a_t\mid s_t)\Big] = \sum_{t=0}^{T-1}\mathbb{E}_{\tau\sim p_\theta}\big[R(\tau)\nabla_\theta\log\pi_\theta(a_t\mid s_t)\big].$

3. 用 reward-to-go / baseline 减少方差（REINFORCE→策略梯度定理）

把整个轨迹的总回报 $R(τ)R(\tau)$ 替换为从时间 $t$ 开始的reward-to-go

$G_t \triangleq \sum_{t'=t}^{T-1}\gamma^{t'-t} r_{t'}.$
那么：
$\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim p_\theta}\Big[\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta(a_t\mid s_t)\,G_t\Big].$

这是 REINFORCE 的无偏估计器，使用 $G_t$ （而非整条轨迹回报）通常能显著降低方差，因为 $G_t$ 与在时间 $t$ 之前的动作无关。

为了进一步降低方差，可以引入 baseline $b(s_t)$ （只依赖状态），利用恒等：

$\begin{aligned} &\mathbb{E}_{a\sim \pi_\theta}\Big[\nabla_\theta\log\pi_\theta(a_t\mid s_t)\,b(s_t)\Big] \\ &=b(s_t)\mathbb{E}_{a\sim \pi_\theta}\Big[\nabla_\theta \log\pi_\theta(a_t\mid s_t)\,\Big] \\ &=b(s_t) \int\pi_\theta(a_t\mid s_t) \nabla_{\theta} log\pi_\theta(a_t\mid s_t)\,\\ &=b(s_t) \int \nabla_{\theta} \pi_\theta(a_t\mid s_t)\,\\ &=b(s_t)\nabla_{\theta}\mathbb{E}_{a\sim \pi_\theta}\pi_\theta(a_t\mid s_t) \\ &=0. \end{aligned}$

加入该项后：

$\nabla_\theta J(\theta)=\mathbb{E}_{\tau\sim p_\theta}\Big[\sum_{t=0}^{T-1}\nabla_\theta\log\pi_\theta(a_t\mid s_t)\,(G_t - b(s_t))\Big].$

常见的选择是 $b(st)=Vπθ(st)b(s_t)=V^{\pi_\theta}(s_t)$ ，定义优势函数：
$A^{\pi_\theta}(s_t,a_t)=G_t-b(s_t)$
将对轨迹 $τ\tau$ 的采样转换为对每个时间步 $t$ 对应的 $s_t,a_t)$ 的采样，那么：

$\nabla_\theta J(\theta) =\sum_t\mathbb{E}_{s_t\sim d^{\pi_\theta},\,a_t\sim\pi_\theta}\big[\nabla_\theta\log\pi_\theta(a_t\mid s_t)\,A^{\pi_\theta}(s_t,a_t)\big],$

其中 $dπθd^{\pi_\theta}$ 是策略 $πθ\pi_\theta$ 下的状态访问分布.

4. 重要性采样(off policy)

在强化学习中，训练数据依赖于当前策略 $πθ\pi_\theta$ ，参数更新后需要重新采样。为了复用旧策略 $πθ′\pi_{\theta'}$ 收集的轨迹，可用重要性采样修正分布。

一般重要性采样公式：
$E_{x\sim p(x)}[f(x)]=\int f(x)p(x)dx=\int f(x)\frac{p(x)}{q(x)}q(x)dx=E_{x\sim q(x)}[f(x)\frac{p(x)}{q(x)}]$
替换 $θ\theta$ 为 $θ′\theta^{\prime}$ :
$\begin{aligned} &\mathbb{E}_{s_t\sim d^{\pi_\theta},\,a_t\sim\pi_\theta}[A^{\theta}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ &=\int p_{\theta}(s_{t},a_{t})[A^{\theta}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ &=\int p_{\theta^{\prime}}(s_{t},a_{t})[\frac{p_{\theta}(s_{t},a_{t})}{p_{\theta^{\prime}}(s_{t},a_{t})}A^{\theta}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ &=\int p_{\theta^{\prime}}(s_{t},a_{t})[\frac{p_{\theta}(a_{t}|s_{t})}{p_{\theta^{\prime}}(a_{t}|s_{t})}\frac{p_{\theta}(s_{t})}{p_{\theta^{\prime}}(s_{t})}A^{\theta}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ \end{aligned}$

由于奖励函数的取值不会变化，即 $Aθ(st,at)=Aθ′(st,at)A^{\theta}(s_{t},a_{t})=A^{\theta^{\prime}}(s_{t},a_{t})$ ，此外，假设 $dπθd^{\pi_\theta}$ 与 $dπθ′d^{\pi_\theta^{\prime}}$ 很接近，有 $pθ(st)≈pθ′(st)p_{\theta}(s_t)\approx p_{\theta^{\prime}}(s_t)$ ，那么，
$\begin{aligned} &\int p_{\theta^{\prime}}(s_{t},a_{t})[\frac{p_{\theta}(a_{t}|s_{t})}{p_{\theta^{\prime}}(a_{t}|s_{t})}\frac{p_{\theta}(s_{t})}{p_{\theta^{\prime}}(s_{t})}A^{\theta}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ &\approx \int p_{\theta^{\prime}}(s_{t},a_{t})[\frac{p_{\theta}(a_{t}|s_{t})}{p_{\theta^{\prime}}(a_{t}|s_{t})}A^{\theta^{\prime}}(s_{t},a_{t})\nabla logp_{\theta}(a_{t}^{n}|s_{t}^{n})] \\ &= \int p_{\theta^{\prime}}(s_{t},a_{t})[\frac{\nabla p_{\theta}(a_{t}|s_{t})}{p_{\theta^{\prime}}(a_{t}|s_{t})}A^{\theta^{\prime}}(s_{t},a_{t})] \\ \end{aligned}$
此时对应的优化目标是：
$\begin{aligned}J^{\theta^{\prime}}(\theta)&=\sum_t\mathbb{E}_{s_t\sim d^{\pi_{\theta'}},\,a_t\sim\pi_\theta'}[\frac{p_{\theta}(a_{t}|s_{t})}{p_{\theta^{\prime}}(a_{t}|s_{t})}A^{\theta^{\prime}}(s_{t},a_{t})] \end{aligned}$

5. PPO 的目标函数

设 $θk\theta^k$ 为收集数据时的旧参数，优势估计为 $Aθk(st,at)A^{\theta^k}(s_t,a_t)$ 。

（A）带 KL 惩罚的形式

一种做法是在 surrogate 上加 KL 惩罚：

$L^{\text{KL}}(\theta)=\sum_t\mathbb{E}_{s_t\sim d^{\pi_\theta},\,a_t\sim\pi_\theta}\Big[ \frac{\pi_\theta(a_t\mid s_t)}{\pi_{\theta^k}(a_t\mid s_t)} A^{\theta^k}(s_t,a_t)\Big]- \beta\,\mathbb{E}_{s\sim d^{\pi_{\theta^k}}}\big[\mathrm{KL}\big(\pi_{\theta^k}(\cdot\mid s)\,\|\,\pi_{\theta}(\cdot\mid s)\big)\big]$
通过调节 $β\beta$ 控制新旧策略的距离.

（B）裁剪（clipped）形式

PPO 中最常用的是裁剪目标（不显式计算 KL）：

$L^{\text{CLIP}}(\theta) = \sum_t\mathbb{E}_{s_t\sim d^{\pi_\theta},\,a_t\sim\pi_\theta}\Big[ \min\big( r_t(\theta) A_t,\ \ \mathrm{clip}(r_t(\theta),1-\epsilon,1+\epsilon)\,A_t \big) \Big],$

其中 $rt(θ)=πθ(at∣st)πθk(at∣st)r_t(\theta)=\dfrac{\pi_\theta(a_t\mid s_t)}{\pi_{\theta^k}(a_t\mid s_t)}$ ， $A_t$ 为 $Aθk(st,at)A^{\theta^k}(s_t,a_t)$ 的简写。