当前位置：首页 > news >正文

深度强化学习 | 详细推导随机/确定性策略梯度定理

news 2025/9/22 21:24:03

0 专栏介绍

本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学习技术在机器人运动规划中的实战应用

🚀详情：《运动规划实战精讲：深度强化学习篇》

1 基于策略优化的强化学习

之前章节介绍的基于价值的强化学习具有以下缺陷：

难以处理连续动作。基于价值的强化学习要求有限动作空间，否则需要额外补丁；
无法生成随机策略。基于价值的强化学习本质上通过 $\pi ^*=\mathrm{arg}\max _{a\in A}Q^{\pi}\left( s,a \right)$ 从最优价值获得最优的确定性策略，而某些场合却需要随机策略；
鲁棒性不足。强化学习获得的最优价值函数数值可能不稳定，某状态下两个动作间的价值差距可能处在较大，意味着微小的噪声可能导致最优策略的完全改变；

在基于策略的强化学习(policy-based)框架中，智能体不再从价值函数间接获得策略，而是直接对策略 $\pi \left( a|s \right)$ 这一条件概率分布建模(离散动作常用Softmax函数，连续动作常用高斯概率分布)，改善了value-based强化学习模型的不足。

为了便于神经网络反向传播，需要计算策略的梯度。将策略参数化为 $\pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right)$ ，定义优化目标为累计回报

$\boldsymbol{\theta }^*=\mathrm{arg}\max _{\boldsymbol{\theta }}J\left( \boldsymbol{\theta } \right) =\mathrm{arg}\max _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right)$

即给定初始状态 $\boldsymbol{s}$ ，需要调整 $\boldsymbol{\theta }$ 使策略 $\pi _{\boldsymbol{\theta }}$ 作用于 $\boldsymbol{s}$ 使其带来的回报最大。关于 $\boldsymbol{\theta }$ 的优化方式为策略梯度定理

2 随机性策略梯度定理推导

定理1：策略梯度满足
$\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right) \right]$
其中状态随机变量 $\boldsymbol{s}\sim D^{\pi _{\boldsymbol{\theta }}}$ ，动作随机变量 $\boldsymbol{a}\sim \pi _{\boldsymbol{\theta }}\left( \boldsymbol{a}|\boldsymbol{s} \right)$ ， $D^{\pi _{\boldsymbol{\theta }}}$ 是由 $\pi _{\boldsymbol{\theta }}$ 定义的归一化折扣状态分布。

证明： 根据全概率公式有

$V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}$

代入 $Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\left( R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}+\gamma V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \right)}$ 后两边同时求梯度

$\begin{aligned}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) &=\sum_{\boldsymbol{a}\in A}{\left( \nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) +\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \right)}\\&=\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}+\gamma \sum_{\boldsymbol{a}\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)}}\end{aligned}$

这里导出了由 $\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s \right)$ 到下一个状态 $\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( s' \right)$ 的递推公式

$\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\underset{①}{\underbrace{{ \sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}}}}+\underset{②}{\underbrace{{\gamma \sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}}}}\\+\gamma ^2\sum_{\boldsymbol{a}\in A}{\begin{array}{c} \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right)\\\end{array}}\sum_{\boldsymbol{s}'\in S}{\begin{array}{c} P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\boldsymbol{a}}\\\end{array}}\sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) \sum_{\boldsymbol{s}''\in S}{P_{\boldsymbol{s}'\rightarrow \boldsymbol{s}''}^{\boldsymbol{a}'}\left( \cdots \right)}}$

定义在策略 $\pi$ 作用下从初始状态 $\boldsymbol{s}$ 经 $t$ 步转移到 $\boldsymbol{s}'$ 的状态转移概率为

$Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi \right)$

考察①式可得

$=\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',0,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right)}$

考察②式可得

$=\gamma \sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',1,\pi _{\boldsymbol{\theta }} \right)}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}$

按规律递推可得

$\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\pi _{\boldsymbol{\theta }} \right)}}\sum_{\boldsymbol{a}'\in A}{\nabla _{\boldsymbol{\theta }}\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s}',\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a}' \right)}$

设由策略 $\pi$ 诱导的折扣状态分布(discounted state distribution)为

$d^{\pi}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^tPr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)}$

考虑到

$\sum_{\boldsymbol{s}}{d^{\pi}\left( \boldsymbol{s} \right)}=\sum_t{\gamma ^t\sum_{\boldsymbol{s}}{Pr\left( \boldsymbol{s}_0\rightarrow \boldsymbol{s},t,\pi \right)}}=\sum_t{\gamma ^t}=\frac{1}{1-\gamma}$

所以 $d^{\pi}\left( \boldsymbol{s} \right)$ 并不是一个概率分布，需要补偿系数 $\left( 1-\gamma \right)$ 得到归一化折扣分布

$D^{\pi}\left( \boldsymbol{s} \right) =\left( 1-\gamma \right) d^{\pi}\left( \boldsymbol{s} \right)$

从而

$\nabla _{\boldsymbol{\theta }}V^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}}\left[ \sum_{\boldsymbol{a}'\in A}{\pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a}' \right) Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a}' \right)} \right] \\\propto \mathbb{E} _{\begin{array}{c} \boldsymbol{s}~D^{\pi _{\boldsymbol{\theta }}}\\\end{array}, \boldsymbol{a}~\pi _{\boldsymbol{\theta }}}\left[ Q^{\pi _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \nabla _{\boldsymbol{\theta }}\ln \pi _{\boldsymbol{\theta }}\left( \boldsymbol{s},\boldsymbol{a} \right) \right]$

证毕

在这里插入图片描述

3 确定性策略梯度定理推导

**定理2：**策略梯度满足
$\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) \propto \mathbb{E} \left[ \nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{} \right]$
其中状态随机变量 $\boldsymbol{s}\sim D^{\mu _{\boldsymbol{\theta }}}$ ，动作 $\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)$ ， $D^{\mu _{\boldsymbol{\theta }}}$ 是由 $\mu _{\boldsymbol{\theta }}$ 定义的归一化折扣状态分布。

证明： 与随机策略梯度定理证明不同，确定性策略导致价值函数和动作-价值函数的等价性

$V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}=r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)$

其中 $r\left( \boldsymbol{s},\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right) =\sum\nolimits_{\boldsymbol{s}'\in S}^{}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}R_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}}$ 是单步奖赏函数。根据复合函数链式求导法则

$\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) +\gamma \sum_{\boldsymbol{s}'\in S}{P_{\boldsymbol{s}\rightarrow \boldsymbol{s}'}^{\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right)}$

接着按照随机策略梯度定理证明过程中的递推展开可得

$\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\sum_t{\gamma ^t\sum_{\boldsymbol{s}'\in S}{Pr\left( \boldsymbol{s}\rightarrow \boldsymbol{s}',t,\mu _{\boldsymbol{\theta }} \right)}}\nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)$

引入归一化折扣分布可得

$\nabla _{\boldsymbol{\theta }}V^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s} \right) =\frac{1}{1-\gamma}\sum_{\boldsymbol{s}'\in S}{D^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}' \right) \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s}',\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s}' \right)}\\\propto \mathbb{E} _{\boldsymbol{s}~D^{\mu _{\boldsymbol{\theta }}}}\left[ \nabla _{\boldsymbol{a}}Q^{\mu _{\boldsymbol{\theta }}}\left( \boldsymbol{s},\boldsymbol{a} \right) \mid_{\boldsymbol{a}=\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right)}^{}\nabla _{\boldsymbol{\theta }}\mu _{\boldsymbol{\theta }}\left( \boldsymbol{s} \right) \right]$