当前位置：首页 > news >正文

强化学习的数学原理（十）actor-critic 方法

news 2025/11/6 2:00:31

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第十章 actor-critic 方法

actor-critic本身就是policy gradient

The simplest actor-critic

也称QAC（这里的Q是公式中的q，也就是action value）

policy gradient算法：
$\begin{aligned} \theta_{t + 1} &= \theta + \alpha \nabla_\theta J(\theta_t) \\ &= \theta _t + \alpha \mathbb E_{S \sim \eta,A \sim \pi}[\nabla _\theta ln \pi(A|S,\theta_t)q_\pi(S,A)] \\ \theta_{t+1} &= \theta_t + \alpha \nabla_\theta ln \pi(a_t|s_t,\theta_t) q_t(s_t,a_t) \end{aligned}$
这个更新策略的算法就是actor， critic则用来估计 $q_t(s_t,a_t)$

如何得到 $q_t(s_t,a_t)$ ？

两种方法：

MC learning：这样结合就得到了REINFORCE算法。
Temporal-difference learning： actor-critic算法。

优化目标函数 $J(\theta)$ ，使其最大化。

对于每个episode的第t步，执行如下：

遵循 $\pi(a|s_t,\theta_t)$ 生成 $a_t$ ，得到( $r_{t+1},s_{t+1}$ ) ,然后遵循 $\pi (a|s_{t+1},\theta_t)$ 生成 $a_{t+1}$
Critic（value update）：
$w_{t+1} = w_t + \alpha_w [r_{t+1} + \gamma q(s_{t+1},a_{t+1}),w_t] - q(s_t,a_t,w_t) \nabla_w q(s_t,a_t,w_t)$
Actor (policy update):
$\theta_{t+1} = \theta_t + \alpha_\theta \nabla_{\theta} ln \pi (a_t|s_t,\theta_t) q(s_t,a_t,w_{t+1})$

这个算法是on-policy 的。

The simplest actor-critic实际上就是 SARSA + value function approximation

advantage actor-critic

也叫AAC ，A2C

首先我们为policy gradient 引入一个新的baseline（b函数）
$KaTeX parse error: Invalid color: ' #0000FF' at position 238: …A) - \textcolor{̲ ̲#̲0̲0̲0̲0̲F̲F̲}̲{b(S)})] \end{…$
为什么引入新的b 函数，等式依然成立？

因为如下公式成立：
$\mathbb E_{S \sim \eta ,A \sim \pi } [\nabla_\theta \ln \pi (A|S,\theta_t)b(S)] = 0$
详细地说:
$\begin{aligned} \mathbb E_{S \sim \eta ,A \sim \pi } [\nabla_\theta \ln \pi (A|S,\theta_t)b(S)] &= \underset{s \in S}{\sum} \eta(s) \underset{a \in \mathcal A}{\sum} \pi(a|s,\theta_t) \nabla_\theta \ln\pi(a|s,\theta_t) b(s) \\ &= \underset{s \in S}{\sum} \eta(s) \underset{a \in \mathcal A}{\sum} \nabla_\theta \pi (a|s,\theta_t) b(s) \\ &= \underset{s \in S}{\sum} \eta(s) b(s) \underset{a \in \mathcal A}{\sum} \nabla_\theta \pi(a|s,\theta_t) \\ &=\underset{s \in S}{\sum} \eta(s) b(s) \nabla_\theta \underset{a \in \mathcal A}{\sum} \pi(a|s,\theta_t) \\ &= \underset{s \in S}{\sum} \eta(s) b(s) \nabla_\theta 1 =0 \end{aligned}$
引入这个b函数有什么用？

我们说 $\nabla_\theta J(\theta) = \mathbb E[X]$

那么我们知道

$\mathbb E[X]$ 和b(S) 无关。
X的方差和b有关。

所以我们可以通过设置b函数来减小方差。

设置b函数为如下值时，能使得方差最小：
$b^* (s) = \frac{\mathbb E_{A\sim \pi }[||\nabla_\theta \ln \pi (A|s,\theta_t)||^2 q(s,A)||]}{\mathbb E_{A\sim \pi }[||\nabla_\theta \ln \pi (A|s,\theta_t)||^2||]}$
其中 $||\nabla_\theta \ln \pi (A|s,\theta_t)||^2$ 可以被认为是一个权重。

但是这个公式太复杂了。我们一般直接用

$\mathbb E_{A \sim \pi}[q(s,A)] = v_\pi(s)$

把上式带入公式中，我们可以得到gradient-ascent算法：
$KaTeX parse error: Invalid color: ' #0000FF' at position 111: …t) ( \textcolor{̲ ̲#̲0̲0̲0̲0̲F̲F̲}̲{q_\pi(S,A) - v…$
我们叫 $\delta_\pi(S,A) = q_\pi(S,A) - v_\pi(S)$ 为advantage funciton（优势函数）

$v_\pi(S)$ 是某个状态下的action的平均值，所以 $\delta_\pi(S,A)$ 描述了当前的action和同状态的其他action相比的优劣。

公式还可以写成下面：
$\theta_{t+1} = \theta _t + \alpha \nabla_\theta \ln \pi (a_t|s_t,\theta_t) \delta_t(s_t,a_t) \\ = \theta _t + \alpha \frac{\nabla_\theta\pi (a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)} \delta_t(s_t,a_t) \\ = \theta _t + \alpha \frac{\delta_t(s_t,a_t) }{\pi(a_t|s_t,\theta_t)} \nabla_\theta\pi (a_t|s_t,\theta_t)$
于是我们公式中的 $\frac{\delta_t(s_t,a_t) }{\pi(a_t|s_t,\theta_t)}$ 决定了step-size（和第9讲REINFORCE中的 $\beta_t$ 一样能够很好地平衡 $e x pl or a t i o n$ 和 $e x pl o i t a t i o n$

A2C ，或者TD actor-critic 的过程：

目标是寻找最大的 $J(\theta)$

在每个episode的第t时刻，我们执行如下：

遵循 $\pi(a|s_t,\theta_t)$ 生成 $a_t$ 然后得到 $r_{t+1},s_{t+1}$
TD error(advantage function):

$\delta_t = r_{t+1} + \gamma v(s_{t+1},w_t) - v(s_t,w_t)$
Critic (value update):

$w_{t+1} = w_t + \alpha_w \delta_t \nabla_w v(s_t,w_t)$
Actor(plicy update):

$\theta_{t+1} = \theta_t + \alpha_\theta \delta_t \nabla_\theta \ln \pi (a_t|s_t,\theta_t)$

这是一个on-policy 的。

off-policy actor-critic

Policy gradient是on-policy的原因是梯度必须服从 $\pi$ 策略，这里的 $\pi$ 既是behavior policy ，同时这个 $\pi$ 也是我们要更新的target policy。

可以使用importance sampling 来把on-policy转为off-policy。
$\mathbb E_{X \sim p_0} [X] = \underset{x}{\sum}p_0(x)x = \underset{x}{\sum} p_1(x) \frac{p_0(x)}{p_1(x)}x = \mathbb E_{X\sim p_1} [f(X)]$
于是我们就可以通过 $p_1$ 进行采样，然后估计 $p_0$ 采样下的均值。那么热和计算$ \mathbb E_{X\sim p_1} [f(X)]$ ?

令f为如下函数：

$\frac{1}{n} \underset{i = 1}{\overset{n}{\sum}} f(x_i) , \text{where } x_i \sim p_i$
那么就有
$\begin{aligned} \mathbb E_{X \sim p_1}[\overline f] &= \mathbb E _{X \sim p_1} [f(X)] \\ var_{X \sim p _ 1} [\overline f] &= \frac{1}{n} var_{X \sim p _1}[f(X)] \end{aligned}$
所以 $\overline f$ （f的平均数）就可以用来估计 $\mathbb E_{X \sim p_1}[\overline f] = \mathbb E _{X \sim p_0} [X]$
$\mathbb E_{X \sim p_0} [X] \approx \overline f = \frac{1}{n}\underset{i = 1}{\overset{n}{\sum}} f(x_i) = \frac{1}{n} \underset{i = 1}{\overset{n}{\sum}}\frac{p_0(x_i)}{p_1(x_i) }x_i$
这里的 $\frac{p_0(x_i)}{p_1(x_i) }$ 可以被认为是权重，那么直观地看就是对于 $p_0$ 相对难取的样本，赋予更高的权重。

这个权重叫做 importance权重。

就是因为我们只能知道 $p_0(x)$ ，但求不出 $\mathbb E_{X \sim o_0}[X]$ , 所以才需要importance sampling。

假设 $\beta$ 是behavior policy生成的经验采样。

我们的目标是更新target policy $\pi$ 来最大化 $J(\theta)$
$J(\theta) = \underset{s \in S}{\sum} d_\beta(s) v_\pi(s) = \mathbb E _{S \sim d_\beta} [v_\pi (S)]$
他的梯度如下：
$\nabla _\theta J(\theta) = \mathbb E_{S \sim \rho,A \sim \beta} [\frac{\pi(A|S,\theta)}{\beta(A|S)} \nabla_\theta \ln \pi(A|S,\theta)q_\pi(S,A)]$
这里的 $\beta$ 是behavior policy ， $\rho$ 是state distribution。

优化：

我们仍然可以通过加上baseline来进行优化：$\delta \pi(S,A) = q\pi(S,A) - v_\pi(S) $ 。

$\theta_{t+1} = \theta_t + \alpha_\theta \frac{\pi(a_t|s_t,\theta_t)}{\beta(a_t|s_t)} \nabla_\theta \ln \pi(a_t|s_t,\theta_t) (q_t(s_t,a_t) - v_t (s_t))$
在这之中
$q_t (s_t,a_t) - v_t(s_t) \approx r_{t+1} + \gamma v_t(s_{t+1}) - v_t(s_t) = \delta_t(s_t,a_t)$
于是最终的算法就是
$\theta_{t+1} = \theta_t + \alpha_\theta \frac{\delta_t (s_t,a_t)}{\beta(a_t|s_t)} \nabla_\theta \ln \pi(a_t|s_t,\theta_t) \pi(a_t|s_t,\theta_t)$

Deterministic actor-critic

DPG和之前的（QAC，A2C、off-policy的actor-critic）相比的一大特点就是他的策略 $\pi(a|s,\theta)$ 可以是负数。

于是我们用deterministic policies来解决continuous action（无限个的、连续的action）

之前我们是通过策略 $\pi(a|s,\theta) \in [0,1]$ 来决定要采取哪个动作a。

而现在我们改成下面这样：
$\mu (s,\theta)$
意味着我们直接通过s得到a的值，而不是借助每一个action的概率来决定选择哪个a。
$J(\theta) = \mathbb E [v_\mu (s)] = \underset{s \in S}{\sum} d_0 (s)v_\mu (s)$
$d_0$ 的选择和 $\mu$ 无关。

选择 $d_0$ 的两种特殊的情况：

$d_0(s_0) - 1$ , $d_0(s \not = s_0) = 0$ . 在这里 $s_0$ 是一个特殊的开始状态。
$d_0$ 取决于behavior policy 在 $\mu$ 上的内容。

$\begin{aligned} \nabla_\theta J(\theta) &= \underset{s \in S}{\rho_\mu(s) \nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}} \\ &= \mathbb E_{S \sim \rho_\mu} [\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}] \end{aligned}$

这里面的梯度没有action A。

所以这个deterministic policy gradient 是一个off-policy的方法。（因为我们不需要关心这个a是通过哪个策略得到的）

梯度上升：
$\theta_{t+1} = \theta_t + \alpha_\theta \mathbb E_{S \sim \rho_\mu} [\nabla_\theta \mu(s)(\nabla_a q_\mu(s,a))|_{a = \mu(s)}] \\ \theta_{t+1} = \theta_t + \alpha_\theta \nabla_\theta \mu(s_t) (\nabla _a q_\mu (s_t,a))|_{a = \mu(s)}$
注意：