当前位置：首页 > wzjs >正文

成都市网站建设公wordpress前台发视频图片

wzjs 2025/9/1 5:24:30

成都市网站建设公,wordpress前台发视频图片,品牌建设表态发言,网络的营销方法有哪些强化学习笔记（一） 回报与价值函数贝尔曼方程全期望公式自举策略马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别马尔可夫决策过程中的价值函数贝尔曼期望方程备份图参考书目：蘑菇书，链接蘑菇书本系列笔记仅为个人学习所…

强化学习笔记（一）

回报与价值函数
贝尔曼方程
全期望公式
自举
策略
马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别
马尔可夫决策过程中的价值函数
贝尔曼期望方程
备份图

参考书目：蘑菇书，链接蘑菇书
本系列笔记仅为个人学习所用，不涉及商业价值

回报与价值函数

范围是指一个回合的长度，即每个回合最大的时间步数，是由有限个步数决定的。

回报指奖励的逐步叠加。假设时间 $t$ 后奖励序列为 $r_{t+1},r_{t+2},\cdots,r_{t+3}$ ，那么回报为
$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \gamma^3 r_{t+4} + \cdots + \gamma^{T-t-1} r_T$
其中 $\gamma$ 为折扣因子，越往后得到的奖励，折扣越多，即希望得到现有的奖励，对未来的奖励打折扣。 $\gamma=0$ 则只关注当前的奖励。

状态价值函数：定义为回报的期望，即
$\begin{aligned} V^t(s) &= \mathbb{E} \left[ G_t \vert s_t = s \right] \\ &= \mathbb{E} \left[ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \gamma^3 r_{t+4} + \cdots + \gamma^{T-t-1} r_T \Big\vert s_t = s \right] \end{aligned}$ 其中 $G_t$ 是折扣回报。对 $G_t$ 取期望，可以看成是对未来可能获得奖励的当前价值的表现，即进入某一个状态后，现在有多大的价值。

贝尔曼方程

从价值函数里推导出贝尔曼方程
$\underbrace{ R(s) }_{即时奖励} + \underbrace{ \gamma \sum_{s' \in S} p \left( s' \vert s \right) V (s') }_{未来奖励的折扣总和}$

全期望公式

全期望公式也被称为叠期望公式（LIE）。如果 $A_i$ 是样本空间的有限或可数的划分，则全期望公式为
$\mathbb{E} [X] = \sum_i \mathbb{E} [ X \vert A_i ] p (A_i )$ 即是一种加权求和。
同样地有
$\begin{aligned} \mathbb{E} \left[ G_{t+1} \big\vert s_{t+1} \right] &= \mathbb{E} [g' \vert s'] \\ &= \sum_{g'} g' p \left( g' \vert s' \right) \end{aligned} \tag{2.9}$ 如果 $X, Y$ 都是离散型随机变量，则条件期望 $\mathbb{E} [ X \vert Y=y ]$ 定义为
$\mathbb{E} [X \vert Y = y] = \sum_x x p ( X = x \vert Y = y )$ 对式(2.9)求期望有
$\mathbb{E} \left[ \mathbb{E} \left[ G_{t+1} \vert s_{t+1} \right] \vert s_t \right] = \mathbb{E} [ g' \vert s ] = \mathbb{E} [ G_{t+1} \vert s_t ]$
贝尔曼方程推导：
$\begin{aligned} V(s) &= \mathbb{E} [ G_t \vert s_t = s ] \\ &= \mathbb{E} \left[ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \gamma^3 r_{t+4} + \cdots \vert s_t = s \right] \\ &= R(s) + \gamma \mathbb{E} [ G_{t+1} \vert s_t = s ] \\ &= R(s) + \gamma \mathbb{E} [ V(s_{t+1}) \vert s_t = s ] \\ &= R(s) + \gamma \sum_{s' \in S} p (s' \vert s) V(s') \end{aligned} \tag{2.11}$ 上式也叫动态规划方程。表明当前状态的价值函数可以通过下个状态的价值函数来计算。它表明的是 $V (s)$ 和 $V (s^{'})$ 之间的关系。
向量形式的解析解：
$\textbf{\textit{V}} = \left( \textbf{\textit{I}} - \gamma \textbf{\textit{P}} \right) ^{-1} \textbf{\textit{R}}$

自举

根据其他估算值来更新估算值的思想，称为自举。当最后更新的状态与我们上一个状态的区别不大时，更新就可以停止，可以输出最新的 $V^{'} (s)$ 作为当前状态的价值。此时贝尔曼方程变成了一个贝尔曼更新。

策略

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，可以把当前状态代入策略函数，得到一个概率
$\pi (a \vert s) = p (a_t = a \vert s_t = s )$ 即在状态 $s$ 下采取 $a$ 动作的概率。bf本质上是一个概率的表示。

当已经知道每个状态下可能采取的动作的概率后，可以直接把动作进行加和，去掉 $a$ ，得到对于马尔可夫奖励过程的转移，其中没有动作
$P_\pi (s' \vert s) = \sum_{a \in A} \pi (a \vert s) p( s' \vert s,a ) \tag{2.18}$ 理解为：从 $s\rightarrow s'$ 的概率=采取 $a$ 时从 $s\rightarrow s'$ 的概率 $p$ $\times$ 在 $s$ 下采取 $a$ 的概率 $\pi$ 。

对于奖励函数，亦可以把动作去掉，得到奖励函数
$r_\pi (s) = \sum_{a \in A} \pi (a \vert s) R(s,a) \tag{2.19}$

马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别

马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的，从当前 $s$ 直接通过转移概率决定下一个状态。
马尔可夫决策过程中间多了一层动作 $a$ ，智能体在当前 $s$ 首先要决定采取一种动作，到达下图的黑色节点。到达黑色节点后，由于具有不确定性，智能体进入未来的状态也是一个概率分布。在当前状态与未来状态转移过程中多了一层决策性，这是主要区别。在马尔可夫决策过程中，动作是由智能体决定的，智能体会采取动作来决定未来的状态转移。

马尔可夫过程对比

马尔可夫决策过程中的价值函数

$V_\pi (s) = \mathbb{E}_\pi [ G_t \vert s_t = s ] \tag{2.20}$ 当策略决定后，对策略进行采样，得到一个期望，从而得出价值函数。

Q函数，也被称为动作价值函数，定义是在某一状态采取某一动作，可能得到的回报的期望
$Q_\pi (s, a) = \mathbb{E}_\pi [G_t \vert s_t = s, a_t = a ]$ 这里的期望也是基于策略函数的。Q是采取单个 $a$ 得到的价值，即单一动作 $a$ 的动作价值。
由于可能采取不同的策略，因此需要对策略函数进行加和，得到策略的价值。对Q函数中的动作进行加和（即遍历所有可能取到的动作），就可以得到价值函数
$V_\pi (s) = \sum_{a \in A} \pi(a \vert s) Q_\pi (s, a) \tag{2.22}$ V是单一状态 $s$ 下所有动作带来的价值的期望，总体来说是单一状态 $s$ 的状态价值。

对Q函数的贝尔曼方程进行推导
$\begin{aligned} Q(s, a) &= \mathbb{E} [ G_t \vert s_t = s, a_t = a] \\ &= \mathbb[ r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots \vert s_t = s, a_t = a] \\ &= \mathbb{E} [r_{t+1} \vert s_t = s, a_t = a] + \gamma \mathbb{E} [r_{t+2} + \gamma r_{t+3} + \gamma^2 r_{t+4} + \cdots \vert s_t = s, a_t = a] \\ &= R(s, a) + \gamma \mathbb{E} [G_{t+1} \vert s_t = s, a_t = a] \\ &= R(s, a) + \gamma \mathbb{E} [V(s_{t+1}) \vert s_t = s, a_t = a] \\ &= R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V(s') \end{aligned} \tag{2.23}$ $\begin{cases} 状态价值V(s)，某状态s的价值 \\ 动作价值Q(s,a)，采取某动作a的价值 \end{cases}$

贝尔曼期望方程

可以把状态价值函数V和动作价值函数Q进行拆分，拆分成即时奖励和后续状态的折扣价值，进而由式(2.20)得到贝尔曼期望方程
$V_\pi (s) = \mathbb{E}_\pi [ G_t \vert s_t = s ] = \mathbb{E}_\pi [ r_{t+1} + \gamma V_\pi (s_{t+1}) \vert s_t = s]$ 对于Q函数亦然
$Q_\pi (s,a) = \mathbb{E}_\pi [ r_{t+1} + \gamma Q_\pi (s_{t+1}, a_{t+1} ) \vert s_t = s, a_t = a]$ 根据式(2.22)
$V_\pi (s) = \sum_{a \in A} \pi(a \vert s) Q_\pi (s, a) \tag{2.22}$ 与式(2.23)
$Q_\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi(s') \tag{2.23}$ 可以看出，式(2.22)为V和Q的关系（由Q推V），式(2.23)为Q和V的关系（由V推Q）。把式(2.23)代入(2.22)有
$V_\pi (s) = \sum_{a \in A} \pi(a \vert s) \left( R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi(s') \right) \tag{2.28}$ 该式表明当前状态的V与未来状态的V之间的关系。
同样地，把(2.22)代入(2.23)有
$Q_\pi(s, a) = R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) \sum_{a \in A} \pi(a' \vert s') Q_\pi (s', a') \tag{2.29}$ 该式表明当前时刻的Q与未来时刻的Q的关系。
(2.28)和(2.29)都是贝尔曼方程的形式。

(2.28)和(2.11)关系：
这里列出两式：
$\gamma \sum_{s' \in S} p (s' \vert s) V(s') \tag{2.11}$ $V_\pi (s) = \sum_{a \in A} \pi(a \vert s) \left( R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi(s') \right) \tag{2.28}$ 两式是开括号的关系。如果我们使用(2.18)和(2.19)：
$P_\pi (s' \vert s) = \sum_{a \in A} \pi (a \vert s) p( s' \vert s,a ) \tag{2.18}$ $r_\pi (s) = \sum_{a \in A} \pi (a \vert s) R(s,a) \tag{2.19}$ 把(2.18)和(2.19)代入(2.11)有
$\begin{aligned} V(s) &= R(s) + \gamma \sum_{s' \in S} p (s' \vert s) V(s') \\ &= R(s) + \gamma \sum_{s' \in S} \left[ \sum_{a \in A} \pi (a \vert s) p( s' \vert s,a ) \right] V(s') \\ &= \sum_{a \in A} \pi (a \vert s) R(s,a) + \gamma \sum_{s' \in S} \left[ \sum_{a \in A} \pi (a \vert s) p( s' \vert s,a ) \right] V(s') \\ &= \sum_{a \in A} \pi (a \vert s) \left[ R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi(s') \right] \end{aligned}$ 即为式(2.28)。

式(2.28)的理解：
$V_\pi (s) = \sum_{a \in A} \pi(a \vert s) \left( R(s, a) + \gamma \sum_{s' \in S} p(s' \vert s, a) V_\pi(s') \right) \tag{2.28}$ 式右边 $\gamma \sum pV$ 表示： $s^{'}$ 为从 $s$ 出发，能够到达的那些状态。这些 $s^{'}$ 对应的状态价值函数 $V (s^{'})$ ，乘以从 $s$ 采取动作 $a$ 到达 $s^{'}$ 的概率 $p$ ，再对所有 $s^{'}$ 求和，得到 $\sum pV$ 。折扣 $\gamma$ 后，加上 $s$ 本身离开自己的奖励 $R$ ，整理再乘以采取该动作 $a$ 的概率 $\pi$ ，再把所有可能的 $a$ 加和，就能得到 $V$ 了。
$\begin{cases} \pi(a \vert s) - 从s出发，采取a的概率 \\ p (s' \vert s, a ) - s状态下，从a出发，发展为s'的概率 \end{cases}$

备份图

备份图中，每一个实心圆圈代表一个状态-动作对，每一个空心圆圈代表一个状态。
备份图2
在上图中：

奖励 $r$ 只出现在实心圆到空心圈的过程中（ $\bullet \rightarrow \circ$ ），因为必须先采取了动作 $a$ （即 $\bullet$ ）才能有奖励 $r$ ！

在式样书(2.28)中有2层加和：1）第一层对叶子节点 $s^{'}$ 进行加和，往上备份一层，这样就能把未来的价值 $s^{'}$ 备份到黑色节点。2）第二层是对动作进行加和，得到黑色节点（ $a$ ）的价值后，再往上备份一层，得到根节点的价值，即当前状态 $s$ 的价值。
备份图
在上图中，(b)为第一层，对应为式(2.22)，即从Q计算出V；( c )为第二层，对应式(2.23)，即从V计算出Q。二式合并即得式(2.28)。