当前位置：首页 > news >正文

《强化学习数学原理》学习笔记9——值迭代算法

news 2025/10/7 5:48:23

一、值迭代算法是什么

值迭代（Value Iteration）是强化学习里求解贝尔曼最优方程的经典算法，核心是通过不断迭代更新状态价值，最终得到最优状态价值和最优策略。

（一）迭代更新的数学基础

值迭代的迭代公式为，见博文式（2）：
$vk+1=max⁡π∈Π(rπ+γPπvk),k=0,1,2,…(1)v_{k + 1} = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v_k), \quad k = 0, 1, 2, \dots \tag{1}$
这里 $v_k$ 是第 $k$ 次迭代的状态价值向量， $rπr_{\pi}$ 是策略 $π\pi$ 下的即时奖励向量， $PπP_{\pi}$ 是策略 $π\pi$ 对应的状态转移矩阵， $γ\gamma$ 是折扣因子。

从压缩映射的角度看，因为 $γ<1\gamma < 1$ ，对于任意初始状态价值 $v_0, v_1$ ，当 $\to \infty$ 时， $v_{k + 1} - v_k\|$ 会指数级收敛到 0。不过，仅 $∥vk+1−vk∥→0\|v_{k + 1} - v_k\| \to 0$ 还不够证明 ${v_k\}$ 收敛，需进一步分析 $m > n$ 时的 $v_m - v_n\|$ 。

把 $v_m - v_n\|$ 拆分为：
$∥vm−vn∥=∥vm−vm−1+vm−1−⋯−vn+1+vn+1−vn∥(2)\|v_m - v_n\| = \|v_m - v_{m - 1} + v_{m - 1} - \cdots - v_{n + 1} + v_{n + 1} - v_n\| \tag{2}$
根据范数的三角不等式（ $∥a+b∥≤∥a∥+∥b∥\|a + b\| \leq \|a\| + \|b\|$ ），上式可推出：
$∥vm−vn∥≤∥vm−vm−1∥+⋯+∥vn+1−vn∥(3)\|v_m - v_n\| \leq \|v_m - v_{m - 1}\| + \cdots + \|v_{n + 1} - v_n\| \tag{3}$
又因为 $∥vk+1−vk∥≤γk∥v1−v0∥\|v_{k + 1} - v_k\| \leq \gamma^k \|v_1 - v_0\|$ ，代入上式得：
$∥vm−vn∥≤γm−1∥v1−v0∥+⋯+γn∥v1−v0∥=γn(γm−1−n+⋯+1)∥v1−v0∥≤γn(1+γ+⋯+γm−1−n+γm−n+⋯)∥v1−v0∥\begin{align*} \|v_m - v_n\| &\leq \gamma^{m - 1} \|v_1 - v_0\| + \cdots + \gamma^n \|v_1 - v_0\| \\ &= \gamma^n (\gamma^{m - 1 - n} + \cdots + 1) \|v_1 - v_0\| \\ &\leq \gamma^n (1 + \gamma + \cdots + \gamma^{m-1-n} + \gamma^{m-n} + \cdots) \|v_1 - v_0\| \tag{4} \end{align*}$
等比数列 $\gamma + \gamma^2 + \cdots$ 的和为 $11−γ\frac{1}{1 - \gamma}$ （因 $γ<1\gamma < 1$ ），所以：
$∥vm−vn∥≤γn1−γ∥v1−v0∥(5)\|v_m - v_n\| \leq \frac{\gamma^n}{1 - \gamma} \|v_1 - v_0\| \tag{5}$
这表明，对任意 $ε>0\varepsilon > 0$ ，总能找到 $N$ ，当 $m, n > N$ 时， $∥vm−vn∥<ε\|v_m - v_n\| < \varepsilon$ ，即 ${v_k\}$ 是柯西序列，必然收敛到极限 $v∗=lim⁡k→∞vkv^* = \lim_{k \to \infty} v_k$ ， $v^*$ 就是最优状态价值。

（二）迭代的两步操作

值迭代算法中，每次迭代分为两个步骤：

策略更新步：在第 $k$ 次迭代，根据当前状态价值 $v_k$ ，找到能最大化 $rπ+γPπvkr_{\pi} + \gamma P_{\pi} v_k$ 的策略 $πk+1\pi_{k + 1}$ ，即：
$πk+1=arg⁡max⁡π(rπ+γPπvk)(6)\pi_{k + 1} = \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_k) \tag{6}$
对于每个状态 $s$ ，要找到使 $∑aπ(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′))\sum_{a} \pi(a|s) \left( \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v_k(s') \right)$ 最大的策略，最优策略是确定性贪婪策略：
$πk+1(a∣s)={1,a=ak∗(s)0,a≠ak∗(s)(7)\pi_{k + 1}(a|s) = \begin{cases} 1, & a = a_k^*(s) \\ 0, & a \neq a_k^*(s) \tag{7} \end{cases}$
其中 $a_k^*(s) = \arg\max_{a} q_k(s, a)$ ， $qk(s,a)=∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′)q_k(s, a) = \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v_k(s')$ 。若 $a_k^*(s)$ 有多个解，也就是多个动作具有相同的最大动作价值，任选其一不影响算法收敛，这种选最大 $q_k(s, a)$ 对应动作的策略就是贪婪策略。
价值更新步：用新策略 $πk+1\pi_{k + 1}$ 计算新的状态价值 $v_{k + 1}$ ，公式为：
$vk+1=rπk+1+γPπk+1vk(8)v_{k + 1} = r_{\pi_{k + 1}} + \gamma P_{\pi_{k + 1}} v_k \tag{8}$
对每个状态 $s$ ，有：
$vk+1(s)=∑aπk+1(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vk(s′))(9)v_{k + 1}(s) = \sum_{a} \pi_{k + 1}(a|s) \left( \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v_k(s') \right) \tag{9}$
将贪婪策略代入，可得 $v_{k + 1}(s) = \max_{a} q_k(s, a)$ 。

总结一下，值迭代步骤如下所示：

$vk+1(s)=max⁡aqk(s,a)已知v_k(s) \to 计算q_k(s, a) \to \text{计算新策略} \pi_{k+1}(s) \to \text{由新策略得到新价值函数 } v_{k+1}(s) = \max_a q_k(s, a)$

参考书中的伪代码：
在这里插入图片描述

三、直观示例：网格世界中的值迭代

以书中一个 $\times 2$ 网格（含一个禁止区域）为例，目标区域是 $s_4$ （如下图所示），奖励设置为：边界和禁止区域奖励 $rboundary=rforbidden=−1r_{\text{boundary}} = r_{\text{forbidden}} = -1$ ，目标区域奖励 $rtarget=1r_{\text{target}} = 1$ ，折扣率 $γ=0.9\gamma = 0.9$ 。
在这里插入图片描述

（一）初始化

首先，我们需要对初始状态价值进行设定。在这个示例中，为了简化计算且不失一般性，我们令初始状态价值 $v_0(s_1) = v_0(s_2) = v_0(s_3) = v_0(s_4) = 0$ 。这就是给算法一个起始点，让它从这里开始探索各个状态的价值。
同时设定五个动作： $a_1,a_2,a_3,a_4,a_5$ 分别表示向上，右，下，左，原地不动。

（二）第 $k = 0$ 次迭代

1. 计算 $q$ 值

在已确定每一个状态选择的动作条件下，动作价值就等于此时的状态价值，也就是说此时：
$r_\pi + \gamma P_{\pi} v(s) \tag{10}$
根据每个状态 - 动作对的 $q$ 值计算公式，计算得到 $q - t ab e l$ ：

q-table	$a_1$	$a_2$	$a_3$	$a_4$	$a_5$
$s_1$	$\gamma v(s_1)$	$\gamma v(s_2)$	$\gamma v(s_3)$	$\gamma v(s_1)$	$\gamma v(s_1)$
$s_2$	$\gamma v(s_2)$	$\gamma v(s_2)$	$\gamma v(s_4)$	$\gamma v(s_1)$	$\gamma v(s_2)$
$s_3$	$\gamma v(s_1)$	$\gamma v(s_4)$	$\gamma v(s_3)$	$\gamma v(s_3)$	$\gamma v(s_3)$
$s_4$	$\gamma v(s_2)$	$\gamma v(s_4)$	$\gamma v(s_4)$	$\gamma v(s_3)$	$\gamma v(s_4)$

现在，把初始的状态价值 $v_0(s_i) = 0$ 代入这些公式，就可以计算出各状态 - 动作对的 $q$ 值，结果如下表所示，每一行中标粗的：

q-table	$a_1$	$a_2$	$a_3$	$a_4$	$a_5$
$s_1$	$- 1$	$- 1$	$0$	$- 1$	$0$
$s_2$	$- 1$	$- 1$	$1$	$0$	$- 1$
$s_3$	$0$	$1$	$- 1$	$- 1$	$0$
$s_4$	$- 1$	$- 1$	$- 1$	$0$	$1$

2. 策略更新

策略更新的原则是为每个状态选择 $q$ 值最大的动作。观察表中每一行的 $q$ 值，我们依据贪婪原则得到此时的最优策略 $π1\pi_1$ ： $π1(a5∣s1)=1\pi_1(a_5|s_1) = 1$ （状态 $s_1$ 选择动作 $a_5$ ）、 $π1(a3∣s2)=1\pi_1(a_3|s_2) = 1$ （状态 $s_2$ 选择动作 $a_3$ ）、 $π1(a2∣s3)=1\pi_1(a_2|s_3) = 1$ （状态 $s_3$ 选择动作 $a_2$ ）、 $π1(a5∣s4)=1\pi_1(a_5|s_4) = 1$ （状态 $s_4$ 选择动作 $a_5$ ）。

把这个策略可视化（如下图所示），我们能发现，在状态 $s_1$ 处，算法选择了静止的动作。此时这个策略并不是最优的，不过值得注意的是，状态 $s_1$ 下动作 $a_5$ 和 $a_3$ 的 $q$ 值是相同的，所以在实际中可以随机选择其中一个动作（本例选 $a_5$ ）。
在这里插入图片描述

3. 价值更新

价值更新是将每个状态的 $v$ 值更新为该状态下最大的 $q$ 值。从表中找到每个状态的最大 $q$ 值，更新后得到： $v_1(s_1) = 0$ ， $v_1(s_2) = 1$ ， $v_1(s_3) = 1$ ， $v_1(s_4) = 1$ 。

（三）第 $k = 1$ 次迭代

1. 计算 $q$ 值

现在，我们把上一次迭代得到的状态价值 $v_1(s_i)$ 代入 $q$ 值计算公式（表 4.1），得到新的 $q$ 值，结果如下表所示：

q-table	$a_1$	$a_2$	$a_3$	$a_4$	$a_5$
$s_1$	$\gamma \times 0$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 0$	$\gamma \times 0$
$s_2$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 0$	$\gamma \times 1$
$s_3$	$\gamma \times 0$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$
$s_4$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$	$\gamma \times 1$

2. 策略更新

同样按照选择各状态下最大 $q$ 值对应动作的原则，得到策略 $π2\pi_2$ ： $π2(a3∣s1)=1\pi_2(a_3|s_1) = 1$ 、 $π2(a3∣s2)=1\pi_2(a_3|s_2) = 1$ 、 $π2(a2∣s3)=1\pi_2(a_2|s_3) = 1$ 、 $π2(a5∣s4)=1\pi_2(a_5|s_4) = 1$ 。将这个策略可视化（如下图所示），可以看到此时的策略已经是最优的了。

在这里插入图片描述

3. 价值更新

更新状态价值为： $v2(s1)=γ×1v_2(s_1) = \gamma \times 1$ ， $v2(s2)=1+γ×1v_2(s_2) = 1 + \gamma \times 1$ ， $v2(s3)=1+γ×1v_2(s_3) = 1 + \gamma \times 1$ ， $v2(s4)=1+γ×1v_2(s_4) = 1 + \gamma \times 1$ 。