当前位置：首页 > news >正文

强化学习的数学原理（四）Value iteration Policy iteration

news 2025/7/10 2:07:36

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第四章 Value iteration & Policy iteration

Value iteration algorithm(值迭代算法)

值迭代算法就是根据贝尔曼最优公式来迭代求解优化问题。

$v_{k+1} = f(v_k) = \underset{\pi}{max}(r_\pi + \gamma P_\pi v_\pi)$

**求解步骤：**最开始生成一个任意的状态 $v_0$ ,不断循环以下两步

policy update更新策略： $\pi_{k+1} = \underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_k)$
value update 更新值: $v_{k+1} = r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k$

需要注意的是 $v_k$ 只是一个值，并不是一个state value。

不断迭代直到 $v_k-v_{k-1}$ 足够小就认为已经收敛了。

Policy iteration algorithm(策略迭代算法)

最开始生成一个任意策略 $\pi_0$

policy evalution(PE): $v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$
policy improvement(PI): $\pi_{k+1}=\underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_{\pi_k})$

整体过程即 $\pi_0 \overset{PE}{\to}v_{\pi_0} \overset{PI}{\to}\pi_1\overset{PE}{\to}v_{\pi_1} \overset{PI}{\to}\pi_2\overset{PE}{\to}v_{\pi_2} \overset{PI}{\to}\pi_3....$

几个核心问题：
1. 在policy evaluation中如何求解 state value？
2. 为什么进行PI后， $\pi_{k+1}$ 比 $\pi_k$ 更优？
3. 为什么最终能找到最优解？
4. Policy iteration和Value iteration 有什么关系？
Q1: 有两种方法(即求解贝尔曼公式的两种方法)：
1. closed-form solution : $v_{\pi_k} = (I-\gamma P_{\pi_k})^{-1} r_{\pi_k}$
2. iterative solution: $v^{j+1}_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k}v_{\pi_k}^{(j)} , j = 0,1,2,...$
Q2: $\pi_{k+1}=\underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_{\pi_k})$ ，因为 $\pi_{k+1}$ 一定比 $\pi_k$ 要更大

Q3： $v_{\pi_0} \le v_{\pi_1} \le v_{\pi_2} \le ...\le v_{\pi_k} \le v^*$

Q4: 二者是两个极端

truncated policy iteration algorithm

他是值迭代算法和策略迭代算法的推广，值迭代算法和策略迭代算法是truncated policy iteration algorithm的极端情况。

Policy iteration: $\pi_0 \overset{PE}{\to}v_{\pi_0} \overset{PI}{\to}\pi_1\overset{PE}{\to}v_{\pi_1} \overset{PI}{\to}\pi_2\overset{PE}{\to}v_{\pi_2} \overset{PI}{\to}\pi_3....$

Value iteration: $u_0\overset{PU}{\to}\pi_1'\overset{VU}{\to}u_1\overset{PU}{\to}\pi_2'\overset{VU}{\to}u_2...$

	Policy Iteration algorithm	Value iteration algorithm	Comments
1）Policy：	$\pi _0$	N/A
2) Value:	$v_{\pi_0} = r_{\pi_0}+\gamma P_{\pi_0} v_{\pi_0}$	$v_0 := v_{\pi_0}$
3) Policy:	$\pi_1 = \underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_{\pi_0})$	$\pi_1 = \underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_0)$	两个算法的第一步Policy是相同的。
4) Value:	$KaTeX parse error: Invalid color: ' #FF0000' at position 52: …i_1} \textcolor{̲ ̲#̲F̲F̲0̲0̲0̲0̲}̲{v_{\pi_1}}$	$KaTeX parse error: Invalid color: ' #FF0000' at position 45: …pi_1}\textcolor{̲ ̲#̲F̲F̲0̲0̲0̲0̲}̲{v_0}$	两个算法求 $v_\pi$ 的方法是不一样的
5）Policy：	$\pi_2 = \underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_{\pi_1})$	$\pi_2' = \underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_1)$
…	…	…	…

区别在于计算 $v_{\pi_1}$ 的时候是使用贝尔曼公式求，还是直接继承上一步的求法。

考虑公式 $v_{\pi_1} = r_{\pi_1} + \gamma P_{\pi_1} v _{\pi_1}$
$KaTeX parse error: Invalid color: ' #FF0000' at position 143: …ion\ \textcolor{̲ ̲#̲F̲F̲0̲0̲0̲0̲}̲{v_1}\\ v_{\pi_…$
可以发现，value iteration就是在得到第一个 $v$ 后就进行下一步操作；policy iteration则是不断你迭代直到收敛。那么 truncated policy iteraion则是二者的结合，选择在中间的某一步停下。