当前位置：首页 > news >正文

强化学习的数学原理（五） MonteCarlo learning

news 2025/10/16 12:15:30

由于全文太长，只好分开发了。 (已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第五章 MonteCarlo learning

蒙特卡洛方法是一个model-free RL的方法。（前面讲的算法都是model-based RL方法）

抛硬币例子

假设抛硬币问题：抛一个硬币，正面价值为1，反面为-1，期望是多少？

那么 model-based方法：直接计算数学期望 $\mathbb{E}[X] = \underset{x}{\sum}xp(x) = 1*0.5+(-1)*0.5 = 0$

结果很精确，但是通常很难找到这样的数学模型。
model-free方法：做实验，随机扔硬币，然后统计值，最终可以得到近似值。

一个简单的MC-based RL算法

（我们称这个算法为MC-basic算法）

可以通过改变Policy iteration算法来变成model-free 算法。

policy evalution(PE): $v_{\pi_k} = r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}$
policy improvement(PI): $\pi_{k+1}=\underset{\pi}{argmax}(r_\pi + \gamma P_\pi v_{\pi_k})$

$KaTeX parse error: Invalid color: ' #FF0000' at position 75: …(a|s)\textcolor{̲ ̲#̲F̲F̲0̲0̲0̲0̲}̲{q_{\pi_k}(s,a)…$

关键在于计算 $q_{\pi_k}(s,a)$ , 两种方法：

需要模型： $q_{\pi_k}(s,a) = \underset{r}{\sum}p(r|s,a)r + \gamma \underset{s'}{\sum}p(s'|s,a)v_{\pi_k}(s')$
不需要模型： $q_{\pi_k}(s,a) = \mathbb{E}[G_t|S_t=s,A_t=a]$

基于蒙特卡洛的model即通过大量采样来估计 $G_t$

MC exploring Starts

遵循策略 $\pi$ ，我们会得到一个episode如下：

$s_1 \overset{a_2}\to s_2\overset{a_4}\to s_1\overset{a_2}\to s_2\overset{a_3}\to s_5\overset{a_1}{\to}...$

定义Visit；一个episode中访问的 $(s t a t e, a c t i o n)$ 对的数量。

在MC-basic方法中，使用的是Initial-visit method，即只考虑 $s_1 \overset{a_2}{\to}$ 这一个(state,action)对。这导致了没有充分利用了整个episode。

那么对于一个episode:
$\begin{aligned} s_1 \overset{a_2}\to & s_2\overset{a_4}\to & s_1\overset{a_2}\to & s_2\overset{a_3}\to & s_5\overset{a_1}{\to}\dots & [original\ episode] \\ &s_2\overset{a_4}\to & s_1\overset{a_2}\to &s_2\overset{a_3}\to &s_5\overset{a_1}{\to}\dots & [episode\ starting\ from (s_2,a_4)] \\ &&s_1\overset{a_2}\to &s_2\overset{a_3}\to &s_5\overset{a_1}{\to} \dots & [episode\ starting\ from (s_1,a_2)] \\ &&& s_2\overset{a_3}\to &s_5\overset{a_1}{\to} \dots & [episode\ starting\ from (s_2,a_3)] \\ &&&&s_5\overset{a_1}{\to} \dots & [episode\ starting\ from (s_5,a_1)] \end{aligned}$
因此我们就可以通过这一个episode来估计 $(s_1,a_2),(s_2,a_4),(s_1,a_2),(s_2,a_3),(s_5,a_1),\dots$ 的action value。而不是仅仅用于 $s_1,a_2)$ 。

first-visist : 指在遇到相同的(state,action)时，只使用第一次遇到的。
every-visit：指在遇到相同的(state,action)时，每个都做考虑，最后综合起来。

generalized policy iteration(广义策略迭代)：指并不是精确求解的代码，使用迭代来得到策略，像truncated policy iteration algorithm和 MC都属于generalized policy iteration 。

soft policies

因为我们从一个(state,action)出发能够到达多个状态，所以我们也就没必要把所有的(state,action)都设置为出发点了。

那么如何选择出发点？

$\epsilon-greedy\ policies$ : $KaTeX parse error: {equation} can be used only in display mode.$

这里的greedy action指的就是 $q_\pi(s,a^*)$ 最大的那个action。( $\epsilon$ 通常很小)，这样在保证greedy action被选择的概率较大的情况下，其他的action同样有一些概率被选择。

$\epsilon-greedy\ policies$ 能够平衡 $e x pl o i t a t i o n$ 和 $e x pl or a t i o n$

exploitation：指的是充分利用value，贪心于当前。

exploration：指的是探索当前非最佳的情况，可能会找到未来更优的情况。

这样选择一个(state,action)作为出发点，就可以通过exploration来得到所有的(state,action)的策略。

MC $\epsilon$ -Greedy algorithm

对于之前的方法，只会选择最优的action，即 $a^*$ 。

$KaTeX parse error: Invalid color: ' #0000FF' at position 41: …rset{\textcolor{̲ ̲#̲0̲0̲0̲0̲F̲F̲}̲{\pi \in \Pi_{\…$

那么对于MC $\epsilon$ -Greedy algorithm
$KaTeX parse error: Unknown column alignment: * at position 67: … \begin{array}{*̲*lr**} 1-\fra…$
便是给了其他action一个较小的 $\frac{\epsilon}{|A(s)|}$