当前位置：首页 > news >正文

强化学习的数学原理（一）基本概念

news 2025/7/9 18:15:00

由于全文太长，只好分开发了。(已完结！在专栏查看本系列其他文章）

个人博客可以直接看全文~

本系列为在学习赵世钰老师的“强化学习的数学原理” 课程后所作笔记。

课堂视频链接https://www.bilibili.com/video/BV1sd4y167NS/

第一章基本概念

grid-world example ：一个机器人走网格的经典例子，机器人尽量避免进入forbidden grid、尽量减少拐弯、不要走出边界、…
state: 状态，表示为一个节点，在grid-world中可以表示为一个格子（也可以添加其他信息到状态，如速度等）
state space：状态空间，所有状态的集合。
action：行动，能够使得状态变化的动作。（如向上/下/左/右移动，等）
action space：行动的集合，通常依赖于当前的状态。
state transition：状态转移，从一个状态移动到另一个状态。

$s_5 \overset{a_1}{\rightarrow} s_6$ 表示从状态 $s_5$ 经过动作 $a_1$ 到达状态 $a_6$
state transition probability: 状态转移的条件概率。（例如： $p(s_2|s_1,a_2) = 0.8$ 代表在状态 $s_1$ ，行动 $a_2$ 下， $s_2$ 的概率是0.8)
Policy: 策略，用箭头来表示。表示在某个状态更倾向于走哪个action

$\pi(a_1|s_1)=0 ,\pi(a_2|s_1)=1,\pi(a_3|s_1)=0 ,\pi(a_4|s_1)=0$ 表示在状态 $s_1$ 有1的概率进行行动 $a_2$ 。显然 $\sum_{i=1}^k \pi(a_i|s_1) = 1$
reward: 他是一个实数，代表我们的奖励，如果 $re w a r d > 0$ ,则代表希望它发生， $re w a r d < 0$ 则表示不希望它发生。

例如我们可以将“尝试逃出边界的时候，我们设 $r_{bound} = -1$ , 将到达目的地设为 $r_{target} = 1$

因此我们可以通过设计reward来实现到达目的地。

$p(r=-1|s_1,a_1) = 1, p(r \not= -1 |s_1,a_1)=0$ 表示在状态 $s_1$ 进行 $a_1$ 得到-1的reward的概率是1，得到不是-1的reward的概率是0
trajectory：一个由state、action、reward连接成的链。
return：一个trajectory中所有的reward的总和。通过比较return来评估策略是好是坏
Discounted rate : $\gamma \in [0,1)$ 。 $r_0 + \gamma r_1 + \gamma ^2 r_2 + ...$ ,

$\gamma$ 通常表示是否更看重未来， $\gamma$ 越小，则越看重现在。
Episode: 能够到达terminal states(停止状态) 的trajectory。一个Episode也叫一个Episode task与之对应的是continuing task（指永无止境的任务）。

Markov decision process（MDP）

集合：
- State：状态集合
- Action：对于每个状态s的行动集合 $A (s)$
- Reward：奖励集合 $R (s, a)$
概率要素(probability distribution)：
- State transition probability: $p (s^{'} ∣ s, a)$ 在状态s下，进行行动a，到达另一个状态 $s^{'}$ 的概率。
- Reward probability: $p (r ∣ s, a)$ 在状态s下，进行行动a，得到r的奖励的概率。
- Policy: $\pi(a|s)$ 在状态s下，进行行动a的概率。