《强化学习数学原理》学习笔记3——贝尔曼方程核心概念梳理
贝尔曼方程核心概念梳理
1. 状态价值(State Value)
vπ(s)=E[Gt∣St=s]v_\pi(s) = \mathbb{E}[G_t | S_t = s] vπ(s)=E[Gt∣St=s]
解释:策略 π\piπ 下,当前处于状态 sss 时,从该状态往后所有回报的期望。
2. 动作价值(Action Value)
qπ(s,a)=E[Gt∣St=s,At=a]q_\pi(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a]qπ(s,a)=E[Gt∣St=s,At=a]
解释:策略 π\piπ 下,当前处于状态 sss 且选动作 aaa 时,从该“状态 - 动作对”往后所有回报的期望。
3. 贝尔曼方程(元素形式)
vπ(s)=∑aπ(a∣s)[∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)vπ(s′)]=∑aπ(a∣s)qπ(s,a)
\begin{align*}
v_{\pi}(s) &= \sum_{a} \pi(a|s) \left[ \sum_{r} p(r|s,a)r + \gamma \sum_{s'} p(s'|s,a)v_{\pi}(s') \right] \\
&= \sum_{a} \pi(a|s) q_{\pi}(s, a)
\end{align*}
vπ(s)=a∑π(a∣s)[r∑p(r∣s,a)r+γs′∑p(s′∣s,a)vπ(s′)]=a∑π(a∣s)qπ(s,a)
解释:状态 sss 的价值 = 该状态下各动作的选择概率 × 对应动作价值,再求和;而动作价值包含“即时回报期望 + 后续状态价值的折扣期望”。
4. 贝尔曼方程(矩阵 - 向量形式)
vπ=rπ+γPπvπ v_\pi = r_\pi + \gamma P_\pi v_\pi vπ=rπ+γPπvπ
解释:用矩阵、向量整体表示状态价值关系,vπv_\pivπ 是状态价值向量,rπr_\pirπ 关联回报,PπP_\piPπ 关联状态转移,体现状态价值与后续状态、即时回报的线性联系。
5. 贝尔曼方程的解法
解析解(Closed - form Solution):通过代数运算直接求精确的状态价值表达式。
迭代解(Iterative Solution):通过不断迭代更新,逐步逼近状态价值的准确值。
最后贴一下原书第2章最后的问答,对笔者很有帮助:
问题1:状态价值与回报之间有什么关系?
答:某一状态的价值是智能体从该状态出发所能获得的回报的均值。
问题2:我们为何关注状态价值?
答:状态价值可用于评估策略。事实上,最优策略是基于状态价值来定义的。这一点在下一章会更加清晰。
问题3:我们为何关注贝尔曼方程?
答:贝尔曼方程描述了所有状态价值之间的关系。它是分析状态价值的工具。
问题4:为何求解贝尔曼方程的过程被称为策略评估?
答:求解贝尔曼方程会得到状态价值。由于状态价值可用于评估一个策略,因此求解贝尔曼方程可被解读为对相应策略的评估。
问题5:我们为何需要研究贝尔曼方程的矩阵 - 向量形式?
答:贝尔曼方程涉及为所有状态建立的一组线性方程。为了求解状态价值,我们必须将所有线性方程整合起来。矩阵 - 向量形式是这些线性方程的简洁表达式。
问题6:状态价值与动作价值之间有什么关系?
答:一方面,一个状态的价值是该状态下各动作价值的均值。另一方面,一个动作的价值依赖于智能体在采取该动作后可能转移到的后续状态的价值。
问题7:我们为何关注给定策略无法选择的动作的价值?
答:尽管给定的策略无法选择某些动作,但这并不意味着这些动作不好。相反,有可能给定的策略并非良策,从而错失了最佳动作。为了找到更好的策略,我们必须持续探索不同的动作,即便其中一些动作可能不会被给定的策略所选择。