《强化学习数学原理》学习笔记8——贝尔曼最优公式小结
贝尔曼最优方程
-
按元素形式(Elementwise Form):
对任意 s∈Ss \in \mathcal{S}s∈S,有
v(s)=maxπ∑aπ(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)v(s′))⏟q(s,a) v(s) = \max_{\pi} \sum_{a} \pi(a|s) \underbrace{\left( \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v(s') \right)}_{q(s,a)} v(s)=πmaxa∑π(a∣s)q(s,a)(r∑p(r∣s,a)r+γs′∑p(s′∣s,a)v(s′)) -
矩阵 - 向量形式(Matrix - Vector Form):
v=maxπ(rπ+γPπv) v = \max_{\pi} (r_{\pi} + \gamma P_{\pi} v) v=πmax(rπ+γPπv)
最后贴一下书里的问答题目: -
问:最优策略的定义是什么?
答:如果一个策略对应的状态价值大于或等于其他任何策略的状态价值,那么这个策略就是最优的。
需要注意的是,这种特定的最优性定义仅适用于表格型强化学习算法。当价值或策略由函数近似表示时,必须使用不同的度量标准来定义最优策略。 -
问:贝尔曼最优方程为什么重要?
答:它很重要,因为它刻画了最优策略和最优状态价值。求解这个方程可以得到一个最优策略以及对应的最优状态价值。 -
问:贝尔曼最优方程是贝尔曼方程吗?
答:是的。贝尔曼最优方程是一种特殊的贝尔曼方程,其对应的策略是最优的。 -
问:贝尔曼最优方程的解是唯一的吗?
答:贝尔曼最优方程有两个未知变量。第一个未知变量是价值,第二个是策略。作为最优状态价值的价值解是唯一的。而作为最优策略的策略解可能不唯一。 -
问:用于分析贝尔曼最优方程解的关键性质是什么?
答:关键性质是贝尔曼最优方程的右侧是一个压缩映射。因此,我们可以应用压缩映射定理来分析它的解。 -
问:最优策略存在吗?
答:存在。根据对贝尔曼最优方程(BOE)的分析,最优策略始终存在。 -
问:最优策略是唯一的吗?
答:不是。可能存在多个或无限个具有相同最优状态价值的最优策略。 -
问:最优策略是随机的还是确定性的?
答:最优策略可以是确定性的,也可以是随机的。一个很好的事实是,始终存在确定性的贪婪最优策略。 -
问:如何得到最优策略?
答:使用迭代算法求解贝尔曼最优方程,可以得到最优策略。 -
问:如果我们降低折扣率的值,对最优策略有什么总体影响?
答:当我们降低折扣率时,最优策略会变得更加短视。也就是说,智能体不敢冒险,即使之后可能会获得更大的累积奖励。 -
问:如果我们将折扣率设为零,会发生什么?
答:得到的最优策略会变得极其短视。智能体会采取具有最大即时奖励的动作,即使该动作从长远来看并不好。 -
问:如果我们将所有奖励都增加相同的量,最优状态价值会改变吗?最优策略会改变吗?
答:将所有奖励增加相同的量是对奖励的仿射变换,这不会影响最优策略。然而,最优状态价值会增加。 -
问:如果我们希望最优策略在到达目标前能避免无意义的迂回,是否应该为每一步增加一个负奖励,以便智能体尽可能快地到达目标?
答:首先,为每一步引入额外的负奖励是对奖励的仿射变换,这不会改变最优策略。其次,折扣率可以自动促使智能体尽可能快地到达目标。这是因为无意义的迂回会增加轨迹长度,并降低折扣回报。