当前位置：首页 > news >正文

《强化学习数学原理》学习笔记8——贝尔曼最优公式小结

news 2025/10/4 6:10:56

贝尔曼最优方程

按元素形式（Elementwise Form）：
对任意 $\in \mathcal{S}$ ，有
$\max_{\pi} \sum_{a} \pi(a|s) \underbrace{\left( \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v(s') \right)}_{q(s,a)}$
矩阵 - 向量形式（Matrix - Vector Form）：
$\max_{\pi} (r_{\pi} + \gamma P_{\pi} v)$
最后贴一下书里的问答题目：
问：最优策略的定义是什么？
答：如果一个策略对应的状态价值大于或等于其他任何策略的状态价值，那么这个策略就是最优的。
需要注意的是，这种特定的最优性定义仅适用于表格型强化学习算法。当价值或策略由函数近似表示时，必须使用不同的度量标准来定义最优策略。
问：贝尔曼最优方程为什么重要？
答：它很重要，因为它刻画了最优策略和最优状态价值。求解这个方程可以得到一个最优策略以及对应的最优状态价值。
问：贝尔曼最优方程是贝尔曼方程吗？
答：是的。贝尔曼最优方程是一种特殊的贝尔曼方程，其对应的策略是最优的。
问：贝尔曼最优方程的解是唯一的吗？
答：贝尔曼最优方程有两个未知变量。第一个未知变量是价值，第二个是策略。作为最优状态价值的价值解是唯一的。而作为最优策略的策略解可能不唯一。
问：用于分析贝尔曼最优方程解的关键性质是什么？
答：关键性质是贝尔曼最优方程的右侧是一个压缩映射。因此，我们可以应用压缩映射定理来分析它的解。
问：最优策略存在吗？
答：存在。根据对贝尔曼最优方程（BOE）的分析，最优策略始终存在。
问：最优策略是唯一的吗？
答：不是。可能存在多个或无限个具有相同最优状态价值的最优策略。
问：最优策略是随机的还是确定性的？
答：最优策略可以是确定性的，也可以是随机的。一个很好的事实是，始终存在确定性的贪婪最优策略。
问：如何得到最优策略？
答：使用迭代算法求解贝尔曼最优方程，可以得到最优策略。
问：如果我们降低折扣率的值，对最优策略有什么总体影响？
答：当我们降低折扣率时，最优策略会变得更加短视。也就是说，智能体不敢冒险，即使之后可能会获得更大的累积奖励。
问：如果我们将折扣率设为零，会发生什么？
答：得到的最优策略会变得极其短视。智能体会采取具有最大即时奖励的动作，即使该动作从长远来看并不好。
问：如果我们将所有奖励都增加相同的量，最优状态价值会改变吗？最优策略会改变吗？
答：将所有奖励增加相同的量是对奖励的仿射变换，这不会影响最优策略。然而，最优状态价值会增加。
问：如果我们希望最优策略在到达目标前能避免无意义的迂回，是否应该为每一步增加一个负奖励，以便智能体尽可能快地到达目标？
答：首先，为每一步引入额外的负奖励是对奖励的仿射变换，这不会改变最优策略。其次，折扣率可以自动促使智能体尽可能快地到达目标。这是因为无意义的迂回会增加轨迹长度，并降低折扣回报。