当前位置：首页 > news >正文

《强化学习数学原理》学习笔记4——贝尔曼最优方程推理过程

news 2025/10/3 6:00:25

贝尔曼最优方程（Bellman Optimality Equation, BOE）推理详解

在强化学习中，贝尔曼最优方程（BOE）是分析最优策略和最优状态价值的核心工具。通过求解这个方程，我们能得到最优策略与最优状态价值。接下来，我们一步步深入理解它。

一、贝尔曼最优方程的元素形式

对于每个状态 $\in \mathcal{S}$ ，贝尔曼最优方程的元素形式为：
$\begin{align*} v(s) &= \max_{\pi(s) \in \Pi(s)} \sum_{a \in \mathcal{A}} \pi(a|s) \left( \sum_{r \in \mathcal{R}} p(r|s,a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s,a)v(s') \right) \\ &= \max_{\pi(s) \in \Pi(s)} \sum_{a \in \mathcal{A}} \pi(a|s) q(s,a) \tag{1} \end{align*}$

其中 $v (s)$ 、 $v (s^{'})$ 是待求解的未知变量，且 $\triangleq \sum_{r \in \mathcal{R}} p(r|s,a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s,a)v(s')$ 。这里 $π(s)\pi(s)$ 表示状态 $s$ 下的策略， $Π(s)\Pi(s)$ 是状态 $s$ 下所有可能策略的集合。

初次看到这个方程，可能会有疑惑：一个方程里有 $v (s)$ 和 $π(a∣s)\pi(a|s)$ 两个未知量，该怎么解呢？别担心，我们可以依次求解这两个未知量，下面通过例子来理解。

二、从简单例子看多未知量方程的求解思路

先看一个简单的例子，理解如何处理这种存在多个未知量的方程。

例子 3.1：考虑两个未知变量 $\in \mathbb{R}$ ，满足 $\max_{y \in \mathbb{R}} (2x - 1 - y^2)$ 。

第一步：求解右侧的 $y$
不管 $x$ 取何值， $max_{y}(2x - 1 - y^2) = 2x - 1$ ，当 $y = 0$ 时取得最大值。
第二步：求解 $x$
当 $y = 0$ 时，方程变为 $x = 2 x - 1$ ，解得 $x = 1$ 。

所以，方程的解是 $y = 0$ ， $x = 1$ 。

这个例子给我们的启发是：面对有多个未知量的方程，可以逐个求解未知量。接下来，我们把这个思路应用到贝尔曼最优方程上。

三、贝尔曼最优方程右侧的最大化问题求解

回到贝尔曼最优方程，式（1）可以简洁地写成 $\max_{\pi(s) \in \Pi(s)} \sum_{a \in \mathcal{A}} \pi(a|s) q(s,a),\ s \in \mathcal{S}$ 。我们借鉴例子 3.1 的思路，先求解右侧最优的 $π\pi$ 值。

（一）再看一个辅助例子

例子 3.2：已知 $q1,q2,q3∈Rq_1,q_2,q_3 \in \mathbb{R}$ ，要找到 $c_1,c_2,c_3$ 的最优值，使得 $∑i=13ciqi=c1q1+c2q2+c3q3\sum_{i=1}^3 c_i q_i = c_1 q_1 + c_2 q_2 + c_3 q_3$ 最大化，其中 $c_1 + c_2 + c_3 = 1$ 且 $c1,c2,c3≥0c_1,c_2,c_3 \geq 0$ （此处的 $c$ 对应概率 $π(a∣s)\pi(a|s)$ ）。

不妨假设 $q3≥q1,q2q_3 \geq q_1,q_2$ ，那么最优解是 $c_3^* = 1$ ， $c_1^* = c_2^* = 0$ 。这是因为：
$q_3 = (c_1 + c_2 + c_3)q_3 = c_1 q_3 + c_2 q_3 + c_3 q_3 \geq c_1 q_1 + c_2 q_2 + c_3 q_3 \tag{2}$
对任意 $c_1,c_2,c_3$ 都成立。

（二）应用到贝尔曼最优方程

受例子 3.2 启发，因为 $∑aπ(a∣s)=1\sum_{a} \pi(a|s) = 1$ ，所以有：
$v(s)=\sum_{a \in \mathcal{A}} \pi(a|s) q(s,a) \leq \sum_{a \in \mathcal{A}} \pi(a|s) \max_{a \in \mathcal{A}} q(s,a) = \max_{a \in \mathcal{A}} q(s,a) \tag{3}$
当且仅当 $π(a∣s)={1,a=a∗0,a≠a∗\pi(a|s) = \begin{cases} 1, & a = a^* \\ 0, & a \neq a^* \end{cases}$ 时，等号成立，其中 $a^* = \arg\max_{a} q(s,a)$ 。

总结一下，最优策略 $π(s)\pi(s)$ 是选择能使 $q (s, a)$ 取值最大的动作的策略。

四、贝尔曼最优方程的矩阵 - 向量形式

贝尔曼最优方程是针对所有状态定义的一组方程。如果把这些方程结合起来，能得到简洁的矩阵 - 向量形式。

（一）矩阵 - 向量形式的表达式

贝尔曼最优方程的矩阵 - 向量形式为：
$\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v) \tag{4}$
其中 $\in \mathbb{R}^{|\mathcal{S}|}$ ， $max⁡π\max_{\pi}$ 是逐元素执行的。 $rπr_{\pi}$ 和 $PπP_{\pi}$ 的结构与普通贝尔曼方程的矩阵 - 向量形式中的结构相同：
$[r_{\pi}]_s \triangleq \sum_{a \in \mathcal{A}} \pi(a|s) \sum_{r \in \mathcal{R}} p(r|s,a)r, \quad [P_{\pi}]_{s,s'} = p(s'|s) \triangleq \sum_{a \in \mathcal{A}} \pi(a|s) p(s'|s,a) \tag{5}$