《强化学习数学原理》学习笔记6——贝尔曼最优方程的压缩性质
紧接着贝尔曼最优方程以及压缩映射定理的内容,进一步证明贝尔曼最优方程右侧函数f(v)f(v)f(v)的压缩性。
一、定理阐述
我们要用压缩映射定理证明贝尔曼最优方程(BOE)中右侧的函数 f(v)f(v)f(v) 是一个压缩映射。
f(v)f(v)f(v) 的压缩性质:贝尔曼最优方程右侧的函数 f(v)f(v)f(v) 是一个压缩映射。具体来说,对于任意 v1,v2∈R∣S∣v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|}v1,v2∈R∣S∣,有
∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)\| f(v_1) - f(v_2) \|_{\infty} \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{1} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)
其中 γ∈(0,1)\gamma \in (0, 1)γ∈(0,1) 是折扣率,∥⋅∥∞\| \cdot \|_{\infty}∥⋅∥∞ 是无穷范数,即向量元素的最大绝对值。
该定理的证明在压缩映射定理中给出。这个定理很重要,因为我们可以用压缩映射定理来分析贝尔曼最优方程。
二、定理证明
考虑任意两个向量 v1,v2∈R∣S∣v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|}v1,v2∈R∣S∣,假设 π1∗≜argmaxπ(rπ+γPπv1)\pi_1^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1)π1∗≜argmaxπ(rπ+γPπv1) 且 π2∗≜argmaxπ(rπ+γPπv2)\pi_2^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2)π2∗≜argmaxπ(rπ+γPπv2)。那么:
f(v1)=maxπ(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,f(v2)=maxπ(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2\begin{align*} f(v_1) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, \\ f(v_2) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \tag{2} \end{align*} f(v1)f(v2)=πmax(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,=πmax(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2(2)
其中 ≥\geq≥ 是按元素比较。因此:
f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)\begin{align*} f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2) \\ &\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2) \\ &= \gamma P_{\pi_1^*} (v_1 - v_2) \tag{3} \end{align*} f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)(3)
类似地,可以证明 f(v2)−f(v1)≤γPπ2∗(v2−v1)f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1)f(v2)−f(v1)≤γPπ2∗(v2−v1)。因此:
γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)\gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \tag{4} γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)
定义
z≜max{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)z \triangleq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|} \tag{5} z≜max{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)
其中 max(⋅)\max(\cdot)max(⋅)、∣⋅∣| \cdot |∣⋅∣ 和 ≥\geq≥ 都是按元素操作的算子。根据定义,z≥0z \geq 0z≥0。一方面,由式(4)和(5)可以得出
−z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)-z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z \tag{6} −z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)
这意味着
∣f(v1)−f(v2)∣≤z(7)| f(v_1) - f(v_2) | \leq z \tag{7} ∣f(v1)−f(v2)∣≤z(7)
由此可得
∥f(v1)−f(v2)∥∞≤∥z∥∞(8)\| f(v_1) - f(v_2) \|_{\infty} \leq \| z \|_{\infty} \tag{8} ∥f(v1)−f(v2)∥∞≤∥z∥∞(8)
其中 ∥⋅∥∞\| \cdot \|_{\infty}∥⋅∥∞ 是无穷范数。
另一方面,假设 ziz_izi 是 zzz 的第 iii 个元素,piTp_i^TpiT 和 qiTq_i^TqiT 分别是 Pπ1∗P_{\pi_1^*}Pπ1∗ 和 Pπ2∗P_{\pi_2^*}Pπ2∗ 的第 iii 行。那么:
zi=max{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\} \tag{9} zi=max{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)
由于 pip_ipi 是所有元素非负且元素和为1的行向量,因此有
∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)| p_i^T (v_1 - v_2) | \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_{\infty} \tag{10} ∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)
类似地,我们有 ∣qiT(v1−v2)∣≤∥v1−v2∥∞| q_i^T (v_1 - v_2) | \leq \| v_1 - v_2 \|_{\infty}∣qiT(v1−v2)∣≤∥v1−v2∥∞。因此,zi≤γ∥v1−v2∥∞z_i \leq \gamma \| v_1 - v_2 \|_{\infty}zi≤γ∥v1−v2∥∞,进而
∥z∥∞=maxi∣zi∣≤γ∥v1−v2∥∞(11)\| z \|_{\infty} = \max_i | z_i | \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{11} ∥z∥∞=imax∣zi∣≤γ∥v1−v2∥∞(11)
将这个不等式代入式(8)可得
∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)\| f(v_1) - f(v_2) \|_{\infty} \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{12} ∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)
这就完成了对 f(v)f(v)f(v) 压缩性质的证明。