当前位置: 首页 > news >正文

《强化学习数学原理》学习笔记6——贝尔曼最优方程的压缩性质

紧接着贝尔曼最优方程以及压缩映射定理的内容,进一步证明贝尔曼最优方程右侧函数f(v)f(v)f(v)的压缩性。

一、定理阐述

我们要用压缩映射定理证明贝尔曼最优方程(BOE)中右侧的函数 f(v)f(v)f(v) 是一个压缩映射。

f(v)f(v)f(v) 的压缩性质:贝尔曼最优方程右侧的函数 f(v)f(v)f(v) 是一个压缩映射。具体来说,对于任意 v1,v2∈R∣S∣v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|}v1,v2RS,有
∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(1)\| f(v_1) - f(v_2) \|_{\infty} \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{1} f(v1)f(v2)γv1v2(1)
其中 γ∈(0,1)\gamma \in (0, 1)γ(0,1) 是折扣率,∥⋅∥∞\| \cdot \|_{\infty} 是无穷范数,即向量元素的最大绝对值。

该定理的证明在压缩映射定理中给出。这个定理很重要,因为我们可以用压缩映射定理来分析贝尔曼最优方程。

二、定理证明

考虑任意两个向量 v1,v2∈R∣S∣v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|}v1,v2RS,假设 π1∗≜arg⁡max⁡π(rπ+γPπv1)\pi_1^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1)π1argmaxπ(rπ+γPπv1)π2∗≜arg⁡max⁡π(rπ+γPπv2)\pi_2^* \triangleq \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2)π2argmaxπ(rπ+γPπv2)。那么:
f(v1)=max⁡π(rπ+γPπv1)=rπ1∗+γPπ1∗v1≥rπ2∗+γPπ2∗v1,f(v2)=max⁡π(rπ+γPπv2)=rπ2∗+γPπ2∗v2≥rπ1∗+γPπ1∗v2\begin{align*} f(v_1) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, \\ f(v_2) &= \max_{\pi} (r_{\pi} + \gamma P_{\pi} v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \tag{2} \end{align*} f(v1)f(v2)=πmax(rπ+γPπv1)=rπ1+γPπ1v1rπ2+γPπ2v1,=πmax(rπ+γPπv2)=rπ2+γPπ2v2rπ1+γPπ1v2(2)
其中 ≥\geq 是按元素比较。因此:
f(v1)−f(v2)=rπ1∗+γPπ1∗v1−(rπ2∗+γPπ2∗v2)≤rπ1∗+γPπ1∗v1−(rπ1∗+γPπ1∗v2)=γPπ1∗(v1−v2)\begin{align*} f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2) \\ &\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - (r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2) \\ &= \gamma P_{\pi_1^*} (v_1 - v_2) \tag{3} \end{align*} f(v1)f(v2)=rπ1+γPπ1v1(rπ2+γPπ2v2)rπ1+γPπ1v1(rπ1+γPπ1v2)=γPπ1(v1v2)(3)

类似地,可以证明 f(v2)−f(v1)≤γPπ2∗(v2−v1)f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1)f(v2)f(v1)γPπ2(v2v1)。因此:
γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)(4)\gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \tag{4} γPπ2(v1v2)f(v1)f(v2)γPπ1(v1v2)(4)

定义
z≜max⁡{∣γPπ2∗(v1−v2)∣,∣γPπ1∗(v1−v2)∣}∈R∣S∣(5)z \triangleq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|} \tag{5} zmax{γPπ2(v1v2),γPπ1(v1v2)}RS(5)
其中 max⁡(⋅)\max(\cdot)max()∣⋅∣| \cdot |≥\geq 都是按元素操作的算子。根据定义,z≥0z \geq 0z0。一方面,由式(4)和(5)可以得出
−z≤γPπ2∗(v1−v2)≤f(v1)−f(v2)≤γPπ1∗(v1−v2)≤z(6)-z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z \tag{6} zγPπ2(v1v2)f(v1)f(v2)γPπ1(v1v2)z(6)
这意味着
∣f(v1)−f(v2)∣≤z(7)| f(v_1) - f(v_2) | \leq z \tag{7} f(v1)f(v2)z(7)

由此可得
∥f(v1)−f(v2)∥∞≤∥z∥∞(8)\| f(v_1) - f(v_2) \|_{\infty} \leq \| z \|_{\infty} \tag{8} f(v1)f(v2)z(8)
其中 ∥⋅∥∞\| \cdot \|_{\infty} 是无穷范数。

另一方面,假设 ziz_izizzz 的第 iii 个元素,piTp_i^TpiTqiTq_i^TqiT 分别是 Pπ1∗P_{\pi_1^*}Pπ1Pπ2∗P_{\pi_2^*}Pπ2 的第 iii 行。那么:
zi=max⁡{∣γpiT(v1−v2)∣,∣γqiT(v1−v2)∣}(9)z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\} \tag{9} zi=max{γpiT(v1v2),γqiT(v1v2)}(9)

由于 pip_ipi 是所有元素非负且元素和为1的行向量,因此有
∣piT(v1−v2)∣≤piT∣v1−v2∣≤∥v1−v2∥∞(10)| p_i^T (v_1 - v_2) | \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_{\infty} \tag{10} piT(v1v2)piTv1v2v1v2(10)

类似地,我们有 ∣qiT(v1−v2)∣≤∥v1−v2∥∞| q_i^T (v_1 - v_2) | \leq \| v_1 - v_2 \|_{\infty}qiT(v1v2)v1v2。因此,zi≤γ∥v1−v2∥∞z_i \leq \gamma \| v_1 - v_2 \|_{\infty}ziγv1v2,进而
∥z∥∞=max⁡i∣zi∣≤γ∥v1−v2∥∞(11)\| z \|_{\infty} = \max_i | z_i | \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{11} z=imaxziγv1v2(11)

将这个不等式代入式(8)可得
∥f(v1)−f(v2)∥∞≤γ∥v1−v2∥∞(12)\| f(v_1) - f(v_2) \|_{\infty} \leq \gamma \| v_1 - v_2 \|_{\infty} \tag{12} f(v1)f(v2)γv1v2(12)
这就完成了对 f(v)f(v)f(v) 压缩性质的证明。

http://www.dtcms.com/a/439152.html

相关文章:

  • linux 学习平台 arm+x86 搭建
  • 哪里的网站可以做围棋死活题黄江镇网站仿做
  • 制作网站结构设计国外服务器网站打开慢
  • 数据结构---栈和队列详解(下)
  • 湖南新能源公司中企动力网站建设wordpress网页静态化
  • Kubernetes从零入门(三):Kubernetes API--资源模型
  • 4Byte Instruction SSIC 8bitCPU
  • 可以做外链的网站适合中层管理的培训
  • LangChain源码分析(十)- Memory记忆管理
  • php怎么用来做网站东莞制作网站公司
  • 智能化背景下的SEO关键词策略创新与应用研究
  • AI(学习笔记第九课) 使用langchain的MultiQueryRetriever和indexing
  • Unity学习之寻路导航系统AI Navigation
  • 数据结构学习(1)——指针、结构体、链表(C语言)
  • 【LAMMPS】lammps施加电场或磁场
  • IO模型select与poll,epoll
  • 设计模式(C++)详解——状态模式(State)(2)
  • 网站开发包括几部分上海中学图片
  • 网站开发后台一般用什么计算机网站开发和软件开发
  • 商业网站图片网站建设公司如何营销
  • 深入理解文件系统和软硬链接
  • 【408计组】3.3 SRAM和DRAM
  • 山东菏泽建设银行网站上海有哪些做网站
  • 【开题答辩全过程】以 SpringMVC在筑原平面设计定制管理信息系统的应用与实践为例,包含答辩的问题和答案
  • 昂瑞微,凭啥?
  • 【数据结构】二叉树的遍历与操作
  • 网站常识做网站图片显示不来
  • 阿里云虚拟主机多网站吗东莞公司网络营销公司
  • wordpress课件站模板搭建wordpress脚本
  • 网站被入侵后需做的检测 1宁波seo深度优化平台