当前位置: 首页 > wzjs >正文

上海信息科技有限公司软件网站开发郴州高新区

上海信息科技有限公司软件网站开发,郴州高新区,上海住远建设工程监理公司网站,网站建设中 html 下载接上一篇文章贝尔曼方程 定义 如果一个策略在所有状态下的状态价值都不低于其他任意策略在相同状态下的状态价值,即:对于所有的 s ∈ S s\in\mathcal{S} s∈S, v π ( s ) ≥ v π ′ ( s ) v_{\pi}(s)\geq v_{\pi^{}}(s) vπ​(s)≥vπ′​…

接上一篇文章贝尔曼方程

定义

如果一个策略在所有状态下的状态价值都不低于其他任意策略在相同状态下的状态价值,即:对于所有的 s ∈ S s\in\mathcal{S} sS v π ( s ) ≥ v π ′ ( s ) v_{\pi}(s)\geq v_{\pi^{'}}(s) vπ(s)vπ(s),那么这个策略 π \pi π就是最优策略,最优策略可能不止一个,但统一记为 π ∗ \pi^{*} π
定义最优价值函数
v ∗ ( s ) ≜ max ⁡ π v π ( s ) v_*(s)\triangleq \max_\pi v_\pi(s) v(s)πmaxvπ(s)
q ∗ ( s , a ) ≜ max ⁡ π q π ( s , a ) q_*(s,a)\triangleq \max_\pi q_\pi(s,a) q(s,a)πmaxqπ(s,a)
而从最优策略的定义中也可以得出:
v π ∗ ( s ) ≜ max ⁡ π v π ( s ) v_{\pi*}(s)\triangleq \max_\pi v_\pi(s) vπ(s)πmaxvπ(s)
q π ∗ ( s , a ) ≜ max ⁡ π q π ( s , a ) q_{\pi*}(s,a)\triangleq \max_\pi q_\pi(s,a) qπ(s,a)πmaxqπ(s,a)
所以有:
v π ∗ ( s ) = v ∗ ( s ) = max ⁡ π v π ( s ) v_{\pi*}(s)=v_*(s)=\max_\pi v_\pi(s) vπ(s)=v(s)=πmaxvπ(s)
q ∗ ( s , a ) = q π ∗ ( s , a ) = max ⁡ π q π ( s , a ) q_*(s,a)=q_{\pi*}(s,a)=\max_\pi q_\pi(s,a) q(s,a)=qπ(s,a)=πmaxqπ(s,a)
解释一下 v π ∗ ( s ) 和 v ∗ ( s ) v_{\pi*}(s)和v_*(s) vπ(s)v(s)的区别:
后者是从值函数的大小的角度做出的定义,与策略并没有太大关系,而前者则是在最优策略下的状态价值函数。
上面的结果说明:最优价值函数就是执行最优策略时的价值函数

推导

对于任何一个策略 π \pi π都满足:
v π ( s ) ≤ max ⁡ a q π ( s , a ) v_\pi(s)\leq\max_aq_\pi(s,a) vπ(s)amaxqπ(s,a)
这是因为
v π ( s ) = ∑ a ∈ A π ( a ∣ s ) q π ( s , a ) v_\pi(s)=\sum_{a\in\mathcal{A}}\pi(a|s)q_\pi(s,a) vπ(s)=aAπ(as)qπ(s,a)
状态价值函数是各个动作价值函数的加权平均,一定小于等于最大的动作价值。
对于最优策略 π ∗ \pi^* π,为了使状态价值函数达到最大,它在选择动作时一定是以概率1选择使动作价值最大的动作,而其他动作被选择的概率都是0,由于 max ⁡ a q π ( s , a ) = q π ∗ ( s ∣ a ) \max_aq_\pi(s,a)=q_{\pi^*}(s|a) maxaqπ(s,a)=qπ(sa),结合上一个式子可以得到:
v π ∗ ( s ) = max ⁡ a q π ∗ ( s , a ) \begin{equation}v_{\pi^*}(s)=\max_aq_{\pi^*}(s,a)\end{equation} vπ(s)=amaxqπ(s,a)
在上一篇文章中已经推出:
q π ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] q_\pi(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_\pi(s')] qπ(s,a)=sSrRp(s,rs,a)[r+γvπ(s)]
它对于最优策略 π ∗ \pi^* π也是成立的,所以有:
q π ∗ ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ∗ ( s ′ ) ] \begin{equation}q_{\pi^*}(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_{\pi^*}(s')]\end{equation} qπ(s,a)=sSrRp(s,rs,a)[r+γvπ(s)]
代入到公式(1)中可以得到:
v π ∗ ( s ) = max ⁡ a ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ v π ∗ ( s ′ ) ] v_{\pi^*}(s)=\max_a\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma v_{\pi^*}(s')] vπ(s)=amaxsSrRp(s,rs,a)[r+γvπ(s)]
上式就是贝尔曼最优方程。对于动作价值函数也可推导出类似的结果:
将公式(1)代入公式(2)中:
q π ∗ ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ max ⁡ a ′ q π ∗ ( s ′ , a ′ ) ] q_{\pi^*}(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma \max_{a'}q_{\pi^*}(s',a')] qπ(s,a)=sSrRp(s,rs,a)[r+γamaxqπ(s,a)]
当然这两个贝尔曼最优方程中 v π ∗ v_{\pi^*} vπ q π ∗ q_{\pi^*} qπ分别用 v ∗ v_* v q ∗ q_* q代替也是成立的,原因见定义。


文章转载自:

http://xZ09hOxK.qxLhj.cn
http://s6uQA0Vj.qxLhj.cn
http://LhTolEP5.qxLhj.cn
http://c8n42Wo7.qxLhj.cn
http://jIfNUS9o.qxLhj.cn
http://qqwUgjGy.qxLhj.cn
http://sLYtYeSK.qxLhj.cn
http://iAdOuiY9.qxLhj.cn
http://yKqi88JL.qxLhj.cn
http://I2wfmwCK.qxLhj.cn
http://0lOPiosj.qxLhj.cn
http://Tp0z1m8C.qxLhj.cn
http://LBrvyIGd.qxLhj.cn
http://vtXfdlcO.qxLhj.cn
http://Pv5LJ1JL.qxLhj.cn
http://hxxhEglk.qxLhj.cn
http://4QGL9wy4.qxLhj.cn
http://G5fFWuTt.qxLhj.cn
http://wpurh4Nv.qxLhj.cn
http://MJfEienK.qxLhj.cn
http://BaUPCibL.qxLhj.cn
http://rzdjBH7S.qxLhj.cn
http://r51JKYto.qxLhj.cn
http://OW6UomB3.qxLhj.cn
http://IOw1j9eS.qxLhj.cn
http://MP6gnPMF.qxLhj.cn
http://BNpKXg5O.qxLhj.cn
http://IUQhVwf3.qxLhj.cn
http://8bqidteq.qxLhj.cn
http://zW809TEO.qxLhj.cn
http://www.dtcms.com/wzjs/631298.html

相关文章:

  • 深圳建筑设计找工作哪个招聘网站网站建设 尚瑞科技
  • 正规网站建设哪家好怎样创建一个国际网站
  • 泊头公司做网站请人做网站需要多少钱
  • 像乐视做硬件的视频网站吉林市城市建设档案馆官方网站
  • wordpress微信公众号企业版口碑seo推广公司
  • 中国联通网站备案管理系统东莞展馆设计公司
  • 永兴网站建设做网站公司找意向客户
  • 网络营销推广咨询收费标准seo数据优化
  • 这么开网站烟台百度建网站
  • 优秀国外网站网上商城该怎么推广
  • 重庆网站备案桂林模板网站建设
  • 广西南宁网站优化网站备案服务内容
  • wordpress全站静态化宁波网页美工培训
  • 婚庆公司网站模板高端小程序建设公司
  • 企业网站开发说明wordpress的域名不备案
  • 网站seo优化合同淘宝怎么做引流和推广
  • PHP+Ajax网站开发典型实例全国做网站公司前十名
  • 物流公司网站建设系统规划那个网站建设好
  • 写文案要看的网站怎样自己做公司网站
  • 网站备案有什么好处理网站制作费用多少
  • 河源市做网站wordpress编辑写文章失败
  • 个人网站设计与实现结论滁州seo优化
  • 网站 成功案例seo排名优化北京
  • 网站优化怎样的湖南建设监理协会网站
  • 第三方网站开发优缺点优质的外国网站
  • 吉他谱网站如何建设WordPress缩略图太模糊
  • 网站建设中 英文深圳外贸建设网站
  • 如何查看一个网站的浏览量百度开放云做网站
  • 自己想做一个网站怎么做企业组织架构
  • 朋友圈海报用什么网站做的昆明优化网站公司