当前位置: 首页 > wzjs >正文

东莞建站网站建设产品推广wordpress 外链转内链

东莞建站网站建设产品推广,wordpress 外链转内链,wordpress 地图导航,wordpress搜索页面模板本章是课程算法与方法中的第四章,介绍的时序差分学习算法是基于随机近似方法设计的强化学习方法,也是model-free的方法。 时序差分算法是一种近似估计策略状态值的算法,具体的形式如下: 本质上是在当前t时刻,被访问到的…

本章是课程算法与方法中的第四章,介绍的时序差分学习算法是基于随机近似方法设计的强化学习方法,也是model-free的方法。

时序差分算法是一种近似估计策略状态值的算法,具体的形式如下:

本质上是在当前t时刻,被访问到的状态采用近似迭代的策略(即上一章讲的RM算法)估计出一个状态值,没被访问到的维持不变。TD算法更新状态值的公式,可以展开来看。

TD Target是状态值的定义,当前回报加上打折后的后续状态值。TD Error是相关估计误差,类似于SGD里面的梯度。这里证明了随着迭代的持续,估计值会慢慢想真实值靠拢。

而TD Error是用于衡量t时刻的状态值与真实的状态值,如果相等皆大欢喜,如果不相等,则提供了策略修改的信息。

这里引入了一个贝尔曼方程的另一种形式-贝尔曼期望方程。

因为是Model-free,所以只能获取到相关的采样输入,代进贝尔曼期望方程,则为

所以,用RM算法计算状态值,可以表现为一下的一个迭代公式

TD算法的公式再次贴过了,方便两者的对比(即公式3和公式6)。

两个公式有一下差异,对RM算法的表达形式(即公式三)进行对应的修改,就变成了TD算法(公式六)。

这里对比了MC算法和TD算法,TD的算法快一些,不需要等所有抽样结束才开始算。

TD算法适用于计算状态值的算法,对应计算行为值的类似算法叫做Saras(state-action-reward-state-action的缩写),其表达式为

通过Saras算法,可以计算出行为值的期望值,并进一步找到最优策略,具体的方式如下伪代码所示;

介绍完Saras算法,后续是n-step Saras算法,这是Saras和MC算法的结合体。

n是这个算法的一个超参数,设为1变成原版的Saras算法,设为无穷则变成了MC算法。

n-step Saras结合了Saras和MC算法的特点,通过n来调整算法的倾向性。

然后是大名鼎鼎的Q-Learning,Saras的思路是估算出一个策略的行为值,并结合策略改进找到最优策略。而Q-Learning的策略是一步到位。

Q-Learning算法的数学模型如下所示,与Saras算法的形式类似,唯一区别就是TD Target(红框部分)

Q-Learning本质上就是用贝尔曼最优方程计算最优行为值。后面提到了On-policy和Off-policy,如果行为策略和目标策略一致,就是On-policy,否则就是Off-policy。

Off-policy的优点就在于,可以通过另一个策略的采样结果,来找到目标策略的最优情况。

那么怎么判断一个TD算法是On-policy还是Off-policy呢?第一个是看要解决的数学问题,第二个是看算法对实验样本的要求。

Q-Learning是Off-policy,而Saras和MC都是On-policy,因为需要计算的策略,用到的数据都是相同的策略生成的,同时也是个策略问题,都是通过迭代找到最优策略的。

Q-Learning完全不一样

Q-Learning分别可以用On-policy和Off-policy实现,下面是两种方法的伪代码

本章介绍的几个算法,数学模型的架构都是一样的,唯一的区别就是TD Target不一样。

这几个算法都是随机近似法来解决贝尔曼方程或贝尔曼最优方程(Q-Learning)。

个人感觉Monte Carlo、Saras和n-step Saras,分别类似于随机梯度下降、梯度下降、小批量梯度下降。


文章转载自:

http://BMgH3DSz.mhnxs.cn
http://1ysjojHA.mhnxs.cn
http://D4SoRypJ.mhnxs.cn
http://wcv3Mjsc.mhnxs.cn
http://kg1Csw0D.mhnxs.cn
http://uQzJ4zSd.mhnxs.cn
http://o49Z41C9.mhnxs.cn
http://c0ex1DFu.mhnxs.cn
http://csItipV2.mhnxs.cn
http://BBS16TOk.mhnxs.cn
http://WBKDwE8x.mhnxs.cn
http://qm0LxdwJ.mhnxs.cn
http://DC0Eenc6.mhnxs.cn
http://jmzXTks3.mhnxs.cn
http://sf7dBlEC.mhnxs.cn
http://c6u09fuc.mhnxs.cn
http://LsmOOm58.mhnxs.cn
http://mTwN4dpM.mhnxs.cn
http://HuGXzKB0.mhnxs.cn
http://JCzubies.mhnxs.cn
http://zSRsTa7b.mhnxs.cn
http://eQ5twNei.mhnxs.cn
http://jWW9ERjt.mhnxs.cn
http://dEOL4dJl.mhnxs.cn
http://hAhyH6VM.mhnxs.cn
http://1w6mDMQG.mhnxs.cn
http://me7Wzsbh.mhnxs.cn
http://hjDRjI5V.mhnxs.cn
http://iFvQCzDJ.mhnxs.cn
http://5YyPkW8e.mhnxs.cn
http://www.dtcms.com/wzjs/662395.html

相关文章:

  • 高端品牌网站建设建议公司网站建站哪个系统好用
  • 电子商务网站的建设及规划推广小程序拿佣金
  • 校园网站管理系统梅州站改造高铁站
  • 自助建站视频网站建设小程序怎么挂失
  • 嘉兴企业网站模板连锁销售网站制作
  • 深圳网站建设有免费的吗网页制作与网站建设06627
  • 建设手机网站平台江西建设银行分行网站
  • 网站中英文切换怎么做个性化网站开发
  • 做外贸一般去什么网站找客户青岛市区商场黄页
  • 福建省建设相关网站wordpress建一个网站吗
  • 网站积分商城该怎么建立网站建设佛山
  • 大气微电影类网站织梦模板完整版阿里云域名 设置网站
  • 邯郸有设计网站的吗购物网站制作样例
  • 哈尔滨免费自助建站模板北京网站设计引流微信hyhyk1
  • 淘宝客做网站推广比较实用的h5网页建设网站
  • 电子商务网站建设期末试卷答案中英西班牙网站建设
  • 房山营销型网站制作开发如何查看网站的关键词
  • php音乐网站设计北京网站建设市场
  • 网站建设报价 福州石家庄网站优化多少钱
  • 手机网站推荐导航页阿里云建站费用
  • 个人网站建设的背景做网站前的准备什么
  • 品牌网站开发公司网站怎么做好 优帮云
  • 申请关闭网站厦门建站比较好的公司
  • 韩国明星都在那个网站做直播东莞市网站公司
  • 做网站的是不是程序员网站的结构与布局优化
  • 中小企业建站是什么广州一起做网店网站官方
  • 做二手车网站需要什么手续静态网页设计案例
  • 怎样自己开发一款软件关键词排名优化工具有用吗
  • 贵州省建设厅的网站长春免费做网站
  • 导购网站怎么推广北京招标代理公司排名