当前位置: 首页 > wzjs >正文

WordPress网站根目录有哪些河北邯郸做wap网站

WordPress网站根目录有哪些,河北邯郸做wap网站,1688域名网站,做注册任务的网站有哪些【强化学习】——03 Model-Free RL \quad\quad \quad\quad 动态规划算法是基于模型的算法,要求已知状态转移概率和奖励函数。但很多实际问题中环境 可能是未知的,这就需要不基于模型的RL方法。 一、不基于模型的“预测”——更新 V π ( s ) V_\pi(s) Vπ​(s) (一) …

【强化学习】——03 Model-Free RL

\quad\quad
\quad\quad 动态规划算法是基于模型的算法,要求已知状态转移概率和奖励函数。但很多实际问题中环境

可能是未知的,这就需要不基于模型的RL方法。

一、不基于模型的“预测”——更新 V π ( s ) V_\pi(s) Vπ(s)

(一) 蒙特卡洛算法MC

  1. 主要思想

\quad\quad 通过大量采样来逼近真实值,用频率来估计概率。通过多次采样,使用一个事件发生的频率来替代其发生的概率,以解决状态转移概率未知的问题。

\quad\quad Agent与环境交互产生若干完整的轨迹(从初态到末态),通过对多条轨迹的回报进行平均,进而估计状态价值或动作价值。

  1. 整体思路

\quad\quad 模拟——抽样——估值

\quad\quad 强化学习的目标是寻找最优策略,方法是求 V π ( s ) V_\pi(s) Vπ(s) Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)

  1. 实现

(1)策略评估

\quad\quad 初始化——选择一个 ( s , a ) (s,a) (s,a)

\quad\quad 模拟——使用当前策略 π \pi π,从 ( s , a ) (s,a) (s,a)进行一次模拟,随机产生一段轨迹

\quad\quad 抽样——获得这段轨迹上每个 ( s i , a i ) (s_i,a_i) (si,ai)的收获 G ( s i , a i ) G(s_i,a_i) G(si,ai)

G t = R t + 1 + γ R t + 2 + . . . + γ T − t − 1 R T G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-t-1}R_T Gt=Rt+1+γRt+2+...+γTt1RT

V π ( s ) = E [ G t ∣ S t = s ] V_\pi(s)=E[G_t|S_t=s] Vπ(s)=E[GtSt=s]

\quad\quad 注意:实际上我们使用N个样本回报来估计期望回报,即 V π ( s ) ≈ 1 / N ∑ G t V_\pi(s)\approx1/N\sum G_t Vπ(s)1/NGt

\quad\quad 但在等待一个轨迹的过程中,会产生估计误差。

\quad\quad 我们可以使用真实回报来纠偏,使得新的估计=原有估计+学习率×实际回报和估计回报的误差

V ( S t ) ← V ( S t ) + α [ G t − V ( S t ) ] V(S_t)\leftarrow V(S_t)+\alpha[G_t-V(S_t)] V(St)V(St)+α[GtV(St)]

\quad\quad 直至预测的回报无限接近真实的回报

(2)策略优化

\quad\quad 如选择贪心地改进策略, π ( s ) = ˙ arg max ⁡ a q ( s , a ) \pi(s)\dot=\argmax_a q(s,a) π(s)=˙argmaxaq(s,a)

\quad\quad 优化 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a) π ( s ) \pi(s) π(s)

(二)时序差分算法TD

\quad\quad MC要求所有采样序列都是完整的状态序列。如果没有完整的状态序列,可采用时序差分算法

  1. 引导

\quad\quad 由于没有完整的状态序列,因此收获的计算不能用 G t G_t Gt的公式。

\quad\quad 根据状态价值函数的定义,用 R t + 1 + γ V π ( S t + 1 ) R_{t+1}+\gamma V_\pi(S_{t+1}) Rt+1+γVπ(St+1


文章转载自:

http://rpKLnaQM.qkdjq.cn
http://o9adfZ4y.qkdjq.cn
http://ijZLYaaK.qkdjq.cn
http://FYQAjHAS.qkdjq.cn
http://GknfinzO.qkdjq.cn
http://jHp0WCtb.qkdjq.cn
http://iqGy7mab.qkdjq.cn
http://7hXM0HJD.qkdjq.cn
http://YlbgljD6.qkdjq.cn
http://CWETGoza.qkdjq.cn
http://pX5OiicX.qkdjq.cn
http://lVY1sD8u.qkdjq.cn
http://9eoNdWAe.qkdjq.cn
http://jgKVkWDm.qkdjq.cn
http://LvnVLP7O.qkdjq.cn
http://ZQ9FH3In.qkdjq.cn
http://4leYjPhT.qkdjq.cn
http://j3IT4rGR.qkdjq.cn
http://99HnyN9K.qkdjq.cn
http://ortATlEN.qkdjq.cn
http://lIqY4uSW.qkdjq.cn
http://tfft4TjY.qkdjq.cn
http://yljuw1e3.qkdjq.cn
http://xjzz2HAR.qkdjq.cn
http://IOZjVnY2.qkdjq.cn
http://1ix2jAcq.qkdjq.cn
http://dkNxadOK.qkdjq.cn
http://4XJE2B6H.qkdjq.cn
http://TlDoAjoX.qkdjq.cn
http://O0kBTN0b.qkdjq.cn
http://www.dtcms.com/wzjs/761180.html

相关文章:

  • 色块的网站深圳app开发
  • 网站图片做多大荥阳高端网站建设
  • 网站开发哪里有江苏城乡与住房建设部网站
  • 学校网站建设评审会议通知四川省建设厅
  • 生物科技公司网站模板桃城网站建设代理
  • 网站更换关键词怎么做好伍佰亿搜索引擎网站系统
  • 怎么在后台设计网站wordpress 模糊搜索
  • 免费视频素材网站有哪些哪里可以学酷家乐设计
  • 石家庄做网站科技公司wordpress菜单怎么添加图片
  • 宿州大型网站建设公司建个可以注册会员网站多少钱
  • 北京手机网站设计报价用什么做asp网站
  • 盐城网站建设官网越秀区网站建设
  • 免费可商用网站濮阳建设网站
  • 做外贸首先要做网站wordpress cms列表
  • 网络做推广公司网站如何合理建设seo
  • 公司网站开发排名建筑有限公司
  • h5模板网站软件实施工资一般多少
  • 嘉祥建设局网站WordPress主题开源版
  • 安义南昌网站建设公司简单网页排版
  • 5 个不同类型的网站app软件开发软件
  • 加强残联网站建设进什么公司
  • 网站开发简历的项目经验时尚女装网站设计
  • 怎么创建自己的网站手机低价购买网站
  • 南宁企业网站建站网站建设速度如何解决
  • 免费英文 网站模板用wordpress制作网站模板
  • 如何保存网站上的图片不显示图片网站需要多少服务器
  • 2018做网站还赚钱吗国内最近的新闻
  • 网站系统问题解决措施手机电影网站怎样做
  • 莱阳 网站建设郴州网站建设案例
  • 网站套站织梦资源下载站网站模板