当前位置: 首页 > wzjs >正文

长沙县营销型网站建设选哪家石家庄网站怎么建设

长沙县营销型网站建设选哪家,石家庄网站怎么建设,如何自己注册域名,aso优化哪家好1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。 2. 下一时刻估计值计算:下一时刻估计值为 r_{t 1}\g…

1. TD算法逻辑:TD算法即时间差分算法,结合了蒙特卡洛方法和动态规划思想,通过当前估计值和下一个时间步观测值更新状态价值估计,无需完整episode或环境完整信息。

2. 下一时刻估计值计算:下一时刻估计值为 r_{t + 1}+\gamma V(s_{t + 1}) 。其中 r_{t + 1} 是从状态 s_t 转移到 s_{t + 1} 获得的即时奖励,由环境给出;\gamma V(s_{t + 1}) 中 V(s_{t + 1}) 是之前学习得到的对下一个状态价值的估计,\gamma 是折扣因子,取值在0到1之间,衡量未来奖励重要性,二者相加得到下一时刻估计值。

3. 下一个状态价值来源:初始时所有状态价值函数随机或设为0,学习中每经历一次状态转移,根据TD更新公式更新状态价值,下一个状态价值是上一次更新后的结果,随着学习推进逐渐逼近真实价值。

4. 网格世界示例:在 3\times3 网格世界中,智能体从起始位置 S 到终止位置 G ,非终止状态即时奖励 -1,终止状态 0 ,\gamma = 0.9 ,\alpha = 0.1 。初始化价值函数为0,智能体移动时根据TD更新公式更新状态价值,如从 s_t 移动到 s_{t + 1} ,V(s_t) 按公式 V(s_t)\leftarrow V(s_t)+\alpha [r_{t + 1}+\gamma V(s_{t + 1}) - V(s_t)] 更新,不断重复使价值函数收敛。

5. 考虑移动方向情况:若每个方向移动概率相同(如都是 \frac{1}{4} ),当前状态价值函数更新会综合考虑四个方向的即时奖励和后续状态价值信息,按概率加权叠加到当前位置价值函数中。

6. 确定最优策略:为全面考虑并找最优策略,可使用状态价值函数 V(s) 综合所有方向信息更新,或使用动作价值函数 Q(s,a) ,直接为每个状态下每个动作维护价值,通过更新 Q(s,a) 确定每个状态下最优动作,进而找到最优策略 。

http://www.dtcms.com/wzjs/790328.html

相关文章:

  • 兰州新站seowordpress 海报风格
  • 我为群众办实事项目清单网站内优化怎么做
  • 网站制作变量婚庆公司网站怎么做
  • 集团高端网站建设公司网站首页 栏目页 内容页
  • 网站做竞价优化视频怎么下载
  • 企业网站对企业有什么好处互动营销是什么
  • 网站不备案可以做百度竞价吗wordpress4.8.0
  • 怎么查网站是那个公司做的支付网站建设会计分录
  • 要建一个优惠卷网站怎么做做网店有哪些网站
  • 毕业设计网站开发的目的和意义东莞公司网站价格
  • 宜春网站建设推广南宁百度网站设计
  • 怎么查网站服务器外贸公司招聘条件
  • 网站建设目录结构怎么用php做网站后台程序
  • 网站策划的最终体现是撰写网站策划书帝国cms仿站工具
  • 遂宁网站建设公司哪家好网站开发 架构
  • 在线制作logo网站广东知名网站建设
  • 金山品牌网站建设商丘网站制作电话
  • 常州微信网站建设服务成都排名seo公司
  • 网站开发业务规划网站默认后台登陆
  • 网站制作公司-山而wordpress主机搬家
  • 藁城住房和城乡建设局网站html5 公司网站模板
  • 网站seo外链现在进出重庆最新规定
  • 免费网站空间免备案推销商务网站的途径有哪些
  • 站长字体海南在线 天涯社区
  • 门户网站是啥专业柳州网站建设价格
  • 创业 建网站云南网站开发公司介绍
  • 产品价格的网站建设网站怎么做才 吸引人
  • 西部网站邮箱登录wordpress免费别人无法访问
  • 杭州 电子商务网站建设安徽省建设安全质量协会网站
  • 福建漳州网站建设哪家便宜桂林百度网站建设