当前位置: 首页 > news >正文

动手学强化学习 第5章时序差分算法

时序差分算法

这章引入无模型的强化学习,即不需要环境的奖励函数和状态转移函数,这些是通过agent和环境交互得到的。
在这里插入图片描述
这个公式是时序差分的关键,主要介绍sarsa算法和Q-learning 算法。
sarsa算法-在线策略
在这里插入图片描述
总结来看,本质还是暴力搜索,加入了E-贪心策略,防止跳入局部最优,这里说结合了动态规划,其实还是需要一直搜索知道得到奖励(这里是指掉入悬崖或者走到了目的地)这里应该也不用担心一直游走,因为游走本身就是带惩罚的,所以走回头路的惩罚高于走新的路。
在这里插入图片描述
结果也很有意思,sara会选择原理悬崖的方式走,虽然这不是最优解。
多步sara时序差分的优化,感觉是在计算当前的状态动作对时更加充分的综合后继状态的影响,即状态估计偏差更小,因此能更快收敛。
Q-learning 算法 - 离线策略
在这里插入图片描述
从代码上,区别只有update,这里对如何区分在线策略和离线策略还留有疑问:
在这里插入图片描述
这是gpt的回答,后续在来补吧,感觉离线策略就是忽视引入非实时计算带来的偏差,直接用之前的来计算价值,效率确实会高。
收敛性证明,待补

http://www.dtcms.com/a/558722.html

相关文章:

  • 网站 改版方案上海最大的外贸公司
  • 中国十大大型门户网站网站开发的时间流程
  • Cache 策略
  • 百度网站分析怎么上国外购物网站
  • 二级域名网站查询入口全球搜索引擎排行榜
  • 对比推理 概念
  • React Native第四章
  • 西安网站建设技术外包网站性能优化
  • 乐清网站的建设是在百度中建设网站?
  • 大连网站建设报价优质商家网络销售是什么工作内容
  • 鞋材加工东莞网站建设appstore下载免费软件
  • IOCP + 重叠I/O 实例代码
  • 东莞建设通网站免费百度seo引流
  • 网站建设专业英文WordPress分类登录可见
  • Jmeter压力测试详解:从入门到实战
  • 义乌建网站做任务的网站
  • 中山精品网站建设咨询建设信用卡激活中心网站
  • 专业的网站优化公司成都微信公众号定制
  • Linux网络HTTPS协议原理
  • AI短视频工具的“知识准确性”瓶颈,内容特工队AI如何通过RAG技术破局
  • 做押韵句子的网站建设网站龙华
  • 2、webgl 基本概念 + 绘制点
  • 重复打开同一个网站怎么做做网站广告软件
  • 高级系统架构师笔记——软件工程基础知识(3)逆向工程与需求工程
  • 山东网站建设seo软文推广广告公司
  • 精品成品网站入口网络推广计划书格式
  • 【Qt】 Qt5.14以下版本也可以使用 Q_TRACE_SCOPE啦 !!!
  • o2o网站建设怎么样北京市网站建设 维护推荐
  • 做平面设计在那个网站上找图好惠州做网站多少钱
  • Java接口规范升级 —— 给你的 Java 接口 “穿西装”(参数不瞎填,返回不乱码)