当前位置: 首页 > news >正文

《强化学习数学原理》学习笔记8——贝尔曼最优公式小结

贝尔曼最优方程

  • 按元素形式(Elementwise Form)
    对任意 s∈Ss \in \mathcal{S}sS,有
    v(s)=max⁡π∑aπ(a∣s)(∑rp(r∣s,a)r+γ∑s′p(s′∣s,a)v(s′))⏟q(s,a) v(s) = \max_{\pi} \sum_{a} \pi(a|s) \underbrace{\left( \sum_{r} p(r|s, a)r + \gamma \sum_{s'} p(s'|s, a)v(s') \right)}_{q(s,a)} v(s)=πmaxaπ(as)q(s,a)(rp(rs,a)r+γsp(ss,a)v(s))

  • 矩阵 - 向量形式(Matrix - Vector Form)
    v=max⁡π(rπ+γPπv) v = \max_{\pi} (r_{\pi} + \gamma P_{\pi} v) v=πmax(rπ+γPπv)
    最后贴一下书里的问答题目:

  • :最优策略的定义是什么?
    :如果一个策略对应的状态价值大于或等于其他任何策略的状态价值,那么这个策略就是最优的。
    需要注意的是,这种特定的最优性定义仅适用于表格型强化学习算法。当价值或策略由函数近似表示时,必须使用不同的度量标准来定义最优策略。

  • :贝尔曼最优方程为什么重要?
    :它很重要,因为它刻画了最优策略和最优状态价值。求解这个方程可以得到一个最优策略以及对应的最优状态价值。

  • :贝尔曼最优方程是贝尔曼方程吗?
    :是的。贝尔曼最优方程是一种特殊的贝尔曼方程,其对应的策略是最优的。

  • :贝尔曼最优方程的解是唯一的吗?
    :贝尔曼最优方程有两个未知变量。第一个未知变量是价值,第二个是策略。作为最优状态价值的价值解是唯一的。而作为最优策略的策略解可能不唯一。

  • :用于分析贝尔曼最优方程解的关键性质是什么?
    :关键性质是贝尔曼最优方程的右侧是一个压缩映射。因此,我们可以应用压缩映射定理来分析它的解。

  • :最优策略存在吗?
    :存在。根据对贝尔曼最优方程(BOE)的分析,最优策略始终存在。

  • :最优策略是唯一的吗?
    :不是。可能存在多个或无限个具有相同最优状态价值的最优策略。

  • :最优策略是随机的还是确定性的?
    :最优策略可以是确定性的,也可以是随机的。一个很好的事实是,始终存在确定性的贪婪最优策略

  • :如何得到最优策略?
    :使用迭代算法求解贝尔曼最优方程,可以得到最优策略。

  • :如果我们降低折扣率的值,对最优策略有什么总体影响?
    :当我们降低折扣率时,最优策略会变得更加短视。也就是说,智能体不敢冒险,即使之后可能会获得更大的累积奖励。

  • :如果我们将折扣率设为零,会发生什么?
    :得到的最优策略会变得极其短视。智能体会采取具有最大即时奖励的动作,即使该动作从长远来看并不好。

  • :如果我们将所有奖励都增加相同的量,最优状态价值会改变吗?最优策略会改变吗?
    :将所有奖励增加相同的量是对奖励的仿射变换,这不会影响最优策略。然而,最优状态价值会增加。

  • :如果我们希望最优策略在到达目标前能避免无意义的迂回,是否应该为每一步增加一个负奖励,以便智能体尽可能快地到达目标?
    :首先,为每一步引入额外的负奖励是对奖励的仿射变换,这不会改变最优策略。其次,折扣率可以自动促使智能体尽可能快地到达目标。这是因为无意义的迂回会增加轨迹长度,并降低折扣回报。

http://www.dtcms.com/a/438316.html

相关文章:

  • discuz网站开发深圳建设网站首页
  • Linux信号处理的相关数据结构和操作函数
  • 分类信息网站手机企业网站开发
  • 做杂志的网站有哪些织梦网站系统
  • 我的网站百度怎么搜索不到了文山网站建设代理
  • 小程序推广网站免费wordpress模板下载地址
  • 第66篇:AI+交通:智能驾驶、交通流优化与智慧物流
  • 苏州自学网站建设平台做外国美食的视频网站
  • 黄冈app下载推广平台优化视频
  • 学习日记20:GraphGPT
  • 做网站加班多吗蛋糕店网站建设方案
  • 从餐馆迎客看 accept4:更灵活的“接客“高手
  • Metasploit基础(MSF)
  • 浅析物理层过程
  • 总结 IP 协议的相关特性
  • 网球馆自动预约系统的反调试
  • PyQt5 QLineEdit组件详解:单行文本输入控件的完整指南
  • 网站建设的毕业报告公司名称变更流程及需材料
  • OSPF 多区域实验 概念及题目
  • 网站建设要经历哪些步骤丝芭传媒有限公司
  • 东莞微信网站建设怎样ceo是什么职位什么工作
  • model.fit(train_X, train_y)
  • 数据结构之队列:初始化、入队、出队与源码全解析
  • 国内外优秀网站网站建设江苏百拓
  • hive、spark任务报错或者异常怎么排查以及定位哪段sql
  • 南昌商城网站设计洛阳青峰网络做网站
  • 算法 - FOC闭环位置控制
  • 探索高效安全的去中心化应用——Solana区块链
  • 大模型openai服务网关,认证,限流,接口输入输出的修正,监控等功能
  • 贵州百度seo整站优化做网站收入怎样