当前位置: 首页 > news >正文

强化学习基础——各字母含义与马尔可夫决策

        马尔可夫性简单来说就是 当且仅当某时刻的状态只取决于上一时刻的状态时,而与再往之前时刻与之后时刻无关。(具体感兴趣可百度)

马尔可夫奖励过程(MRP)

        接下来基于上述符号引入几个概念:

回报 G_{t}

其中,R_{t}表示在时刻获得的奖励,权重因子\gamma表示未来时刻奖励具有不确定性,因此需要有权重衰减。

价值函数 V(s):

其中 E 代表均值。

        上式就是马尔可夫奖励过程中非常有名的贝尔曼方程(Bellman equation),对每一个状态都成立。

马尔可夫决策过程(MDP)

        在马尔可夫奖励过程(MRP)的基础上加入动作,就得到了马尔可夫决策过程(MDP)。

马尔可夫决策过程由元组 (S, A, P,r ,\gamma ) 构成,其中:

         MDP 与 MRP 非常相像,主要区别为 MDP 中的状态转移函数和奖励函数都比 MRP 多了动作 a 作为自变量。各部分关系如下图所示:

        接下来就马尔可夫决策过程引入几个概念:
策略 \pi
策略 \pi (a|s)=P(A_{t}=a|S_{t}=s) 是一个函数,表示在输入状态情况下采取动作的概率。当一个策略是确定性策略(deterministic policy)时,它在每个状态时只输出一个确定性的动作,即只有该动作的概率为 1,其他动作的概率为 0;当一个策略是随机性策略(stochastic policy)时,它在每个状态时输出的是关于动作的概率分布,然后根据该分布进行采样就可以得到一个动作。在 MDP 中,由于马尔可夫性质的存在,策略只需要与当前状态有关,不需要考虑历史状态。

状态价值函数 V^{\pi }(s)

动作价值函数 Q^{\pi }(s,a)

贝尔曼期望方程

贝尔曼最优方程

        最优策略都有相同的状态价值函数,我们称之为最优状态价值函数,表示为:

        同理,我们定义最优动作价值函数:

        这与在普通策略下的状态价值函数和动作价值函数之间的关系是一样的。另一方面,最优状态价值是选择此时使最优动作价值最大的那一个动作时的状态价值:

http://www.dtcms.com/a/570152.html

相关文章:

  • THC63LVDF84B高性能LVDS接收器,具备4路LVDS数据转换能力,输出28位CMOS/TTL信号THC63LVDF84
  • 快速上手PyTorch:强大高效的深度学习框架
  • 组队(牛客)
  • 西安企业建站在哪里做互联网营销师是什么
  • 帝国CMS + AWS:老牌内容系统的新生之路
  • 网站建设项目内容如何做wap网站
  • PLC学习-11.4(3hour)
  • 网站建设seo规范dw网页设计官网
  • Astro 常见问题
  • (ACP广源盛)GSV2221---DisplayPort 1.4 MST 到 HDMI 2.0/DP 转换器领域,集成嵌入式 MCU
  • 【2025 SWPU-NSSCTF 秋季训练赛】finalrce
  • seo网站排名优化培训教程开源网站模板
  • 望牛墩网站仿做普陀网站建设公司
  • 延安市建设工程交易中心网站视频号推广
  • 斐讯盒子T1_S912B芯片_安卓7.1.2或安卓9.0_线刷固件包
  • 任意文件上传漏洞
  • 梁山网站建设可以上传数据的网站开发
  • PHP MySQL WHERE 子句详解
  • 《Unreal轻量化开发的隐性优势解析》
  • 做网站广告怎么做产品推广方案范文
  • 深圳专业制作网站的公司哪家好常州市做网站
  • 哈尔滨做网站费用商丘网站制作的流程
  • 网站同时做竞价和seo工业设计大赛官网
  • MIT-寻找第k小的元素
  • CAN(三)——过载帧
  • vscode编辑arduino项目
  • 哪些网站的做的好看的设计网站定制公司
  • 架构负债不仅仅是技术负债
  • 建设网站的规划书wordpress 评论已关闭
  • BPC合并流程(持续更新中)