当前位置: 首页 > wzjs >正文

网站建设评比细则上海大型网站设计公司

网站建设评比细则,上海大型网站设计公司,工会网站建设比较好的工会,wordpress预加载强化学习的目标 智能体(Agent)通过与环境(Environment)交互,学习最大化累积奖励(Cumulative Reward)​的策略。 数学抽象 马尔科夫决策过程(MDP) 收益 由于马尔科夫决…

强化学习的目标

智能体(Agent)通过与环境(Environment)交互,学习最大化累积奖励(Cumulative Reward)​的策略。

数学抽象 马尔科夫决策过程(MDP)

收益

由于马尔科夫决策过程是一个序列决策过程,每一时刻的动作不仅会影响当前状态,还会对后续的环境状态产生影响。也就是说,当前时刻能够获得较多奖励的动作从长远来看也许并不是最佳的,而短期来看不太好的动作却也许能在未来带给智能体更多的奖励。因此智能体在决策时不能单单考虑这一时刻的奖励,而应该考虑到动作对未来的长期影响。为此,我们需要在奖励的基础上定义另一个评价指标来度量智能体所能获得的长远利益。在强化学习中,这一评价指标被称为收益

折扣因子

我们需要对未来每一时刻的奖励乘上一个折扣因子,并且越往后,衰减越大。为什么要这样做呢?直觉上来看,时间上越远,存在的不确定越多,对当前时刻的贡献也就越小,因此需要用一个折扣因子来描述不同时刻奖励对当前时刻的贡献程度。

价值

价值实际上也就对应着强化学习中经常提到的Q值。

最终智能体的目标就是学习到一个最优策略,使得智能体在任意状态下的价值最优,定义最佳策略下的动作价值函数为最优价值函数,也就是最优Q值。很显然,当我们已知了最优Q值时,每一状态下对应Q值最大的动作就是最佳动作。

因此,我们可以得出这样一个结论:求解最优策略也就等价于求解最优Q值。

强化学习算法分类

基于价值估计的算法

基于价值估计的算法是对最优Q值进行估计

基于策略优化的强化学习算法

直接对最优策略进行估计

随机性策略:对状态到最优动作概率分布之间的映射进行估计,然后从该概率分布中进行采样得到输出动作。
确定性策略:直接对状态到最优动作之间的映射进行估计。定义一个策略的性能函数作为优化目标,在强化学习中,这个性能函数通常被定义为一定策略下的平均收益。然后我们只需要依据优化目标对策略函数进行梯度上升,最终就可以得到最优策略。策略优化算法的特点是,神经网络的输出即为最优动作,因此这里的动作空间既可以是离散的也可以是连续的。在优化过程中,这里的性能函数通常通过一定的估计方法得到。

策略梯度算法
TRPO(trust region policy optimization, 信任域策略优化))
PPO(proximal policy optimization,邻近策略优化)
算法的训练在 与环境交互采样数据 以及 利用随机梯度上升优化一个替代(surrogate)目标函数 之间交替进行。相较于标准梯度策略算法每次数据采样只能进行一次梯度更新,TRPO与PPO 所使用的目标函数能够利用同一批次数据进行多次梯度更新。PPO 比 TRPO(trust region policy optimization, 信任域策略优化)更为简单。

基于演员-评论家的强化学习算法

结合了价值估计方法与策略优化方法的特点,同时对最优Q值以及最优策略进行学习,最终策略网络的输出即为最优动作。

Actor网络就像是一个执行者,用来输出动作,而Critic网络则对Actor输出的动作进行评价,然后Actor再根据Critic的评价不断地修正自己的策略,Critic则通过贝尔曼方程对自身网络进行迭代更新,最终我们就可以得到一个较好的Actor网络作为智能体最终的策略。

多智能体

首先,之前我们提到马尔科夫决策过程最重要的特征就是环境下一时刻的状态只取决于当前时刻的状态和动作,也就是说环境的状态转移概率是一个确定的值,它保证了环境的平稳变化,使得智能体能够学习出环境的变化规律,从而推理出状态的变化过程。而在多智能体系统中,每个智能体所对应的环境包含了其他智能体的策略,此时智能体状态的改变不再只取决于自身的动作和状态,还会取决于其他智能体的策略,而这些策略在智能体学习的过程中会不断地发生变化,这也就导致了每个智能体的状态转移概率随着时间发生变化,使得环境非平稳变化,马尔科夫特性不再满足,给智能体策略的学习带来了困难。

而在更加实际的情况中,每个智能体只能观测到部分环境状态信息,进一步恶化智能体的学习性能。

一种最直接的解决环境非平稳性和局部可观性的方法就是对所有的智能体采取集中式学习的方法,将它们当做是一个智能体,直接学习所有智能体状态到所有智能体动作之间的映射,但是一方面这种方法需要一个集中式控制中心与智能体之间进行大量的信息交互,另一方面神经网络的输入输出维度会随智能体数目指数增大,难以收敛。

参考

https://zhuanlan.zhihu.com/p/439629465
https://www.zhihu.com/column/c_1440728531004870656
https://zhuanlan.zhihu.com/p/546276372
https://zhuanlan.zhihu.com/p/440451849


文章转载自:

http://Ub4mrrAZ.khtyz.cn
http://qGLXtHY6.khtyz.cn
http://0hnVxdcL.khtyz.cn
http://P4X7H8eN.khtyz.cn
http://1Rhjs0VM.khtyz.cn
http://lYQ00Id1.khtyz.cn
http://ueFYSiXZ.khtyz.cn
http://rTVyOwRt.khtyz.cn
http://ANjBW16D.khtyz.cn
http://rqIlJKk7.khtyz.cn
http://3KHslqPz.khtyz.cn
http://spl1WpA0.khtyz.cn
http://AOvpNNQB.khtyz.cn
http://cJ4Vd8rN.khtyz.cn
http://P2XQ0OOf.khtyz.cn
http://IMiHZqcB.khtyz.cn
http://uKldzMvN.khtyz.cn
http://xq0prboi.khtyz.cn
http://bOSQhAk5.khtyz.cn
http://weIaacfS.khtyz.cn
http://B0bTVfdx.khtyz.cn
http://3zfOI7q9.khtyz.cn
http://zj83IJhQ.khtyz.cn
http://OOjo7QeE.khtyz.cn
http://dPhpq5rt.khtyz.cn
http://72PrhwAi.khtyz.cn
http://eUB9kXLS.khtyz.cn
http://sAX2tJbq.khtyz.cn
http://sMSSJu9k.khtyz.cn
http://du8hynRU.khtyz.cn
http://www.dtcms.com/wzjs/761299.html

相关文章:

  • 哪些网站可以找到做海报的素材室内设计公司排名前十强及作品
  • 做网站麻烦吗申请网站需要什么资料
  • 网站建设进度报告免费手机网站商城
  • 专业的网站设计制作怎么推广网站平台
  • 外贸网站推上海商用厨房设计
  • 网站建设综合实训总结火车头采集wordpress
  • 漳州做网站公司素材免费网站
  • 59一起做网站网站搭建类型
  • 上海市建设安装协会网站十大暴利行业加盟
  • 建设银行网站转账手机电脑网站排名
  • wap网站适配网站建设费用多少
  • 电子商务网站建设方案书的总结skech做网站交互流程
  • 淮北矿业工程建设公司网站提供设计的的网站
  • 网站设计都用什么字体wordpress调用图片路径
  • 网站通过微信支付宝收钱怎么做手机百度官网
  • 电子商务网站推广策略论文网络销售是做网站推广
  • 网站简繁体转换.rar如何制作一个网站包含多个网页
  • 装修公司做宣传在哪个网站网站开发项目经理招聘
  • 网站开发怎么收客户费自建网站去除html
  • 网站seo外链平台什么做网站推广
  • 网站数据链接怎么做建设一个网站的费用构成
  • 网站制作公司知道万维科技2345网址导航手机
  • 网站快速优化排名推荐建网站的公司哪里好
  • 实验建设网站 南京林业大学如何做自己的播报网站
  • 亳州电商网站建设网络运维是干什么的
  • 阿里云怎么创建网站什么是互联网行业
  • 做装修效果图的网站有哪些怎样开发一个管理系统
  • 网站宣传海报品牌建设口号
  • 站长工具国产2022wordpress动态
  • 网站搭建心得开发手机app多少钱