当前位置: 首页 > wzjs >正文

tp框架做网站xml地图建站工具

tp框架做网站xml地图,建站工具,影楼化妆师,诏安县城乡建设局网站参考视频 零基础学习强化学习算法:ppo 基础概念 environment环境agent:智能体,玩游戏的你state:当前状态,observation看到的部分,有的游戏只能看见state的一部分action:agent做出的动作reward…
参考视频

零基础学习强化学习算法:ppo

基础概念

在这里插入图片描述

  • environment环境
  • agent:智能体,玩游戏的你
  • state:当前状态,observation看到的部分,有的游戏只能看见state的一部分
  • action:agent做出的动作
  • reward:环境给的奖励或惩罚
其他重要概念在这里插入图片描述

注:

  • 训练和推理时不常总是使用最高的策略函数,因为要随机性多样性,不然没办法训练,输出也单一
  • 状态转移是否确定:比如开宝箱时是随机的
复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的:训练一个policy网络使得在各种state下,给出action,得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏,每个action按概率取样而不是选择最大的。
on policy更新策略:
在这里插入图片描述

优化

之前给的公式表明:如果某个trajectory给出的action得到的reward大于零,那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点:

  • reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说,以退为进,其实是进的。
  • 对上一点的修正,影响是随着步数衰减的。

因此修正公式:

  1. 对reward的求和:改为从当前步t到整个游戏结束的求和

  2. 引入衰减因子:距离当前步数越远影响越小,指数衰减。
    在这里插入图片描述

  3. 对于reward增加一个baseline以增快训练速度
    在这里插入图片描述
    不是这个方向的后面不学了。。

http://www.dtcms.com/wzjs/225222.html

相关文章:

  • 专业俄文网站建设北京网络营销推广公司
  • 潍坊住房和城乡建设局招标网站连云港seo优化公司
  • 成都如何寻找做网站的seo每日
  • 昆明网站设计都需要设计什么东莞建设企业网站
  • 南宁模板建站哪家好近几年的网络营销案例
  • 网站建设有什么好处北京百度快速排名
  • 记事本做网站的代码女生做sem专员的工作难吗
  • 广东省备案网站建设方案书独立站建站平台有哪些
  • h5网站开发框架销售网站
  • 国内做市场调查专业网站百度云网盘资源搜索
  • 北京做网站的公司哪家好sem竞价托管多少钱
  • 西藏阿里地区建设局网站武汉seo论坛
  • 移动端网站建设重庆seo整站优化设置
  • 做公司网站详细步骤6软文推广名词解释
  • 网站安全检测入口关键词优化公司哪家强
  • 自己做书画交易网站武汉大学人民医院光谷院区
  • 393网站如何免费制作自己的网站
  • 网站权限配置搭建网站教程
  • 网站建设好推荐app拉新渠道商
  • 做外贸进大公司网站代做网页设计平台
  • wordpress怎么滚动图片批量优化网站软件
  • 网站后台无上传图片按钮推广运营平台
  • 菏泽 兼职做网站免费seo工具
  • 做一的同志小说网站seo优化方法
  • 怎么用cms做网站软文案例大全
  • 精品课程网站开发免费自制app软件
  • 东莞58同城做网站电话冯站长之家官网
  • 微信网站开发怎么做没经验可以做电商运营吗
  • 商丘网站制作企业官网首页设计
  • 深圳网络专科网站建设不要手贱搜这15个关键词