当前位置: 首页 > wzjs >正文

react做门户网站做一个私人网站需要多少钱

react做门户网站,做一个私人网站需要多少钱,建站群赚钱有前途吗,17网站一起做网店潮汕依依参考视频 零基础学习强化学习算法:ppo 基础概念 environment环境agent:智能体,玩游戏的你state:当前状态,observation看到的部分,有的游戏只能看见state的一部分action:agent做出的动作reward…
参考视频

零基础学习强化学习算法:ppo

基础概念

在这里插入图片描述

  • environment环境
  • agent:智能体,玩游戏的你
  • state:当前状态,observation看到的部分,有的游戏只能看见state的一部分
  • action:agent做出的动作
  • reward:环境给的奖励或惩罚
其他重要概念在这里插入图片描述

注:

  • 训练和推理时不常总是使用最高的策略函数,因为要随机性多样性,不然没办法训练,输出也单一
  • 状态转移是否确定:比如开宝箱时是随机的
复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的:训练一个policy网络使得在各种state下,给出action,得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏,每个action按概率取样而不是选择最大的。
on policy更新策略:
在这里插入图片描述

优化

之前给的公式表明:如果某个trajectory给出的action得到的reward大于零,那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点:

  • reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说,以退为进,其实是进的。
  • 对上一点的修正,影响是随着步数衰减的。

因此修正公式:

  1. 对reward的求和:改为从当前步t到整个游戏结束的求和

  2. 引入衰减因子:距离当前步数越远影响越小,指数衰减。
    在这里插入图片描述

  3. 对于reward增加一个baseline以增快训练速度
    在这里插入图片描述
    不是这个方向的后面不学了。。

http://www.dtcms.com/wzjs/11371.html

相关文章:

  • 旅游网站怎么建设黄页污水
  • 爱采购系统优化软件推荐
  • 广西网络公司网站建设网络推广营销公司
  • 自己创建网站赚钱国外免费推广平台有哪些
  • 河东区建设局网站做了5天游戏推广被抓了
  • 中企动力做的网站价格区间重庆百度快照优化排名
  • 网站怎么做隐藏真实ip河南网站seo费用
  • 网站建设怎样设置动态背景苏州seo门户网
  • 哪些网站的数据库做的好今日新闻内容摘抄
  • 福建网站优化精准的搜索引擎优化
  • 企业建设网站好处系统优化软件十大排名
  • icp ip 网站备案查询什么关键词能搜到资源
  • 静态网站 挂马html网页制作软件有哪些
  • 做网站推广哪个好北京百度seo排名
  • element ui设计网站抖音代运营公司
  • 集团网站制作公司百度提交入口网站
  • 怎样做寻亲网站志愿者阿里巴巴友情链接怎么设置
  • 无极平台网站惠州seo关键词推广
  • 建设银行甘肃省分行网站缴费谷歌 google
  • 网页设计与网站开发方向百度竞价排名模式
  • 软件技术是什么湖南网站推广优化
  • 房地产网站建设解决方案如何建站
  • 做网站需要向客户了解什么北京网优化seo优化公司
  • 黄冈商城网站制作哪家好哪里有软件培训班
  • 公司网站建设推广方案模板广州抖音推广
  • 天水市建设路第二小学网站正规推广赚佣金的平台
  • 网站空间下载专业的网络推广
  • 常州企业做网站阿里指数在线查询
  • 浏览器免费下载黑帽seo
  • 厦门网站建设网站制作网站排名优化怎样做