当前位置：首页 > wzjs >正文

react做门户网站做一个私人网站需要多少钱

wzjs 2025/7/19 12:42:23

react做门户网站,做一个私人网站需要多少钱,建站群赚钱有前途吗,17网站一起做网店潮汕依依参考视频零基础学习强化学习算法：ppo 基础概念 environment环境agent：智能体，玩游戏的你state：当前状态，observation看到的部分，有的游戏只能看见state的一部分action：agent做出的动作reward…

参考视频

零基础学习强化学习算法：ppo

基础概念

在这里插入图片描述

environment环境
agent：智能体，玩游戏的你
state：当前状态，observation看到的部分，有的游戏只能看见state的一部分
action：agent做出的动作
reward：环境给的奖励或惩罚

其他重要概念

注：

训练和推理时不常总是使用最高的策略函数，因为要随机性多样性，不然没办法训练，输出也单一
状态转移是否确定：比如开宝箱时是随机的

复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的：训练一个policy网络使得在各种state下，给出action，得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏，每个action按概率取样而不是选择最大的。
on policy更新策略：
在这里插入图片描述

优化

之前给的公式表明：如果某个trajectory给出的action得到的reward大于零，那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点：

reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说，以退为进，其实是进的。
对上一点的修正，影响是随着步数衰减的。

因此修正公式：

对reward的求和：改为从当前步t到整个游戏结束的求和
引入衰减因子：距离当前步数越远影响越小，指数衰减。
对于reward增加一个baseline以增快训练速度

不是这个方向的后面不学了。。

http://www.dtcms.com/wzjs/11371.html

相关文章：

旅游网站怎么建设黄页污水

爱采购系统优化软件推荐

广西网络公司网站建设网络推广营销公司

自己创建网站赚钱国外免费推广平台有哪些

河东区建设局网站做了5天游戏推广被抓了

中企动力做的网站价格区间重庆百度快照优化排名

网站怎么做隐藏真实ip河南网站seo费用

网站建设怎样设置动态背景苏州seo门户网

哪些网站的数据库做的好今日新闻内容摘抄

福建网站优化精准的搜索引擎优化

企业建设网站好处系统优化软件十大排名

icp ip 网站备案查询什么关键词能搜到资源

静态网站挂马html网页制作软件有哪些

做网站推广哪个好北京百度seo排名

element ui设计网站抖音代运营公司

集团网站制作公司百度提交入口网站

怎样做寻亲网站志愿者阿里巴巴友情链接怎么设置

无极平台网站惠州seo关键词推广

建设银行甘肃省分行网站缴费谷歌 google

网页设计与网站开发方向百度竞价排名模式

软件技术是什么湖南网站推广优化

房地产网站建设解决方案如何建站

做网站需要向客户了解什么北京网优化seo优化公司

黄冈商城网站制作哪家好哪里有软件培训班

公司网站建设推广方案模板广州抖音推广

天水市建设路第二小学网站正规推广赚佣金的平台

网站空间下载专业的网络推广

常州企业做网站阿里指数在线查询

浏览器免费下载黑帽seo

厦门网站建设网站制作网站排名优化怎样做