当前位置：首页 > wzjs >正文

tp框架做网站xml地图建站工具

wzjs 2025/8/5 6:37:26

tp框架做网站xml地图,建站工具,影楼化妆师,诏安县城乡建设局网站参考视频零基础学习强化学习算法：ppo 基础概念 environment环境agent：智能体，玩游戏的你state：当前状态，observation看到的部分，有的游戏只能看见state的一部分action：agent做出的动作reward…

参考视频

零基础学习强化学习算法：ppo

基础概念

在这里插入图片描述

environment环境
agent：智能体，玩游戏的你
state：当前状态，observation看到的部分，有的游戏只能看见state的一部分
action：agent做出的动作
reward：环境给的奖励或惩罚

其他重要概念

注：

训练和推理时不常总是使用最高的策略函数，因为要随机性多样性，不然没办法训练，输出也单一
状态转移是否确定：比如开宝箱时是随机的

复习期望的概念

期望是每个可能结果的概率与其结果的乘积之和
在这里插入图片描述
训练目的：训练一个policy网络使得在各种state下，给出action，得到return的期望最大。

数学推理

接下来就是反向传播的数学推理。。。讲的很精彩
在这里插入图片描述

实际训练

玩n场游戏，每个action按概率取样而不是选择最大的。
on policy更新策略：
在这里插入图片描述

优化

之前给的公式表明：如果某个trajectory给出的action得到的reward大于零，那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
在这里插入图片描述
需要优化的点：

reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说，以退为进，其实是进的。
对上一点的修正，影响是随着步数衰减的。

因此修正公式：

对reward的求和：改为从当前步t到整个游戏结束的求和
引入衰减因子：距离当前步数越远影响越小，指数衰减。
对于reward增加一个baseline以增快训练速度

不是这个方向的后面不学了。。

http://www.dtcms.com/wzjs/225222.html

相关文章：

专业俄文网站建设北京网络营销推广公司

潍坊住房和城乡建设局招标网站连云港seo优化公司

成都如何寻找做网站的seo每日

昆明网站设计都需要设计什么东莞建设企业网站

南宁模板建站哪家好近几年的网络营销案例

网站建设有什么好处北京百度快速排名

记事本做网站的代码女生做sem专员的工作难吗

广东省备案网站建设方案书独立站建站平台有哪些

h5网站开发框架销售网站

国内做市场调查专业网站百度云网盘资源搜索

北京做网站的公司哪家好sem竞价托管多少钱

西藏阿里地区建设局网站武汉seo论坛

移动端网站建设重庆seo整站优化设置

做公司网站详细步骤6软文推广名词解释

网站安全检测入口关键词优化公司哪家强

自己做书画交易网站武汉大学人民医院光谷院区

393网站如何免费制作自己的网站

网站权限配置搭建网站教程

网站建设好推荐app拉新渠道商

做外贸进大公司网站代做网页设计平台

wordpress怎么滚动图片批量优化网站软件

网站后台无上传图片按钮推广运营平台

菏泽兼职做网站免费seo工具

做一的同志小说网站seo优化方法

怎么用cms做网站软文案例大全

精品课程网站开发免费自制app软件

东莞58同城做网站电话冯站长之家官网

微信网站开发怎么做没经验可以做电商运营吗

商丘网站制作企业官网首页设计

深圳网络专科网站建设不要手贱搜这15个关键词