当前位置: 首页 > wzjs >正文

歙县电子商务网站建设如何进入网站

歙县电子商务网站建设,如何进入网站,修改文章缩略字数 WORDPRESS,市场营销实务NPG来源于PG算法,是TRPO算法的前身。 随机梯度策略算法的输入输出问题(不得不考虑的): PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以…

NPG来源于PG算法,是TRPO算法的前身。

随机梯度策略算法的输入输出问题(不得不考虑的):

PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以采用的输入输出方式:

(1)输入状态s,输出该状态下可选动作的选择概率

(2)输入状态s与该状态下可选择的动作a,输出该状态-动作对的概率

很显然,这以上两种方式都不能满足我们对动作空间连续的需求,第二种方式还需要多次推理,显然都超级不好。

由于不直接输出动作,而是输出动作的概率,再依输出的概率选择概率最大的动作。故此,我们想到了正态分布,可以使Actor网络输出一个正态分布的“均值”“方差”代表动作的概率分布,并从这个分布中进行随机采样(分布越集中采样均值的概率越大,同时这样也使策略具备了探索性)

一、PG算法复习

随机策略梯度算法用函数表示策略,输入状态,输出选取动作的概率:

\pi_{\theta } \left ( a_{t}|s_{t} \right )

通过更新函数的参数来更新优化策略。

参数更新的目标是最大化“目标函数”,目标函数是我们对一个策略表现好坏定义的评价标准,从而可以量化一个策略的好坏。一般而言,我们最常用的目标函数是“平均V值”

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\mathbb{E}\left [ v_{\pi}\left ( s \right ) \right ]

这个期望可以进一步展开成该状态下q值与a的概率乘积的和:

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

目标是最大化这个评价指标,这个指标的计算包含策略函数的参数。

在这里补充上对策略梯度公式的推导

目标函数为:

J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ q_{\pi }\left ( S,A \right ) \right ]

目标函数对\theta求梯度(认为q与参数\theta无关):

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\bigtriangledown _{\theta }\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

由于存在以下关系:

\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )=\frac{1}{\pi _{\theta }\left ( a|s \right )}\bigtriangledown _{\theta }\pi _{\theta }\left ( a|s \right )

将这个关系带入梯度式子:

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a} \pi _{\theta }\left ( a|s \right ) \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )q_{\pi }\left ( s,a \right )

\bigtriangledown _{\theta }J\left ( \theta \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( A|S \right )q_{\pi }\left ( S,A \right ) \right ]

写成期望的形式之后就可以用SGD的方法去迭地更新参数(如果不写成期望的形式就没有办法推及到GD,再到SGD),最大化J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a_{t}|s_{t} \right )q_{\pi }\left ( s_{t},a_{t} \right )

其中q_{\pi }\left ( s_{t},a_{t} \right )我们得不到,只能用MC或TD的方法近似。

二、NPG

稍微理解一下就行,没必要深究信息论的东西,只需要知道KL散度可以衡量新旧策略的差异就可以了。

2.1 欧氏空间与黎曼空间

考虑测量地球上两个点之间的距离:

(1)两点之间,线段最短(欧式几何)

(2)沿地球表面找一条路径(黎曼几何)

区别在于所处空间不同,度量的选择不同。

在欧式空间中所使用的“度量”(海森矩阵),不同于欧式空间中所使用的度量。

常规的梯度下降法中,参数的优化方向是目标函数的梯度方向,这要求目标函数的变化量与参的变化量要在同一个欧式空间进行度量,但是很多时候,虽然参数的变化量是在欧式空间中度量的,但是目标函数(包含概率分布)却不适合在欧式空间中度量,在信息几何中衡量两个分布之间的概率属性的距离采用KL散度?还是不懂,感觉很难懂

局部的流形具有欧式空间的性质(小范围变化近似的基础)

2.2 Hessian矩阵

Hessian矩阵被定义为一个多元函数的二阶导数矩阵:

f\left ( x_{1},x_{2},...,x_{n} \right )

2.3 Fisher信息矩阵

Fisher信息矩阵是用来衡量样本信息量

样本里信息量越多,估计的随机变量的分布就越准确

KL散度与Fisher信息矩阵是有一定关系的

2.4 熵

网上找公式

2.5 KL散度

2.6 自然梯度法

用自然策略梯度代替策略梯度

\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}=F^{-1}\left ( \theta \right )\bigtriangledown _{\theta }J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}

把KL散度的约束隐式地通过Fisher信息矩阵加入到了迭代中


文章转载自:

http://D8iw8Xwy.tsyny.cn
http://jIS9JXtm.tsyny.cn
http://6OalcSM4.tsyny.cn
http://EcJ3u74H.tsyny.cn
http://3PKZB15r.tsyny.cn
http://j4IiYHh8.tsyny.cn
http://H6ArHaRj.tsyny.cn
http://BfO0vsno.tsyny.cn
http://m9FgbYiT.tsyny.cn
http://i8GwlM0P.tsyny.cn
http://JgAIDy8N.tsyny.cn
http://kTfxHC9v.tsyny.cn
http://661rA2C3.tsyny.cn
http://krTHKFpT.tsyny.cn
http://zEBtfzyF.tsyny.cn
http://JUWkWMy0.tsyny.cn
http://vfVtb1Mu.tsyny.cn
http://sFNor2Pm.tsyny.cn
http://kdMm5vKR.tsyny.cn
http://XMFFbQ33.tsyny.cn
http://TTDgghq7.tsyny.cn
http://U4jy5zmU.tsyny.cn
http://3yzfGTCz.tsyny.cn
http://4V6fq37d.tsyny.cn
http://DnMVQRBB.tsyny.cn
http://kMS76XM9.tsyny.cn
http://dIcHkW2m.tsyny.cn
http://JIm8KqEp.tsyny.cn
http://ERUgobMO.tsyny.cn
http://hPMOMq1w.tsyny.cn
http://www.dtcms.com/wzjs/754106.html

相关文章:

  • 做翻译网站 知乎广东东莞桥头1例新冠状
  • 网站域名 过期中山精品网站建设行情
  • 音乐网站开发的目的泰州网站制作套餐
  • discuz可以做门户网站么室内设计联盟官网首页登录
  • 部署php网站虚拟主机购买网站
  • 做emu对网站有什么要求详情页尺寸
  • 易趣网的网站架构wordpress html 过滤
  • 鄂州手机网站设计户外做爰网站
  • 深圳营销型网站建设公司哪家好网络维护网站美工
  • 凡科电脑版登录首页镇江企业网站排名优化
  • 网站建费用机器人网站建设规划书
  • 如何推广手机网站鞍山58同城官网
  • 网站分析百度太湖县网站建设公司
  • 专业开发手机网站建设服务器怎么做网站
  • flash素材网站湛江人怎么样
  • 源码出售网站石岩做网站的公司
  • 企业建设网站的目的( )杨浦网站建设哪家好
  • 做网站空间放哪些文件夹临沂网络公司
  • 给网站做seo的必要性电商seo是什么意思
  • 有没有一种网站做拍卖厂的京东短链接生成器
  • 青岛seo推广专员360搜索怎么做网站自然优化
  • 做网站首页图的规格深圳网站建设提供服务公司
  • 广州家电维修网站建设山东省山东省建设厅网站首页
  • 米拓建站教程wordpress设置页面访问权限
  • 建设自己网站项目推广平台排行榜
  • 网页标准化对网站开发维护者的好处asp网站发送邮件
  • 网页建站怎么做广州购物网站公司地址
  • 徐州手机网站设计外贸网站建站系统
  • 网站的关键词怎么设置wordpress全站模板
  • 网站建设预算表制作wordpress响应式播放器