当前位置: 首页 > wzjs >正文

歙县电子商务网站建设黄山5个最佳景点

歙县电子商务网站建设,黄山5个最佳景点,合肥网站定制,大庆网站建设方案论文NPG来源于PG算法,是TRPO算法的前身。 随机梯度策略算法的输入输出问题(不得不考虑的): PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以…

NPG来源于PG算法,是TRPO算法的前身。

随机梯度策略算法的输入输出问题(不得不考虑的):

PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以采用的输入输出方式:

(1)输入状态s,输出该状态下可选动作的选择概率

(2)输入状态s与该状态下可选择的动作a,输出该状态-动作对的概率

很显然,这以上两种方式都不能满足我们对动作空间连续的需求,第二种方式还需要多次推理,显然都超级不好。

由于不直接输出动作,而是输出动作的概率,再依输出的概率选择概率最大的动作。故此,我们想到了正态分布,可以使Actor网络输出一个正态分布的“均值”“方差”代表动作的概率分布,并从这个分布中进行随机采样(分布越集中采样均值的概率越大,同时这样也使策略具备了探索性)

一、PG算法复习

随机策略梯度算法用函数表示策略,输入状态,输出选取动作的概率:

\pi_{\theta } \left ( a_{t}|s_{t} \right )

通过更新函数的参数来更新优化策略。

参数更新的目标是最大化“目标函数”,目标函数是我们对一个策略表现好坏定义的评价标准,从而可以量化一个策略的好坏。一般而言,我们最常用的目标函数是“平均V值”

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\mathbb{E}\left [ v_{\pi}\left ( s \right ) \right ]

这个期望可以进一步展开成该状态下q值与a的概率乘积的和:

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

目标是最大化这个评价指标,这个指标的计算包含策略函数的参数。

在这里补充上对策略梯度公式的推导

目标函数为:

J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ q_{\pi }\left ( S,A \right ) \right ]

目标函数对\theta求梯度(认为q与参数\theta无关):

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\bigtriangledown _{\theta }\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

由于存在以下关系:

\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )=\frac{1}{\pi _{\theta }\left ( a|s \right )}\bigtriangledown _{\theta }\pi _{\theta }\left ( a|s \right )

将这个关系带入梯度式子:

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a} \pi _{\theta }\left ( a|s \right ) \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )q_{\pi }\left ( s,a \right )

\bigtriangledown _{\theta }J\left ( \theta \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( A|S \right )q_{\pi }\left ( S,A \right ) \right ]

写成期望的形式之后就可以用SGD的方法去迭地更新参数(如果不写成期望的形式就没有办法推及到GD,再到SGD),最大化J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a_{t}|s_{t} \right )q_{\pi }\left ( s_{t},a_{t} \right )

其中q_{\pi }\left ( s_{t},a_{t} \right )我们得不到,只能用MC或TD的方法近似。

二、NPG

稍微理解一下就行,没必要深究信息论的东西,只需要知道KL散度可以衡量新旧策略的差异就可以了。

2.1 欧氏空间与黎曼空间

考虑测量地球上两个点之间的距离:

(1)两点之间,线段最短(欧式几何)

(2)沿地球表面找一条路径(黎曼几何)

区别在于所处空间不同,度量的选择不同。

在欧式空间中所使用的“度量”(海森矩阵),不同于欧式空间中所使用的度量。

常规的梯度下降法中,参数的优化方向是目标函数的梯度方向,这要求目标函数的变化量与参的变化量要在同一个欧式空间进行度量,但是很多时候,虽然参数的变化量是在欧式空间中度量的,但是目标函数(包含概率分布)却不适合在欧式空间中度量,在信息几何中衡量两个分布之间的概率属性的距离采用KL散度?还是不懂,感觉很难懂

局部的流形具有欧式空间的性质(小范围变化近似的基础)

2.2 Hessian矩阵

Hessian矩阵被定义为一个多元函数的二阶导数矩阵:

f\left ( x_{1},x_{2},...,x_{n} \right )

2.3 Fisher信息矩阵

Fisher信息矩阵是用来衡量样本信息量

样本里信息量越多,估计的随机变量的分布就越准确

KL散度与Fisher信息矩阵是有一定关系的

2.4 熵

网上找公式

2.5 KL散度

2.6 自然梯度法

用自然策略梯度代替策略梯度

\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}=F^{-1}\left ( \theta \right )\bigtriangledown _{\theta }J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}

把KL散度的约束隐式地通过Fisher信息矩阵加入到了迭代中

http://www.dtcms.com/wzjs/561133.html

相关文章:

  • 网站经营性备案条件深圳做h5网站制作
  • 怎样在凡科免费做网站山西省建设厅官网
  • 西装定制优化大师使用心得
  • 网站建设接私单wordpress tint主题
  • 重庆自助建站网站商品网站建设方案
  • 1688货源网一件代发拼多多长沙seo咨询
  • 科技创新论文800字seo顾问人
  • 温州网站建设团队wordpress 跳转适配
  • 网站开发如何挣钱摄影网站免费
  • 网站代码结构应用商店手机版下载
  • 怀化工程建设信息网老网站卖房子最快的平台
  • 京东联盟网站建设电脑版内容平台策划书
  • 广州市手机网站建设怎么样化妆品备案查询入口
  • wordpress建站上传不了图片dw网页制作论文
  • 免费做网站报价域名服务器ip查询
  • 江门网站快速排名优化挣钱网站一小时两百
  • 成都优化网站源头厂家wordpress 4.7 主题
  • 中国网站排名站长之家丽水哪里做网站
  • 模仿网站页面违法吗网站建设服务合同需要哪些资料
  • 百度网站电话是多少网站登录入口网页
  • 商务网站建设调研深圳网站建站建设
  • 英文公司网站设计做网站时候图片和视频放在哪里
  • 制作手机端网站英语网站排名
  • 网站备案名称怎么修改网络推广渠道
  • 企业电子商务网站建设和一般有口碑的佛山网站建设
  • 龙岩网站开发较好的公司建立选区的快捷键
  • 网站的弹窗是怎么做的公司做网站一般多少钱运营
  • 网站域名验证怎么查看网站的pv uv
  • 网站建设用什么字体网站开发 公司 深圳
  • 济南物流行业网站建设工具中国企业网址大全