当前位置: 首页 > news >正文

网站建设上网站建设会议记录

网站建设上,网站建设会议记录,衡阳做网站优化,南宁网站建设q479185700棒NPG来源于PG算法,是TRPO算法的前身。 随机梯度策略算法的输入输出问题(不得不考虑的): PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以…

NPG来源于PG算法,是TRPO算法的前身。

随机梯度策略算法的输入输出问题(不得不考虑的):

PG算法用函数表示策略,该表示方法不直接输出动作(有别于“确定性梯度策略”),那么就有两种可以采用的输入输出方式:

(1)输入状态s,输出该状态下可选动作的选择概率

(2)输入状态s与该状态下可选择的动作a,输出该状态-动作对的概率

很显然,这以上两种方式都不能满足我们对动作空间连续的需求,第二种方式还需要多次推理,显然都超级不好。

由于不直接输出动作,而是输出动作的概率,再依输出的概率选择概率最大的动作。故此,我们想到了正态分布,可以使Actor网络输出一个正态分布的“均值”“方差”代表动作的概率分布,并从这个分布中进行随机采样(分布越集中采样均值的概率越大,同时这样也使策略具备了探索性)

一、PG算法复习

随机策略梯度算法用函数表示策略,输入状态,输出选取动作的概率:

\pi_{\theta } \left ( a_{t}|s_{t} \right )

通过更新函数的参数来更新优化策略。

参数更新的目标是最大化“目标函数”,目标函数是我们对一个策略表现好坏定义的评价标准,从而可以量化一个策略的好坏。一般而言,我们最常用的目标函数是“平均V值”

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\mathbb{E}\left [ v_{\pi}\left ( s \right ) \right ]

这个期望可以进一步展开成该状态下q值与a的概率乘积的和:

\overline{v}=\displaystyle\sum_{s\in S}d\left ( s \right )v_{\pi }\left ( s \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

目标是最大化这个评价指标,这个指标的计算包含策略函数的参数。

在这里补充上对策略梯度公式的推导

目标函数为:

J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ q_{\pi }\left ( S,A \right ) \right ]

目标函数对\theta求梯度(认为q与参数\theta无关):

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a}\bigtriangledown _{\theta }\pi_{\theta } \left ( a|s \right )q_{\pi }\left ( s,a \right )

由于存在以下关系:

\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )=\frac{1}{\pi _{\theta }\left ( a|s \right )}\bigtriangledown _{\theta }\pi _{\theta }\left ( a|s \right )

将这个关系带入梯度式子:

\bigtriangledown _{\theta }J\left ( \theta \right )=\displaystyle\sum_{s\in S}d\left ( s \right )\displaystyle\sum_{a} \pi _{\theta }\left ( a|s \right ) \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a|s \right )q_{\pi }\left ( s,a \right )

\bigtriangledown _{\theta }J\left ( \theta \right )=\mathbb{E}_{S\sim d,A\sim \pi }\left [ \bigtriangledown _{\theta }\ln \pi _{\theta }\left ( A|S \right )q_{\pi }\left ( S,A \right ) \right ]

写成期望的形式之后就可以用SGD的方法去迭地更新参数(如果不写成期望的形式就没有办法推及到GD,再到SGD),最大化J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\ln \pi _{\theta }\left ( a_{t}|s_{t} \right )q_{\pi }\left ( s_{t},a_{t} \right )

其中q_{\pi }\left ( s_{t},a_{t} \right )我们得不到,只能用MC或TD的方法近似。

二、NPG

稍微理解一下就行,没必要深究信息论的东西,只需要知道KL散度可以衡量新旧策略的差异就可以了。

2.1 欧氏空间与黎曼空间

考虑测量地球上两个点之间的距离:

(1)两点之间,线段最短(欧式几何)

(2)沿地球表面找一条路径(黎曼几何)

区别在于所处空间不同,度量的选择不同。

在欧式空间中所使用的“度量”(海森矩阵),不同于欧式空间中所使用的度量。

常规的梯度下降法中,参数的优化方向是目标函数的梯度方向,这要求目标函数的变化量与参的变化量要在同一个欧式空间进行度量,但是很多时候,虽然参数的变化量是在欧式空间中度量的,但是目标函数(包含概率分布)却不适合在欧式空间中度量,在信息几何中衡量两个分布之间的概率属性的距离采用KL散度?还是不懂,感觉很难懂

局部的流形具有欧式空间的性质(小范围变化近似的基础)

2.2 Hessian矩阵

Hessian矩阵被定义为一个多元函数的二阶导数矩阵:

f\left ( x_{1},x_{2},...,x_{n} \right )

2.3 Fisher信息矩阵

Fisher信息矩阵是用来衡量样本信息量

样本里信息量越多,估计的随机变量的分布就越准确

KL散度与Fisher信息矩阵是有一定关系的

2.4 熵

网上找公式

2.5 KL散度

2.6 自然梯度法

用自然策略梯度代替策略梯度

\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}=F^{-1}\left ( \theta \right )\bigtriangledown _{\theta }J\left ( \theta \right )

\theta _{t+1}=\theta _{t}-\alpha _{\theta }\bigtriangledown _{\theta }\widetilde{J\left ( \theta \right )}

把KL散度的约束隐式地通过Fisher信息矩阵加入到了迭代中

http://www.dtcms.com/a/526458.html

相关文章:

  • 网站跟网页的区别是什么做网站那些好
  • 建设部职业资格注册网站大气企业网站织梦模板
  • 苏州企业管理咨询服务惠州seo代理商
  • 参数曲线切向量与叉乘向量的精确计算与分析
  • 怎么做电商卖东西网站seo外包服务
  • 社团网站模板简述网站建设及维护全过程
  • 马鞍山的网站建设公司制作海报
  • 电商平台网站定制网络规划设计师教程读后感
  • 合肥做网站的公司百度广告公司名字 三个字
  • 婚恋网站建设项目创业计划书中国建设银行官网站纪念币预约
  • 合肥专业网站建设公司哪家好竞价推广运营
  • 东风地区网站建设价格低wordpress 博客多人
  • 镇江哪里做网站制作商城公司
  • 在线制作头像生成宁波seo推广推荐公司
  • 管理科学基础知识__决策分析
  • UVa 13277 XOR Path
  • world做网站google广告联盟网站
  • 统计网站建设程序亚马逊网官网首页
  • linux之RabbitMQ消息队列
  • 新手学做网站图纸数字短链接生成
  • 常州装修网站建设公司西安市建设工程信息网平台官网
  • Compose 插槽 API 简介、实战
  • 网站建设实习困难网站sem优化怎么做
  • 我的网站别人给黑链 攻击天元建设集团有限公司经济活动分析
  • 优质的网站建设公司沧县做网站价格
  • 50个单页面网站设计欣赏(2)十大工业互联网平台
  • 静态网站开发外文文献株洲论坛
  • 网站语言选择查询公司营业执照的网站
  • 【Linux】常见的系统调用 函数和功能简单总结
  • 个人做网站费用wordpress开放平台