当前位置: 首页 > wzjs >正文

齐河专业企业网站建设网站按钮特效

齐河专业企业网站建设,网站按钮特效,织梦房产网站源码,成都企业建站系统1. 置信域方法 置信域方法是数值优化领域中的一类经典算法。几乎所有的数值优化算法都在做这样的迭代,只不过方法略有不同: θ new ← Update ( Data ; θ now ) \theta_{\text{new}}\leftarrow \text{Update}(\text{Data};\theta_{\text{now}}) θnew…

1. 置信域方法

置信域方法是数值优化领域中的一类经典算法。几乎所有的数值优化算法都在做这样的迭代,只不过方法略有不同:
θ new ← Update ( Data ; θ now ) \theta_{\text{new}}\leftarrow \text{Update}(\text{Data};\theta_{\text{now}}) θnewUpdate(Data;θnow)而置信域方法首先用到一个置信域的概念:
N ( θ now ) = { θ ∣ ∣ ∣ θ − θ now ∣ ∣ 2 ≤ Δ } \mathcal{N}(\theta_{\text{now}})=\left\{\theta \Big | ||\theta-\theta_{\text{now}}||_2\leq \Delta \right\} N(θnow)={θ ∣∣θθnow2Δ}在这个置信域内,我们构造的函数能够很接近优化目标: L ( θ ∣ θ now ) 很接近 J ( θ ) , ∀ θ ∈ N ( θ now ) L(\theta|\theta_{\text{now}})很接近J(\theta),\quad \forall \theta\in \mathcal{N}(\theta_{\text{now}}) L(θθnow)很接近J(θ),θN(θnow)这样一来我就可以在我构造的函数范围内做优化: θ new = arg max ⁡ θ ∈ N ( θ now ) L ( θ ∣ θ now ) \theta_{\text{new}}=\argmax_{\theta\in\mathcal{N}(\theta_{\text{now}})}L(\theta|\theta_{\text{now}}) θnew=θN(θnow)argmaxL(θθnow)逐次迭代即可实现对一个复杂目标的优化。

2. 策略优化

有了策略网络 π ( a ∣ s ; θ ) \pi(a|s;\theta) π(as;θ),以及基于该策略的对当前状态的每一个动作的未来期望回报函数——动作价值函数 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a),我们就可以得到,能够计算出当前状态价值的状态价值函数 V π ( s ) = ∑ a ∈ A π ( a ∣ s ; θ ) ⋅ Q π ( s , a ) = E A ∼ π ( ⋅ ∣ s ; θ ) [ Q π ( s , A ) ] V_{\pi}(s)=\sum_{a\in \mathcal A}\pi(a|s;\theta)·Q_{\pi}(s,a)=\mathbb E_{A\sim\pi(·|s;\theta)}[Q_{\pi}(s,A)] Vπ(s)=aAπ(as;θ)Qπ(s,a)=EAπ(s;θ)[Qπ(s,A)],当一个策略的马尔可夫链运行达到稳态的时候,会有一个状态的稳态分布 ν ( s ) \nu(s) ν(s),那么一个策略越好,它的状态价值函数的期望——策略学习的目标函数 ∑ s ∈ S ν ( s ) V π ( s ) = E S [ V π ( S ) ] = J ( θ ) \sum_{s\in S}\nu(s)V_{\pi}(s)=\mathbb E_S[V_{\pi}(S)]=J(\theta) sSν(s)Vπ(s)=ES[Vπ(S)]=J(θ)一定越大,所以策略学习的优化问题就是 max ⁡ θ J ( θ ) \max_{\theta} J(\theta) maxθJ(θ),因为 S S S A A A都被期望掉了所以 J ( θ ) J(\theta) J(θ)只取决于 θ \theta θ

3. 置信域策略优化

3.1 策略学习的目标函数

trust region policy optimization, TRPO是一种策略学习方法,巧妙地结合了置信域的迭代优化方法——对目标函数做了一个方便迭代的等价形式 V π ( s ) = E A ∼ π ( ⋅ ∣ s ; θ ) [ Q π ( s , A ) ] = ∑ a ∈ A π ( a ∣ s ; θ ) ⋅ Q π ( s , a ) = ∑ a ∈ A π ( a ∣ s ; θ now ) π ( a ∣ s ; θ ) π ( a ∣ s ; θ now ) ⋅ Q π ( s , a ) = E A ∼ π ( ⋅ ∣ s ; θ now ) [ π ( a ∣ s ; θ ) π ( a ∣ s ; θ now ) ⋅ Q π ( s , a ) ] \begin{aligned}V_{\pi}(s)&=\mathbb E_{A\sim\pi(·|s;\theta)}[Q_{\pi}(s,A)]\\&=\sum_{a\in \mathcal A}\pi(a|s;\theta)·Q_{\pi}(s,a)\\&=\sum_{a\in \mathcal A}\pi(a|s;\theta_{\text{now}})\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{\text{now}})}·Q_{\pi}(s,a)\\ &=\mathbb E_{A\sim \pi(·|s;\theta_{\text{now}})}\left[\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{\text{now}})}·Q_{\pi}(s,a)\right]\end{aligned}\\ Vπ(s)=EAπ(s;θ)[Qπ(s,A)]=aAπ(as;θ)Qπ(s,a)=aAπ(as;θnow)π(as;θnow)π(as;θ)Qπ(s,a)=EAπ(s;θnow)[π(as;θnow)π(as;θ)Qπ(s,a)] J ( θ ) = E S [ E A ∼ π ( ⋅ ∣ S ; θ ) [ Q π ( S , A ) ] ] ⇒ J ( θ ∣ θ now ) = E S [ E A ∼ π ( ⋅ ∣ S ; θ now ) [ π ( A ∣ S ; θ ) π ( A ∣ S ; θ now ) ⋅ Q π ( S , A ) ] ] \begin{aligned} &J(\theta)&=&\mathbb E_{S}\left[\mathbb E_{A\sim\pi(·|S;\theta)}[Q_{\pi}(S,A)]\right]\\ \Rightarrow &J(\theta|\theta_{\text{now}}) &=&\mathbb E_S\left[\mathbb E_{A\sim \pi(·|S;\theta_{\text{now}})}\left[\frac{\pi(A|S;\theta)}{\pi(A|S;\theta_{\text{now}})}·Q_{\pi}(S,A)\right]\right] \end{aligned} J(θ)J(θθnow)==ES[EAπ(S;θ)[Qπ(S,A)]]ES[EAπ(S;θnow)[π(AS;θnow)π(AS;θ)Qπ(S,A)]]

3.2 做近似

可以采用蒙特卡洛近似 L ~ ( θ ∣ θ now ) = 1 n ∑ t = 1 n π ( a t ∣ s t ; θ ) π ( a t ∣ s t ; θ now ) ⋅ u t \tilde L(\theta|\theta_{\text{now}})=\frac{1}{n}\sum_{t=1}^{n}\frac{\pi(a_t|s_t;\theta)}{\pi(a_t|s_t;\theta_{\text{now}})}·u_t L~(θθnow)=n1t=1nπ(atst;θnow)π(atst;θ)ut其中, { ( s j , a j , r j , s j + 1 ) } j = 1 n \{(s_j,a_j,r_j,s_{j+1})\}_{j=1}^n {(sj,aj,rj,sj+1)}j=1n是用旧策略 π ( a t ∣ s t ; θ now ) \pi(a_t|s_t;\theta_{\text{now}}) π(atst;θnow)生成的轨迹,是对策略分布的近似。 u t = r t + γ ⋅ r t + 1 + γ 2 ⋅ r t + 2 + ⋅ ⋅ ⋅ + γ n − t ⋅ r n u_t=r_t+\gamma· r_{t+1}+\gamma^2·r_{t+2}+···+\gamma^{n-t}·r_n ut=rt+γrt+1+γ2rt+2+⋅⋅⋅+γntrn折扣回报,是对 Q π ( s t ∣ a t ; θ ) ( s t , a t ) Q_{\pi(s_t|a_t;\theta)}(s_t,a_t) Qπ(stat;θ)(st,at)的近似。

3.3 最大化

这是一个参数需要在置信域内的带约束的最大化问题: max ⁡ θ L ~ ( θ ∣ θ now ) , s.t . θ ∈ N ( θ now ) \max_{\theta} \tilde L(\theta|\theta_{\text{now}}), \quad \text{s.t}.\quad\theta\in\mathcal N(\theta_{\text{now}}) θmaxL~(θθnow),s.t.θN(θnow)置信域可以采用KL散度 max ⁡ θ L ~ ( θ ∣ θ now ) , s.t . 1 t ∑ i = 1 t KL [ π ( ⋅ ∣ s i ; θ now ) ∣ ∣ π ( ⋅ ∣ s i ; θ ) ] ≤ Δ \max_{\theta} \tilde L(\theta|\theta_{\text{now}}), \quad \text{s.t}.\quad\frac{1}{t}\sum_{i=1}^t\text{KL}\bigg [\pi(·|s_i;\theta_{\text{now}})||\pi(·|s_i;\theta)\bigg]\leq \Delta θmaxL~(θθnow),s.t.t1i=1tKL[π(si;θnow)∣∣π(si;θ)]Δ其中 Δ \Delta Δ是一个需要调整的超参数。至此,TRPO的思想讲完了。

细节说明

  • 在另外一些地方,你可能会看到类似 J ( θ ) = E π θ [ Q π θ ( S , A ) ] J(\theta) =\mathbb E_{\pi_{\theta}}[Q_{\pi_{\theta}}(S,A)] J(θ)=Eπθ[Qπθ(S,A)]的写法,本质上这和 J ( θ ) = E S [ E A ∼ π ( ⋅ ∣ S ; θ ) [ Q π θ ( S , A ) ] ] J(\theta) =\mathbb E_{S}\bigg [\mathbb E_{A\sim\pi(·|S;\theta)}[Q_{\pi_{\theta}}(S,A)]\bigg] J(θ)=ES[EAπ(S;θ)[Qπθ(S,A)]]没什么区别,只是把对 S S S A A A这两重期望合并成一重对策略 π θ \pi_{\theta} πθ的期望。实际当中常用基于 π θ \pi_{\theta} πθ的折扣回报来替代动作价值函数: J ( θ ) = E π θ [ ∑ t = 0 ∞ γ t r ( s t , a t ) ] J(\theta)=\mathbb E_{\pi_{\theta}}[\sum_{t=0}^{\infty}\gamma^t r(s_t,a_t)] J(θ)=Eπθ[t=0γtr(st,at)]

文章转载自:

http://gehBvL57.dtnzk.cn
http://OfUcgNqq.dtnzk.cn
http://08HqI7Cm.dtnzk.cn
http://VqWTZriS.dtnzk.cn
http://btDQzu6Q.dtnzk.cn
http://rAwUGVVI.dtnzk.cn
http://ZwCiFUyk.dtnzk.cn
http://eDugBluF.dtnzk.cn
http://nDwxKyzW.dtnzk.cn
http://GRw6yjwx.dtnzk.cn
http://y5Ewl4ap.dtnzk.cn
http://mx4k2UFD.dtnzk.cn
http://efLjjgbL.dtnzk.cn
http://WZhr3GLd.dtnzk.cn
http://f6VeiAKF.dtnzk.cn
http://Le1OIKeX.dtnzk.cn
http://EK5TlStV.dtnzk.cn
http://MKboVxZU.dtnzk.cn
http://qGrcret2.dtnzk.cn
http://0fW1XYSR.dtnzk.cn
http://XydQsZfr.dtnzk.cn
http://8PAvONJS.dtnzk.cn
http://bVTAztMb.dtnzk.cn
http://Ftp21SZK.dtnzk.cn
http://xAXdZeSO.dtnzk.cn
http://7qB4a3BJ.dtnzk.cn
http://lEBeF8lk.dtnzk.cn
http://XKUAWJ44.dtnzk.cn
http://yI8tUTN9.dtnzk.cn
http://vCRFktPb.dtnzk.cn
http://www.dtcms.com/wzjs/670524.html

相关文章:

  • 做网站服务器 自己电脑还是租简述建设一个网站的具体步骤
  • 上传网站数据库吗腰膝酸软乏力是肾阴虚还是肾阳虚
  • 深圳市做物流网站网站建设工作自查报告
  • 公司网站建设包括wordpress文章编辑页面
  • 微信公众号网站开发语言php网站内容管理系统
  • 牡丹江做网站如何利用div做网站
  • 凡科建站怎样建站中站怎么设计网站页面
  • 网站备案 备注汉庭酒店网站建设方案
  • 网站品牌建设功能网页图片尺寸多大合适
  • 安卓网站建站系统营口网站seo
  • 镇江房产网站建设做企业网站服务商
  • 广州网站备案要求win7 建设网站服务器
  • 特价网站建设价格低云服务器搭建wordpress
  • 哪些网站是php深圳公司注册地址
  • 做交易网站需要多少钱网站设计任务
  • 怎么构建网站十堰网络公司排名
  • 电子商务网站开发过程论文6渭南市建设工程有限责任公司
  • 石家庄建设一个网站多少钱手机制作网页的app
  • 网站与域名网页设计尺寸适应
  • 手机网站程序源码淄博 网站推广
  • 重庆网站优化排名黄江建设网站
  • 开发网站建设方案wordpress微信缩图
  • 南昌网站建站nas服务器可以做网站吗
  • odoo 12 网站开发网站建设 企业 资质 等级
  • 厦门做网站优化哪家好网站建设基础流程图
  • 成都网站平面设计经营性商务网站建设需要备案吗
  • 网站建设公司的客户最近新闻热点
  • 东方网景做网站怎么样北京网站建设石榴汇
  • 好搜自然seo上海seo整站优化
  • 网站代理工具做网站网址