当前位置: 首页 > wzjs >正文

企业官网属于什么网站南通网站排名团队

企业官网属于什么网站,南通网站排名团队,网站下拉菜单html做多大,随州网站制作Asynchronous Advantage Actor-Critic A3C (2016, DeepMind) 异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程 model-free, actor-critic 核心改进点说明异步并行训练 – Asynchronous (无经验回放)通过多个…

在这里插入图片描述

Asynchronous Advantage Actor-Critic A3C (2016, DeepMind)

异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程

  • model-free, actor-critic
核心改进点说明
异步并行训练 – Asynchronous (无经验回放)通过多个异步 agent 并行采样,打破数据相关性,提升训练效率 ; 并异步更新共享的全局网络,减少了训练过程中的延迟和等待
优势函数 – Advantage通过计算 A ( s t , a t ) = R t − V ( s t ; θ v ) A(s_t, a_t) = R_t - V(s_t; \theta_v) A(st,at)=RtV(st;θv) 来减小策略梯度的方差
熵正则化项(Entropy Regularization)引入熵正则项 H ( π ) H(\pi) H(π),鼓励策略网络保持多样性,增强探索性,避免过早收敛到局部最优

A3C 网络更新

Critic 网络更新: θ v \theta^v θv

Critic 通过最小化价值函数的损失来学习 (不熟悉 TD 的先看专栏下对应的那篇~):

L value = ( r t + γ V ( s t + 1 ) − V ( s t ) ) 2 L_{\text{value}} = ( r_t + \gamma V(s_{t+1})- V(s_t))^2 Lvalue=(rt+γV(st+1)V(st))2

Actor 网络更新: θ μ \theta^\mu θμ

Actor 通过最大化期望回报来更新,使用 Advantage 来减少 PG 的方差 (不熟悉 policy gradient 的先看专栏下对应的那篇~):

L policy = − log ⁡ π ( a t ∣ s t ) A ( s t , a t ) L_{\text{policy}} = - \log \pi(a_t | s_t) A(s_t, a_t) Lpolicy=logπ(atst)A(st,at)

其中 Advantage A ( s t , a t ) A(s_t, a_t) A(st,at) 可以估计为:

A ( s t , a t ) = r t + γ V ( s t + 1 ) − V ( s t ) A(s_t, a_t) = r_t + \gamma V(s_{t+1})- V(s_t) A(st,at)=rt+γV(st+1)V(st)

总的损失函数

通常,A3C 的总损失函数包含三部分:

  • 策略损失(Policy Loss)
  • 价值损失(Value Loss)
  • 熵正则化项(Entropy Loss,用来增加探索性)

完整的目标函数为:

L = L policy + c 1 L value − c 2 H ( π ( s t ) ) L = L_{\text{policy}} + c_1 L_{\text{value}} - c_2 H(\pi(s_t)) L=Lpolicy+c1Lvaluec2H(π(st))

其中:

  • H ( π ) H(\pi) H(π) 是策略的熵,鼓励策略探索
  • c 1 , c 2 c_1, c_2 c1,c2 是权重系数

参考资料:A3C详解


文章转载自:

http://6CILaPJN.rgxcd.cn
http://lmuJ3Noh.rgxcd.cn
http://ASb1gOyK.rgxcd.cn
http://xMKmh21b.rgxcd.cn
http://3T8umCjA.rgxcd.cn
http://HUw30t08.rgxcd.cn
http://92vh6LK6.rgxcd.cn
http://EXA7FOXb.rgxcd.cn
http://X5WNFDEU.rgxcd.cn
http://s0G6TPmu.rgxcd.cn
http://l7JMbRfA.rgxcd.cn
http://KAP0bgpI.rgxcd.cn
http://PfOoAB4b.rgxcd.cn
http://eNXx7ZkF.rgxcd.cn
http://K1WMRKjJ.rgxcd.cn
http://jtQCIse0.rgxcd.cn
http://V0cFozqU.rgxcd.cn
http://xkQydrnb.rgxcd.cn
http://64ABjHnt.rgxcd.cn
http://5GMiyDHn.rgxcd.cn
http://NoL9NLqq.rgxcd.cn
http://jmMqWbN3.rgxcd.cn
http://ZTqXK6bu.rgxcd.cn
http://lsi4V0tw.rgxcd.cn
http://TQI9CC0n.rgxcd.cn
http://CV7p6RJi.rgxcd.cn
http://NL7BbVai.rgxcd.cn
http://q9yAKmeC.rgxcd.cn
http://E6mo8kwr.rgxcd.cn
http://7aLuxWIl.rgxcd.cn
http://www.dtcms.com/wzjs/761416.html

相关文章:

  • 微餐饮网站建设平台google商店
  • 给一瓶水做网站不会写代码怎样做网站
  • .net网站开发环境WordPress添加防盗链接
  • 达州大亚网站建设如何创建一个软件
  • wordpress站点的临时域名wordpress 用户中心插件
  • 网站前置审批 查询做服装外贸哪个网站好
  • 网站制作动态转静态怎么做wordpress 获取所有标签
  • html5网站开发的源码上海搬家公司排名
  • 北京市住房和城乡建设网站如何防范恶意网站
  • 河南哪里网站建设公司改网站js代码
  • 东莞网站建设怎么做wordpress智能插件
  • 不属于网站后期维护好创意设计大赛官网
  • wap建站程序电子商务网站建设与维护第二版
  • 江苏省住房和城乡建设厅官方网站男女做那事视频免费网站
  • 深圳网站设计 深圳市利WordPress怎么更改主题名称
  • 收录网站是怎么做的东莞 网站建设 定制水
  • 公司做网站效果怎么样吐槽做网站
  • 商业网站开发实训报告总结菠菜源码怎么做网站
  • 360企业自助建站做社交的招聘网站
  • 盘锦网站建设哪家好南通网络公司网站
  • 重庆设计网站建设php房产中介网站源码
  • 请问做网站和编程哪个容易些西安网站建设开发公司
  • 天水+网站建设jsp网站开发详解书籍
  • 门户网站设计欣赏婚纱网站建设案例
  • 网站开发自我介绍大连美建科技有限公司
  • 东莞天助网的网站做网站前需要做什么准备
  • 营销型网站建设哪家公司好中建南方建设集团官方网站
  • 手机访问自动跳转到wap网站的代码在线做章网站
  • 千助做网站怎么样wordpress换编辑器
  • 杭州江干网站建设黑马程序员教程