当前位置: 首页 > wzjs >正文

企业官网属于什么网站今天重大新闻事件

企业官网属于什么网站,今天重大新闻事件,网站建设为什么必须有服务器,服装网站建设项目实施报告范文Asynchronous Advantage Actor-Critic A3C (2016, DeepMind) 异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程 model-free, actor-critic 核心改进点说明异步并行训练 – Asynchronous (无经验回放)通过多个…

在这里插入图片描述

Asynchronous Advantage Actor-Critic A3C (2016, DeepMind)

异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程

  • model-free, actor-critic
核心改进点说明
异步并行训练 – Asynchronous (无经验回放)通过多个异步 agent 并行采样,打破数据相关性,提升训练效率 ; 并异步更新共享的全局网络,减少了训练过程中的延迟和等待
优势函数 – Advantage通过计算 A ( s t , a t ) = R t − V ( s t ; θ v ) A(s_t, a_t) = R_t - V(s_t; \theta_v) A(st,at)=RtV(st;θv) 来减小策略梯度的方差
熵正则化项(Entropy Regularization)引入熵正则项 H ( π ) H(\pi) H(π),鼓励策略网络保持多样性,增强探索性,避免过早收敛到局部最优

A3C 网络更新

Critic 网络更新: θ v \theta^v θv

Critic 通过最小化价值函数的损失来学习 (不熟悉 TD 的先看专栏下对应的那篇~):

L value = ( r t + γ V ( s t + 1 ) − V ( s t ) ) 2 L_{\text{value}} = ( r_t + \gamma V(s_{t+1})- V(s_t))^2 Lvalue=(rt+γV(st+1)V(st))2

Actor 网络更新: θ μ \theta^\mu θμ

Actor 通过最大化期望回报来更新,使用 Advantage 来减少 PG 的方差 (不熟悉 policy gradient 的先看专栏下对应的那篇~):

L policy = − log ⁡ π ( a t ∣ s t ) A ( s t , a t ) L_{\text{policy}} = - \log \pi(a_t | s_t) A(s_t, a_t) Lpolicy=logπ(atst)A(st,at)

其中 Advantage A ( s t , a t ) A(s_t, a_t) A(st,at) 可以估计为:

A ( s t , a t ) = r t + γ V ( s t + 1 ) − V ( s t ) A(s_t, a_t) = r_t + \gamma V(s_{t+1})- V(s_t) A(st,at)=rt+γV(st+1)V(st)

总的损失函数

通常,A3C 的总损失函数包含三部分:

  • 策略损失(Policy Loss)
  • 价值损失(Value Loss)
  • 熵正则化项(Entropy Loss,用来增加探索性)

完整的目标函数为:

L = L policy + c 1 L value − c 2 H ( π ( s t ) ) L = L_{\text{policy}} + c_1 L_{\text{value}} - c_2 H(\pi(s_t)) L=Lpolicy+c1Lvaluec2H(π(st))

其中:

  • H ( π ) H(\pi) H(π) 是策略的熵,鼓励策略探索
  • c 1 , c 2 c_1, c_2 c1,c2 是权重系数

参考资料:A3C详解


文章转载自:

http://iqfTf0NK.mrfgy.cn
http://83pQ013T.mrfgy.cn
http://f1THbbOw.mrfgy.cn
http://P3ju56nq.mrfgy.cn
http://quDD2Czh.mrfgy.cn
http://113fOflj.mrfgy.cn
http://fAD49xZN.mrfgy.cn
http://hN5yKQIK.mrfgy.cn
http://x9EdFtBD.mrfgy.cn
http://aps8gR5O.mrfgy.cn
http://s3O09six.mrfgy.cn
http://uozC0Vpg.mrfgy.cn
http://K6dgU2Lr.mrfgy.cn
http://ILvUTcnW.mrfgy.cn
http://xCU2dOP2.mrfgy.cn
http://aqEvttAr.mrfgy.cn
http://FF02Ggb3.mrfgy.cn
http://HKtaRD7D.mrfgy.cn
http://iJ0eKsf3.mrfgy.cn
http://THd4SIeB.mrfgy.cn
http://GbmX1TBZ.mrfgy.cn
http://bACwJ2IZ.mrfgy.cn
http://LhubNwt9.mrfgy.cn
http://lnD5CMIN.mrfgy.cn
http://2D5qVu9p.mrfgy.cn
http://BUwO8BG8.mrfgy.cn
http://glj3bGp1.mrfgy.cn
http://tZAm1Tp1.mrfgy.cn
http://ANjAGk04.mrfgy.cn
http://6fSpralN.mrfgy.cn
http://www.dtcms.com/wzjs/654777.html

相关文章:

  • 微餐饮网站建设平台如何制作一个优秀网站建设
  • 网站浏览器图标怎么做社区网站建设策划方案
  • 一个网站做数据分析要多少钱专业网站建设新闻
  • 在vs做的项目怎么连接到网站上海最新发布最新
  • 黄金网站app视频网站建设平台赚钱
  • asp网站浏览器兼容个人网站例子
  • 提供服务的网站网站开发中效率较高的编程语言
  • 下载爱南宁官方网站用python做 网站论坛
  • 常州网络推广网站wordpress用七牛
  • 市建设局网站的综合业务管理平台电商物流建设网站过程
  • 网站建设案例公司推广引流最快的方法
  • 网站开发处理大量用户请求企业网站运营外包费用
  • 个人网站设计文字内容模板做装修的网站有哪些内容
  • 厦门建站程序网络营销模式有哪些
  • 网站建设需求什么功能2022年企业所得税政策
  • 诀窍的网站云南网站建设专业品牌
  • 自己电脑做网站还用备案软件技术服务包括哪些内容
  • 大一网站开发项目答辩wordpress文章分类链接
  • 300元建站河北建设工程信息网一体化平台
  • 如何自己做企业网站大学生网页设计作业代码
  • 长沙网站建设有限公司钢材网站建设
  • 男女做爰全过程的视频网站宽带
  • 网站图片被盗连怎么办啊网络推广是以企业产品或服务
  • 网站右下角浮动效果如何做泰州市做网站
  • 湛江公司网站建设drupal 和wordpress
  • 手机网站怎么做301注册网站需要房产证
  • 网站服务器信息查询我的百度账号登录
  • seo网站优化做什么七牛云域名
  • 中国建设银行手机版网站首页next.js做纯静态网站
  • 网站建设接活app杭州免费网站建站模板