当前位置: 首页 > wzjs >正文

建站平台塔山双喜口碑好的设计培训机构

建站平台塔山双喜,口碑好的设计培训机构,梨树做网站,wordpress换到新服务器《Natural Actor-Critic》 摘要 本文提出了一种新型的强化学习架构,即自然演员-评论家(Natural Actor-Critic)。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现,而评论家则通过线性回归同时获得自然…

《Natural Actor-Critic》

摘要

本文提出了一种新型的强化学习架构,即自然演员-评论家(Natural Actor-Critic)。The actor 的更新通过使用Amari的自然梯度方法进行策略梯度的随机估计来实现,而评论家则通过线性回归同时获得自然策略梯度和价值函数的附加参数。本文展示了使用自然策略梯度的actor改进特别有吸引力,因为这些梯度与所选策略表示的坐标框架无关,并且比常规策略梯度更高效。评论家利用了以策略梯度兼容的函数逼近实现的特殊基函数参数化(basis function parameterization)。本文证明了多个著名的强化学习方法,如原始的演员-评论家和Bradtke的线性二次Q学习,实际上是自然演员-评论家算法的特例。实证评估表明,与之前的方法相比,该技术非常有效,并且证明了它们在仿人机器人手臂上学习控制的applicability。

1 引言

基于价值函数近似的强化学习算法在 discrete lookup table parameterization 中已经取得了巨大成功。然而,当应用于连续函数近似时,这些算法中的许多都无法泛化,并且很少能获得收敛保证[24_ Sutton_Reinforcement_Learning]。这一问题的主要原因可归结于大多数方法采用的贪婪(greedy)或ε-贪婪(ε-greedy)策略更新机制——当结合近似价值函数使用时,此类更新无法保证策略的改进[8_Neuro-dynamic_programming]。在贪婪更新过程中,价值函数中的微小误差可能导致策略的剧烈变化,而这种策略变化又会引发价值函数的显著波动。若反复进行这一过程,算法可能陷入振荡或发散。即使在简单的示例系统中,许多知名的贪婪强化学习算法也会表现出此类不良行为[6_Gradient_descent_for_RL, 8_Neuro-dynamic_programming]。

作为贪婪强化学习的替代方案,策略梯度方法(Policy Gradient Methods)被提出。

http://www.dtcms.com/wzjs/524248.html

相关文章:

  • 做网站推广的前期条件sem全称
  • app与网站数据交互今天重要新闻
  • 企业网站的建设流程搜狗网站收录提交入口
  • 个人设计网站模板精准客户数据采集软件
  • 做批发是国际购物网站有哪些最近新闻摘抄
  • 用心做的网站seo网络营销的技术
  • 眼科医院网站做竞价带来的询盘量可以免费打开网站的软件下载
  • 赵县住房和城乡建设局网站首页武汉标兵seo
  • 怎么样做小程序seo品牌
  • 南通seo网站推广费用百度自然搜索排名优化
  • 深圳免费模板建站搜索引擎推广文案
  • 苏州网站维护济南网络优化网址
  • 做营销网站设计互联网营销师培训机构哪家好
  • 在青岛建网站seo知识培训
  • 福州做网站改版哪里比较好网站优化
  • 梅江区住房和城乡建设局官方网站关键词热度
  • 公司做免费网站建设网络建站
  • 厦门有没有做网站的在线培训
  • 做网站流程 优帮云百度权重高的发帖网站
  • 宝安网站建设公司968接单平台
  • 小程序定义武汉好的seo优化网
  • 柳州网站建设哪家公司好硬件优化大师下载
  • 个人网站 公安备案福建搜索引擎优化
  • 网站建设及推广预算表seo搜索优化技术
  • wordpress如何添加广告代码网站排名优化技巧
  • 免费空间怎么搞网站抖音代运营
  • 网站制作案例效果网络营销专业代码
  • 有没有可以做各种字体的网站微信营销软件手机版
  • 技术合同 网站开发厦门百度整站优化服务
  • 免费网站源码大全下载合肥今日头条最新消息