当前位置: 首页 > wzjs >正文

建设监理杂志网站企业专业搜索引擎优化

建设监理杂志网站,企业专业搜索引擎优化,成都旅游景点有哪些,网站建设案例分析一、梯度下降 1.为什么要用梯度下降 梯度的方向是函数上升最快的方向,沿着梯度方向对参数做更新,就可以使的目标函数增大。 如图所示,对于函数yf(x), 在A点的导数是大于零的,也就是增大x,f&a…

一、梯度下降

1.为什么要用梯度下降

梯度的方向是函数上升最快的方向,沿着梯度方向对参数做更新,就可以使的目标函数增大。

如图所示,对于函数y=f(x), 在A点的导数是大于零的,也就是增大x,f(x)也会增大。所以,我们沿着梯度方向前进,就可以找到目标函数的最大值。

而我们的进行神经网络学习的时候,目标让预测值与真实值的误差之和最小,也就是是MSE(平均平方误差)最小:

由于我们的优化目标是最小化目标函数(损失函数),所以是沿着梯度的负方向更新参数,也就是梯度下降。

2.梯度下降的参数更新方法:

其中,α为学习率。

二、DQN

1.动作价值函数和最优动作价值函数

动作价值函数:Ut是一个随机变量,其随机性来源于t时刻之后的所有状态和动作,为了消除t时刻之后的所有状态和动作影响,对Ut求条件期望,就可以获得动作价值函数,消除st+1.和at+1及其之后所有状态动作影响。

最优动作价值函数: 已知st和at,回报ut的期望的最大值。可以消除策略的影响。

2.DQN:Deep Q network,深度Q网络

1)DQN的作用:DQN在这里主要是用来预测Q(s,a;w),使它尽量接近

2)输入与输出:DQN的输入使状态s,输出使离散动作空间中的每个动作的Q 值。有几个动作,输出就是几维的向量。

3)梯度:在训练DQN时,需要对DQN关于神经网络参数w求梯度:

4) 梯度优化:

三、TD Learning(Temporal difference, 时间差分)

理论上,根据DQN需要有整个过程的真实值后,才能进行反向传播优化,但采用TD算法,可以在只有部分真实值的时候,对w进行优化。也就是用部分真实结果+部分预测结果看作新的结果(TD目标),对之前的预测模型进行优化。由于其中包含部分真实数据,所以相较于之前的预测结果会更加接近真实值。

四、用TD训练DQN(这个是具体的用法)

1.观测st和at;

2.计算DQN的预测值:

3.环境给出st+1和rt

4.计算TD目标:

5.计算TD误差:

6.更新参数

根据这个方法,可以采用在每一个动作之后,更新参数w,也可以在完成一个回合后进行对应的参数更新。

~*后续如果开始编写程序了,再进行代码补充,目前先完成概念学习~

学习资料:《深度强化学习》,作者王树森、黎彧君、张志华。

学习视频:【王树森】深度强化学习(DRL)_哔哩哔哩_bilibili

http://www.dtcms.com/wzjs/263819.html

相关文章:

  • 长沙网站制作中国国家培训网正规吗
  • 上海专业的网站建设公司南宁优化网站网络服务
  • 做视频网站用什么格式好网站建设百度推广
  • 外包做网站价格长沙专业竞价优化首选
  • 埃及网站后缀推广赚钱的平台有哪些
  • 有哪些做海报的网站seo外链优化
  • 网站换域名seo怎么做官方app下载安装
  • 广州市外贸网站建设服务机构无排名优化
  • 做网站建设最好的公司是冯耀宗seo博客
  • 游戏网站开发有限公司公司网站建设价格
  • 网站开发怎么做网站是否含有seo收录功能
  • 电子商务网站建设经费电商培训内容有哪些
  • 网站建设策划书百度seo搜索排名
  • 外贸企业网站改版网站优化建议怎么写
  • 正规专业短期培训学校优化seo系统
  • 各种网站末班免费网站申请注册
  • 上街郑州网站建设互联网推广引流是做什么的
  • 怎么做网站建设赚钱网络推广方式有哪些
  • 企石镇做网站中国最新消息今天
  • 广东省网站建设成人教育机构排行前十名
  • 网站排名优化的技巧知名网络营销推广
  • wordpress压缩数据库查询青岛seo关键词
  • 西安网站开发多少钱广州网络公司
  • 做网站用python好吗谷歌浏览器下载安装(手机安卓版)
  • 伦教九江网站建设百度首页排名优化公司
  • 上海什么做网站的公司比较好产品seo怎么优化
  • 兖州网站开发嘉兴seo外包平台
  • 科技苑深圳博惠seo
  • 360做网站的百度信息流广告代理
  • 自己做网站能关联支付宝吗十大少儿编程教育品牌