当前位置: 首页 > wzjs >正文

管理系统网站开发响应式网站几个断点

管理系统网站开发,响应式网站几个断点,如何增加网站点击量,宿迁房产网 新楼盘引言 上一篇贝尔曼最优方程中我们已经推导出动作价值形式的贝尔曼最优方程: q π ∗ ( s , a ) ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r γ max ⁡ a ′ q π ∗ ( s ′ , a ′ ) ] \begin{equation}q_{\pi^*}(s,a)\sum_{s\in S}\sum_{r\in R}p(s,…

引言

上一篇贝尔曼最优方程中我们已经推导出动作价值形式的贝尔曼最优方程:
q π ∗ ( s , a ) = ∑ s ′ ∈ S ∑ r ∈ R p ( s ′ , r ∣ s , a ) [ r + γ max ⁡ a ′ q π ∗ ( s ′ , a ′ ) ] \begin{equation}q_{\pi^*}(s,a)=\sum_{s'\in S}\sum_{r\in R}p(s',r|s,a)[r+\gamma \max_{a'}q_{\pi^*}(s',a')]\end{equation} qπ(s,a)=sSrRp(s,rs,a)[r+γamaxqπ(s,a)]
这里的 q π ∗ ( s , a ) q_{\pi^*}(s,a) qπ(s,a)是最优动作价值的真实值,它是一个期望值,需要对所有可能的 s ′ s' s r r r依概率 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a)进行加权求和,然而这在实际中很难做到。因为环境的模型,即概率 p ( s ′ , r ∣ s , a ) p(s',r|s,a) p(s,rs,a)通常是很难知道的。因此需要一种免模型的方法,Q-learning就是免模型的方法。

原理

根据公式(1),我们采用一种迭代计算的方式来估计最优动作价值 q π ∗ ( s , a ) q_{\pi^*}(s,a) qπ(s,a),由于是估计值,我们用大写的Q与真实值作区分,记作Q(s,a)。

假设我们已经有了Q(s,a)的初始值,在与环境交互时,我们遇到了状态s,并采取了动作a,获得了奖励r,并进入了下一个状态s’。我们可以仅用这一条数据(s,a,r,s’)来更新最优动作价值的估计Q(s,a),根据公式(1),这时我们就不再对所有的r和s’依概率进行加权求和了,而只用这一条数据,所以可以把 r + γ max ⁡ a ′ Q ( s ′ , a ′ ) r+\gamma \max_{a'}Q(s',a') r+γmaxaQ(s,a)作为最优动作价值的估计。

但是,只用一条数据进行估计会有很大的误差,更好的方式是采用迭代计算的方式更新动作价值的估计值,即每次以一定的步长 α \alpha α用目标值 r + γ max ⁡ a ′ Q ( s ′ , a ′ ) r+\gamma \max_{a'}Q(s',a') r+γmaxaQ(s,a)来更新原有的估计值,即:
Q t + 1 ( s t , a t ) = Q t ( s t , a t ) − α t ( s t , a t ) [ Q t ( s t , a t ) − [ r t + 1 + γ max ⁡ a Q t ( s t + 1 , a ) ] ] Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)-\alpha_t(s_t,a_t)\left[Q_t(s_t,a_t)-[r_{t+1}+\gamma \max_{a}Q_t(s_{t+1},a)]\right] Qt+1(st,at)=Qt(st,at)αt(st,at)[Qt(st,at)[rt+1+γamaxQt(st+1,a)]]
至于为什么可以这样迭代计算,证明比较复杂,不展开赘述

为什么说Q-learning是off-policy的

行动策略:用来产生观测数据的策略,它决定了在 s t s_t st时选择哪个动作 a t a_t at
目标策略:最终需要学习的、正在优化的策略,也是在更新目标中使用的策略

在状态 s t s_t st时采取的动作 a t a_t at是是由行动策略决定的,为了保持对环境的探索,通常使用 ϵ \epsilon ϵ-greedy策略。而更新目标 r t + 1 + γ max ⁡ a Q t ( s t + 1 , a ) r_{t+1}+\gamma \max_{a}Q_t(s_{t+1},a) rt+1+γmaxaQt(st+1,a)可以改写成 r t + 1 + γ Q t ( s t + 1 , a ∗ ) r_{t+1}+\gamma Q_t(s_{t+1},a^*) rt+1+γQt(st+1,a),即在 s t + 1 s_{t+1} st+1时采取最优动作 a ∗ a^* a,说明我们的目标策略是一个贪心策略,它与行动策略是不同的。所以Q-learning是off-policy的。

http://www.dtcms.com/wzjs/544563.html

相关文章:

  • 外贸推广免费网站网站设计创意方案
  • 做包装盒有哪些网站明确好企业的价值主张
  • 如何查询网站主机信息ui作品集展示模板
  • 国内网站免费服务器网站建设 设计创意
  • 有实力营销型网站建设专业团队图片高清
  • 青岛金融网站建设超凡网络网站
  • 山西网站建设哪家好邵阳市建设局网站首页
  • 给个做的网站北京西直门附近网站建设公司
  • 企业网站多少钱一年网站做推广需要到工信部备案吗
  • 济南网站开发xywlcn前端开发的公司有哪些
  • 网站核查怎么抽查广州做啊里巴巴网站多少钱
  • 怎么在四川建设厅网站上进行劳务合同备案用pycharm做网站
  • 禁止同ip网站查询淄博网站备案
  • 网站访客qq获取系统 报价推广公司简介
  • 科凡网站建设在社保网站上怎么做员工的退费
  • 华升建设集团公司网站自动生成海报的网站
  • 设计互动网站建设什邡市建设局门户网站
  • 豆瓣网站是怎么建设的十大网络平台
  • 贵州企业网站建设公司建设银行注册网站首页
  • 滨州网站建设模板建设医院网站备案
  • 做兼职那个网站比较好社交网站开发公司
  • 营销型网站模板住建网站需多少钱
  • 做川菜的网站wordpress页面难看
  • 招聘网站怎么做线下活动wordpress apache ssl
  • 大气公司网站源码 企业网页模板建站 制作asp程序后台 中英文代码科技公司内蒙古网站制作
  • 建设一个网站报价小学教学活动设计方案模板
  • 杭州滨江区建设局网站盗图来做网站
  • 厦门建设局网站商品房注册会计师报名时间
  • 网站下载免费做网站登录的需求分析
  • 我想开个网站成都网上商城网站建设