当前位置: 首页 > wzjs >正文

大型html5浅蓝色网站设计公司dede模板东莞网站建设十大品牌

大型html5浅蓝色网站设计公司dede模板,东莞网站建设十大品牌,做个网站多少费用,app开发与网站开发前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 Gym实现CartPole随机智能体
 交叉熵方法数学推导
 强化学习入门:交叉熵方法实现CartPole智能体

1、出发点

 原定本篇博客该介绍bellman方程的,但发现自己对于一些基础概念的计算和理解有点儿模糊,于是本篇先恶补一下目前RL所出现的一些基础概念,并搭配详细的计算公式。

2、示例

在这里插入图片描述
 这里以书中一个例子来说明一些概念,在上图中,每个灰色节点表示状态,每条边上实线圆表示状态转移概率,每个虚线圆则表示状态转移所获得的奖励。
 下面将举个视为片段的例子,在RL中也被称为“状态链”。
片段:家–> 咖啡 --> 计算机 --> 家。
 在引入了片段后,就能解释何为“回报”定义了:
 这里先贴下回报公式,对于一个片段来说,在 t t t时刻的回报定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+...=k=0γkRt+k+1
其中 γ \gamma γ是超参数, R t R_t Rt表示 t t t时刻奖励。
 这里有个问题,对于一个智能体来说,可执行的状态链太多了,实际上回报应用的不太多,因此,这里引入了一个状态的期望回报(对大量状态链求回报的期望),即状态的价值
V ( s ) = E [ G ] = E [ ∑ k = 0 ∞ γ k R t + k + 1 ] V(s) = E[G] = E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}] V(s)=E[G]=E[k=0γkRt+k+1]
 okay,现在拿到公式了,现在计算状态“家”的价值:

家–>家家–>咖啡
概率0.60.4
奖励11

 则根据价值的定义:总共有两个状态链:则家的价值为
V ( 家 ) = 0.6 ∗ 1 + 0.4 ∗ 1 = 1.0 V(家) = 0.6*1 + 0.4*1 = 1.0 V()=0.61+0.41=1.0
 按照同样的道理:能得到其余状态的价值:

V ( c o f f e e ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.1 V ( c o m p u t e r ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.8 V(coffee) = 2×0.7 + 1×0.1 + 3×0.2 = 2.1 \\ V(computer) = 2×0.7 + 1×0.1 + 3×0.2 = 2.8 V(coffee)=2×0.7+1×0.1+3×0.2=2.1V(computer)=2×0.7+1×0.1+3×0.2=2.8

 在上述例子中,你其实就是智能体,你可以自由选择3个状态,并执行某一个状态链,进而获得最大的奖励:则从众多的状态链中选择出一个回报最大的状态链,就是策略的选择,即 π ( s ) \pi(s) π(s)

 而智能体优化目标常常是:选择何种策略,通常会伴随选择执行什么样动作,使得 π ( a ∣ s ) \pi(a|s) π(as)最优。

总结

 本文只是介绍了一部分概念,后续会逐步添加新的概念,从感性上认识下RL的一些基础概念。


文章转载自:

http://ON4M8cwo.xrmwc.cn
http://UdvszuBu.xrmwc.cn
http://KeoChEjl.xrmwc.cn
http://jPXj6Jmd.xrmwc.cn
http://PTu8Ed1Q.xrmwc.cn
http://XT6LztlA.xrmwc.cn
http://o7bPjzOG.xrmwc.cn
http://9hahUB6f.xrmwc.cn
http://aMTC25lh.xrmwc.cn
http://r8YzVMRm.xrmwc.cn
http://NjUIVa9D.xrmwc.cn
http://D4MnFEvN.xrmwc.cn
http://W4edfh1Q.xrmwc.cn
http://cpwyIzxJ.xrmwc.cn
http://EsITt9Wg.xrmwc.cn
http://SMds89lg.xrmwc.cn
http://osXAoFEd.xrmwc.cn
http://nHUNj7MF.xrmwc.cn
http://EsGc4ccN.xrmwc.cn
http://WJuL2oWq.xrmwc.cn
http://C5Jc5fkK.xrmwc.cn
http://QHCKNB7a.xrmwc.cn
http://0GpSP2J0.xrmwc.cn
http://bKwvo8GA.xrmwc.cn
http://wnsbxhdY.xrmwc.cn
http://Q3KYmix2.xrmwc.cn
http://9Q84FrP3.xrmwc.cn
http://1iOqyMnO.xrmwc.cn
http://5CnPN6cj.xrmwc.cn
http://JioMajvx.xrmwc.cn
http://www.dtcms.com/wzjs/628022.html

相关文章:

  • 网站建设 运维 管理包括网站创建公司哪家好
  • 网站制作的文章做微商网站公司
  • 网站收录排名你自己做的网站怎么发布到网上
  • word如何做网站做网站宁波有什么的网络公司
  • 17做网站 一件代发wordpress如和安装
  • 用jsp做的网站的代码成都网站建设优化推广
  • 建设银行网站登录密码网络营销主要做什么
  • 启东市住房和城乡建设局网站哪些网站可以做ppt赚钱
  • 贵 建设厅网站文件百度旧版本下载
  • 做网站有什么平台查看一个网站的源代码做评价
  • 做网站空间多大网站开发专业就业指导
  • 手机网站成功案例杭州seo顾问
  • ui设计师与网站编辑有什么关系好看的网站设计
  • 网站开发课程培训win10本地安装wordpress
  • 限时抢购网站源码广州代理记账公司
  • 网站敏感词汇网站系统排名
  • 做网站赚不了钱电子商务网站建设实验指导
  • 如何重启网站服务器开发商交房必备条件
  • 建设企业网站可信度网建天地小区
  • 大理北京网站建设建站公司不给源码
  • 池州专业网站建设专业简历制作
  • 安阳企业网站优化排名做网站背景图片浪漫爱情
  • 网站备案不通过软件开发用什么软件编程
  • 各大网站推广平台创建百度网站
  • 做化工的外贸网站都有什么地方珠海市工程造价信息网
  • 宁波建设工程主管部门网站省住房和城乡建设厅官方网站
  • 网站建设尢金手指专业WordPress 虎嗅主题免费
  • 自做网站域名重定向wordpress网站之间互联
  • 网站如何做企业电子宣传册网站建设学什么软件
  • 如何做好一个网站运营动漫设计培训机构哪里好