当前位置: 首页 > wzjs >正文

放在主机上的网站程序如何建压缩包然后直接下载电子版简历word格式

放在主机上的网站程序如何建压缩包然后直接下载,电子版简历word格式,网站开发详细设计文档,wordpress post date前言 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教…

前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:
 马尔科夫过程
 马尔科夫奖励过程
 马尔科夫奖励过程二
 RL框架Gym简介
 Gym实现CartPole随机智能体
 交叉熵方法数学推导
 强化学习入门:交叉熵方法实现CartPole智能体

1、出发点

 原定本篇博客该介绍bellman方程的,但发现自己对于一些基础概念的计算和理解有点儿模糊,于是本篇先恶补一下目前RL所出现的一些基础概念,并搭配详细的计算公式。

2、示例

在这里插入图片描述
 这里以书中一个例子来说明一些概念,在上图中,每个灰色节点表示状态,每条边上实线圆表示状态转移概率,每个虚线圆则表示状态转移所获得的奖励。
 下面将举个视为片段的例子,在RL中也被称为“状态链”。
片段:家–> 咖啡 --> 计算机 --> 家。
 在引入了片段后,就能解释何为“回报”定义了:
 这里先贴下回报公式,对于一个片段来说,在 t t t时刻的回报定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} Gt=Rt+1+γRt+2+...=k=0γkRt+k+1
其中 γ \gamma γ是超参数, R t R_t Rt表示 t t t时刻奖励。
 这里有个问题,对于一个智能体来说,可执行的状态链太多了,实际上回报应用的不太多,因此,这里引入了一个状态的期望回报(对大量状态链求回报的期望),即状态的价值
V ( s ) = E [ G ] = E [ ∑ k = 0 ∞ γ k R t + k + 1 ] V(s) = E[G] = E[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}] V(s)=E[G]=E[k=0γkRt+k+1]
 okay,现在拿到公式了,现在计算状态“家”的价值:

家–>家家–>咖啡
概率0.60.4
奖励11

 则根据价值的定义:总共有两个状态链:则家的价值为
V ( 家 ) = 0.6 ∗ 1 + 0.4 ∗ 1 = 1.0 V(家) = 0.6*1 + 0.4*1 = 1.0 V()=0.61+0.41=1.0
 按照同样的道理:能得到其余状态的价值:

V ( c o f f e e ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.1 V ( c o m p u t e r ) = 2 × 0.7 + 1 × 0.1 + 3 × 0.2 = 2.8 V(coffee) = 2×0.7 + 1×0.1 + 3×0.2 = 2.1 \\ V(computer) = 2×0.7 + 1×0.1 + 3×0.2 = 2.8 V(coffee)=2×0.7+1×0.1+3×0.2=2.1V(computer)=2×0.7+1×0.1+3×0.2=2.8

 在上述例子中,你其实就是智能体,你可以自由选择3个状态,并执行某一个状态链,进而获得最大的奖励:则从众多的状态链中选择出一个回报最大的状态链,就是策略的选择,即 π ( s ) \pi(s) π(s)

 而智能体优化目标常常是:选择何种策略,通常会伴随选择执行什么样动作,使得 π ( a ∣ s ) \pi(a|s) π(as)最优。

总结

 本文只是介绍了一部分概念,后续会逐步添加新的概念,从感性上认识下RL的一些基础概念。


文章转载自:

http://7Q8tSGUx.mkkcr.cn
http://EqUoIULt.mkkcr.cn
http://H4lhwHNm.mkkcr.cn
http://a6O0xshm.mkkcr.cn
http://QkRe4OY6.mkkcr.cn
http://IsJmI5qZ.mkkcr.cn
http://VOVeadIM.mkkcr.cn
http://j7EljnqU.mkkcr.cn
http://b7LCOKGo.mkkcr.cn
http://m58p5pYs.mkkcr.cn
http://76nyyURY.mkkcr.cn
http://NvT11ofv.mkkcr.cn
http://iW3k8zhS.mkkcr.cn
http://MTUj3hzS.mkkcr.cn
http://HpDL6MSY.mkkcr.cn
http://SvBQNtdB.mkkcr.cn
http://vfY8t8vA.mkkcr.cn
http://udDEChFY.mkkcr.cn
http://ingUlJCT.mkkcr.cn
http://HsVGHXhN.mkkcr.cn
http://HSUpAIzl.mkkcr.cn
http://SoOVzs5K.mkkcr.cn
http://EaKFPD89.mkkcr.cn
http://ALYpKl9Y.mkkcr.cn
http://vf61n4VP.mkkcr.cn
http://YQlK5TZd.mkkcr.cn
http://fimwjD9F.mkkcr.cn
http://R9S8mELb.mkkcr.cn
http://fxkf6G9V.mkkcr.cn
http://b4ye8vCb.mkkcr.cn
http://www.dtcms.com/wzjs/643683.html

相关文章:

  • wordpress 建资源县好不好seo网站推广软件 快排
  • 个人网站设计论文题目广东品牌网站建设服务机构
  • 国家建设网站网站制作的一般步骤
  • 盐城做网站企业wordpress解压主题没反应
  • 易签到网站开发设计腾冲网站建设
  • 广州市海珠区建设局网站网络公关团队
  • 西部网站邮箱登录跳转链接生成器
  • 免费网站建站排名今朝装饰老房装修套餐
  • 网站在建设中 英语淘宝cms建站
  • 哪些网站可宣传廊坊网站制作工具
  • 万网网站备案查询个人网页设计图片素材网
  • 帝国cms入门到精通企业门户网站制作建站视频教程盘县做会计兼职的网站
  • 改图宝在线编辑图片厦门seo网站
  • 天津seo网站推广古云网站建设
  • 网站建设与维护项目六 天堂资源地址在线官网
  • 手机网站发号系统源码网站建设中 倒计时
  • 竞价托管网站建设淮南网络营销
  • 什么叫网站被k软件app大全免费
  • 嘉兴网站搭建wordpress多站点功能
  • 网站设计的素材万词霸屏百度推广seo
  • 企业网站开发技术题库开发 程序网站
  • html5网站开发案例视频网站标题修改
  • 山西建设工程备案网站如何建立网站教程
  • 中关村在线网站的建设泉州电商网站建设
  • 北京市建设工程质量监督站网站保之友微网站怎么建
  • 找一个免费的网站上海网站建设电
  • 微信的公众平台网站开发南昌百度快速排名优化
  • 法人查询湖南网站优化代运营
  • 如何查看网站架构搜索引擎的优化方法
  • 网站建设整改报告购物商城项目