当前位置：首页 > wzjs >正文

政府门户网站建设管理情况汇报软文写作

wzjs 2025/8/10 9:42:51

政府门户网站建设管理情况汇报,软文写作,企业网站seo多少钱,装修案例分析强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它专注于让智能体（Agent）通过与环境（Environment）的交互来学习如何做出最优决策。可能会觉得有些抽象，想象一下训练…

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它专注于让智能体（Agent）通过与环境（Environment）的交互来学习如何做出最优决策。

可能会觉得有些抽象，想象一下训练小狗做动作：如果它做对了，你就给零食（奖励）；做错了就不给甚至轻微惩罚。

强化学习的最终目标：求解最优策略。沿着这个最优策略可以最大化长期累积奖励，而不是单次奖励。

基础概念

整篇会以网格寻找到目标网格的最优路径为例：

任务：从开始网格，找到到达目标网格的最优的路径。

1.1 状态（State）

智能体相对于环境的状态（如游戏画面、机器人传感器数据）

对于这个例子来说，这个状态可以是位置，总共有9个状态：

状态空间可以表示为：

对于更复杂的状态可以包括速度、加速度等，具体的状态所包括的变量取决于当前的任务。对于例子的这个任务来说，只需要关注于位置即可，所以状态时位置。比如机器人的状态可以有位置、速度、加速度等等。

1.2 动作（Action）

对于每个状态，智能体可执行的操作

对于这个例子来说，对于每个状态，可能执行的动作有五个：向上、向右、向下、向左以及保持不动，分别表示为、、、以及。

每个状态的动作空间可以表示为：

不同的状态可以有不同的动作空间。

1.3 状态转移（State transition）

当采取动作时，智能体的状态可能会发生转移，从一个状态转到另一个状态，这个过程就成为状态转移。

例如，对于状态，选择动作时，则转移到状态：

对于状态，选择动作时，则转移到状态：因为往上之后没有表格了

状态转移可以看作智能体和环境的一种交互行为。

状态转移的表格表示：

对于表格的表示来说，它只能表达确定的状态。

也可以使用概率来表示状态转移，其实就是使用条件概率来表示：在状态，如果选择动作，则状态转移到：

概率表示也是确定性的情况，但是状态转移可以是随机的，可以根据概率，随机选择一条状态来进行转移。

1.4 策略（Policy）

智能体决定动作的规则（如“在状态A时选择动作B”）。告诉智能体要选择哪一个状态

直观的表示：箭头表示策略

基于这个策略，从不同的点出发，则可以得到不同的路径：

数学表征为：同样使用条件概率

这是一个确定的策略，也可以有不确定的策略：

表格表征：

1.5 奖励（Reward）

环境对动作的即时反馈（如得分增加、能量消耗），也就是采取某个动作之后的得分，是一个实数、标量，可以看作人机交互的手段，引导智能体按照我们期望的方式行动。

分为：

积极奖励：鼓励这种行为（0奖励也算一种特殊的鼓励）
消极奖励：乘法这种行为

在例子当中，可以设置一下奖励规则：

智能体尝试越出边界：
智能体进入forbidden cell：
智能体进入目标cell：
其他：

表格表征：

表示的是确定性的情况。

数学表征：条件概率，在状态时，如果我们选择动作，奖励是-1。

在和的条件下，的概率为1，其他条件下的概率为0

注意：

奖励规则是确定的，但是奖励转移时随机的。只有学习了就有奖励，但是获得奖励是不确定的。
奖励依赖于当前的状态和动作，而不是下一个状态。

1.6 trajectory（轨迹）和return（回报）

轨迹是一个 “状态-动作-奖励”链：

回报的即是当前路径的奖励：

判断哪个策略比较好：可以哪个策略的回报是greater。回报可以判断策略的好坏。

上面的第一个策略的轨迹可以表示为：

回报为：

这个回报是没有意义的，因为这个回报时发散的。这个时候就需要discount rate，discounted return：

通过的控制，回报就变成有限的，并且可以平衡短视和长视奖励，也就是是说：

如果接近于0，discounted return的价值主要是近期获得的回报。
如果接近于1，discounted return的价值主要是长期获得的回报。

1.7 Episode

当智能体遵循某个策略与环境交互时，可能会在某些终止状态处停止。由此产生的状态-动作序列被称为一个Episode。

一个episode通常被定义为一段有限的交互轨迹。包含这类有限episode的任务称为episodic tasks。

有的任务没有终端状态，意味这与环境的交互没有结束点，这类任务称为持续任务（continuing tasks）。

实际上，我们可以通过将分集任务（episodic tasks）转化为持续任务（continuing tasks），在统一的数学框架下对待这两类任务。

方案1：将目标状态视为一种特殊的吸收态。一旦智能体进入了吸收态，它便永远不会离开。从此时起，后续的奖励均为 r = 0。
方案2：将目标状态视为一个正常的、具有策略的状态。即使智能体到达了目标状态，也可以选择离开。每次进入目标状态时，将获得 r = +1 的奖励。

这篇文章里面采用了 方案 2，这样做的好处是无需将目标状态与其他状态区别对待，可以像处理普通状态一样来处理目标状态。

1.8 马尔可夫决策过程（MDP）

MDP的主要元素：

集合：

状态
动作
奖励：

概率分布：

状态转移概率：在状态s，采取动作a，转移到状态s'的概率为
奖励概率：在状态s，采取动作a，获得r奖励的概率为

策略：在状态s，选择动作a的概率为

马尔可夫属性：无记忆性属性

在马尔可夫过程中，未来的发展只依赖于前一个状态，而与过去的历史无关。

则网格这个例子也可表示为更加通用的模型：马尔可夫过程

圆圈表示状态，带有箭头的链接表示状态转移。
一旦给出策略，马尔可夫决策过程就变成了马尔可夫过程！

1.9 总结

强化学习就是智能体根据当前的状态选择动作，之后在环境中会进入另一个状态并获得一定的奖励，通过多次迭代，最大化这个累计奖励。

强化学习是一种机器学习方法，与监督学习和无监督学习不同。它并不依赖于标注数据，而是在一个环境中通过试错来学习最佳策略。这类似于小孩子通过尝试不同的行为来学习正确的做法。在强化学习中，核心要素：

状态：智能体相对于环境的状态（如游戏画面、机器人传感器数据）
动作：对于每个状态，智能体可执行的操作
奖励：环境对动作的即时反馈（如得分增加、能量消耗）
策略：智能体决定动作的规则（如“在状态A时选择动作B”）
状态转移：当采取动作时，智能体的状态可能会发生转移，从一个状态转到另一个状态，这个过程就成为状态转移。

贝尔曼公式

2.1 回顾return

回顾之前的内容，说过Return可以反映策略的好坏：下面三个路径通过计算可知第一个轨迹是最好的，第二个最差，第三个可能好也可能差，有一定的概率

$return_{1}=0+\gamma 1+\gamma ^{2}1+...=\gamma \left ( 1+\gamma+\gamma ^{2}+... \right )=\frac{\gamma }{1-\gamma }$

$return_{2}=-1+\gamma 1+\gamma ^{2}1+...=-1+\gamma \left ( 1+\gamma+\gamma ^{2}+... \right )=-1+\frac{\gamma }{1-\gamma }$

$return_{3}=0.5return_{1}+0.5return_{2}=0.5\left ( -1+\frac{\gamma }{1-\gamma } \right )+0.5\left ( \frac{\gamma }{1-\gamma } \right )$

$return_{3}=-0.5+\left ( \frac{\gamma }{1-\gamma } \right )$

$return_{1}>return_{3}>return_{2}$

2.2 计算return

方法1：通过定义， $v_{i}$ 表示从 $s_{i}$ 出发得到的return

方法2：推导，状态之间的return存在依赖性，称为Bootstrapping。当前return依赖于其他的return

可以将上面的公式写成矩阵的形式：

也就是：特定确定性问题的贝尔曼公式

$v=r+\gamma Pv$

P矩阵就是策略（在这个例子里面，比较简单），通过这个公式可以求解v

以下的例子就可以直接写出来return的依赖性：

持续更新……

参考：B站up主第1课-基本概念（State,action,policy等）_哔哩哔哩_bilibili，听视频时做的笔记。

查看全文

http://www.dtcms.com/wzjs/277072.html

做学校网站会下线吗seo外推软件

电器网站建设河北网站建设推广

广东网站制作公司网站快速排名案例

微型购物网站建设模板百度推广案例及效果

安阳网站建设哪家专业google adwords关键词工具

申请域名需要哪些资料windows优化大师可以卸载吗

济南网站制作服务价格朋友圈广告

网站建设分为seo推广案例

美食网站开发计划营销网站制作公司

昌平电子网站建设怎么做百度关键词排名

网站建设的整体设计流程购物网站有哪些

做网站开发没有人带网页设计制作网站素材

做网上兼职的网站东莞网络公司代理

什么网站可以查建设用地规划许可证广州今日新闻头条新闻

成都大型网站维护公司环球网疫情最新

中国建设银行网站企业登陆营销推广的方法有哪些

织梦做手机网站2022年最新热点素材

免费创建自己app平台防城港网站seo

论坛小程序源码做seo排名

ai logo设计网站东莞哪种网站推广好

网站热力图怎么做软件推广的渠道是哪里找的

贵州住房与城乡建设部网站南京seo网络推广

重庆网站维护seo快速排名软件方案

宝鸡市住房和城乡建设局网站今日军事头条

用什么技术做网站广州做网站的公司哪家好

java做简易网站江门seo

有哪些网站可以做兼职百度推广有哪些形式

犀牛云做网站多少钱云优化seo

什么网站允许搭建aso优化软件

套用模板网站百度竞价排名费用