当前位置：首页 > wzjs >正文

牡丹江市建设工程交易中心网站网站开发技术栈

wzjs 2025/9/18 12:32:14

牡丹江市建设工程交易中心网站,网站开发技术栈,福安做网站最好,wordpress 命令行高亮强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它专注于让智能体（Agent）通过与环境（Environment）的交互来学习如何做出最优决策。可能会觉得有些抽象，想象一下训练…

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它专注于让智能体（Agent）通过与环境（Environment）的交互来学习如何做出最优决策。

可能会觉得有些抽象，想象一下训练小狗做动作：如果它做对了，你就给零食（奖励）；做错了就不给甚至轻微惩罚。

强化学习的最终目标：求解最优策略。沿着这个最优策略可以最大化长期累积奖励，而不是单次奖励。

基础概念

整篇会以网格寻找到目标网格的最优路径为例：

任务：从开始网格，找到到达目标网格的最优的路径。

1.1 状态（State）

智能体相对于环境的状态（如游戏画面、机器人传感器数据）

对于这个例子来说，这个状态可以是位置，总共有9个状态：

状态空间可以表示为：

对于更复杂的状态可以包括速度、加速度等，具体的状态所包括的变量取决于当前的任务。对于例子的这个任务来说，只需要关注于位置即可，所以状态时位置。比如机器人的状态可以有位置、速度、加速度等等。

1.2 动作（Action）

对于每个状态，智能体可执行的操作

对于这个例子来说，对于每个状态，可能执行的动作有五个：向上、向右、向下、向左以及保持不动，分别表示为、、、以及。

每个状态的动作空间可以表示为：

不同的状态可以有不同的动作空间。

1.3 状态转移（State transition）

当采取动作时，智能体的状态可能会发生转移，从一个状态转到另一个状态，这个过程就成为状态转移。

例如，对于状态，选择动作时，则转移到状态：

对于状态，选择动作时，则转移到状态：因为往上之后没有表格了

状态转移可以看作智能体和环境的一种交互行为。

状态转移的表格表示：

对于表格的表示来说，它只能表达确定的状态。

也可以使用概率来表示状态转移，其实就是使用条件概率来表示：在状态，如果选择动作，则状态转移到：

概率表示也是确定性的情况，但是状态转移可以是随机的，可以根据概率，随机选择一条状态来进行转移。

1.4 策略（Policy）

智能体决定动作的规则（如“在状态A时选择动作B”）。告诉智能体要选择哪一个状态

直观的表示：箭头表示策略

基于这个策略，从不同的点出发，则可以得到不同的路径：

数学表征为：同样使用条件概率

这是一个确定的策略，也可以有不确定的策略：

表格表征：

1.5 奖励（Reward）

环境对动作的即时反馈（如得分增加、能量消耗），也就是采取某个动作之后的得分，是一个实数、标量，可以看作人机交互的手段，引导智能体按照我们期望的方式行动。

分为：

积极奖励：鼓励这种行为（0奖励也算一种特殊的鼓励）
消极奖励：乘法这种行为

在例子当中，可以设置一下奖励规则：

智能体尝试越出边界：
智能体进入forbidden cell：
智能体进入目标cell：
其他：

表格表征：

表示的是确定性的情况。

数学表征：条件概率，在状态时，如果我们选择动作，奖励是-1。

在和的条件下，的概率为1，其他条件下的概率为0

注意：

奖励规则是确定的，但是奖励转移时随机的。只有学习了就有奖励，但是获得奖励是不确定的。
奖励依赖于当前的状态和动作，而不是下一个状态。

1.6 trajectory（轨迹）和return（回报）

轨迹是一个 “状态-动作-奖励”链：

回报的即是当前路径的奖励：

判断哪个策略比较好：可以哪个策略的回报是greater。回报可以判断策略的好坏。

上面的第一个策略的轨迹可以表示为：

回报为：

这个回报是没有意义的，因为这个回报时发散的。这个时候就需要discount rate，discounted return：

通过的控制，回报就变成有限的，并且可以平衡短视和长视奖励，也就是是说：

如果接近于0，discounted return的价值主要是近期获得的回报。
如果接近于1，discounted return的价值主要是长期获得的回报。

1.7 Episode

当智能体遵循某个策略与环境交互时，可能会在某些终止状态处停止。由此产生的状态-动作序列被称为一个Episode。

一个episode通常被定义为一段有限的交互轨迹。包含这类有限episode的任务称为episodic tasks。

有的任务没有终端状态，意味这与环境的交互没有结束点，这类任务称为持续任务（continuing tasks）。

实际上，我们可以通过将分集任务（episodic tasks）转化为持续任务（continuing tasks），在统一的数学框架下对待这两类任务。

方案1：将目标状态视为一种特殊的吸收态。一旦智能体进入了吸收态，它便永远不会离开。从此时起，后续的奖励均为 r = 0。
方案2：将目标状态视为一个正常的、具有策略的状态。即使智能体到达了目标状态，也可以选择离开。每次进入目标状态时，将获得 r = +1 的奖励。

这篇文章里面采用了 方案 2，这样做的好处是无需将目标状态与其他状态区别对待，可以像处理普通状态一样来处理目标状态。

1.8 马尔可夫决策过程（MDP）

MDP的主要元素：

集合：

状态
动作
奖励：

概率分布：

状态转移概率：在状态s，采取动作a，转移到状态s'的概率为
奖励概率：在状态s，采取动作a，获得r奖励的概率为

策略：在状态s，选择动作a的概率为

马尔可夫属性：无记忆性属性

在马尔可夫过程中，未来的发展只依赖于前一个状态，而与过去的历史无关。

则网格这个例子也可表示为更加通用的模型：马尔可夫过程

圆圈表示状态，带有箭头的链接表示状态转移。
一旦给出策略，马尔可夫决策过程就变成了马尔可夫过程！

1.9 总结

强化学习就是智能体根据当前的状态选择动作，之后在环境中会进入另一个状态并获得一定的奖励，通过多次迭代，最大化这个累计奖励。

强化学习是一种机器学习方法，与监督学习和无监督学习不同。它并不依赖于标注数据，而是在一个环境中通过试错来学习最佳策略。这类似于小孩子通过尝试不同的行为来学习正确的做法。在强化学习中，核心要素：

状态：智能体相对于环境的状态（如游戏画面、机器人传感器数据）
动作：对于每个状态，智能体可执行的操作
奖励：环境对动作的即时反馈（如得分增加、能量消耗）
策略：智能体决定动作的规则（如“在状态A时选择动作B”）
状态转移：当采取动作时，智能体的状态可能会发生转移，从一个状态转到另一个状态，这个过程就成为状态转移。

贝尔曼公式

2.1 回顾return

回顾之前的内容，说过Return可以反映策略的好坏：下面三个路径通过计算可知第一个轨迹是最好的，第二个最差，第三个可能好也可能差，有一定的概率

$return_{1}=0+\gamma 1+\gamma ^{2}1+...=\gamma \left ( 1+\gamma+\gamma ^{2}+... \right )=\frac{\gamma }{1-\gamma }$

$return_{2}=-1+\gamma 1+\gamma ^{2}1+...=-1+\gamma \left ( 1+\gamma+\gamma ^{2}+... \right )=-1+\frac{\gamma }{1-\gamma }$

$return_{3}=0.5return_{1}+0.5return_{2}=0.5\left ( -1+\frac{\gamma }{1-\gamma } \right )+0.5\left ( \frac{\gamma }{1-\gamma } \right )$

$return_{3}=-0.5+\left ( \frac{\gamma }{1-\gamma } \right )$

$return_{1}>return_{3}>return_{2}$

2.2 计算return

方法1：通过定义， $v_{i}$ 表示从 $s_{i}$ 出发得到的return

方法2：推导，状态之间的return存在依赖性，称为Bootstrapping。当前return依赖于其他的return

可以将上面的公式写成矩阵的形式：

也就是：特定确定性问题的贝尔曼公式

$v=r+\gamma Pv$

P矩阵就是策略（在这个例子里面，比较简单），通过这个公式可以求解v

以下的例子就可以直接写出来return的依赖性：

持续更新……

参考：B站up主第1课-基本概念（State,action,policy等）_哔哩哔哩_bilibili，听视频时做的笔记。

文章转载自：

http://kelJZowh.hrhwn.cn
http://qzbCDE1I.hrhwn.cn
http://mx2DOYZc.hrhwn.cn
http://oZjzl7ig.hrhwn.cn
http://icFxHyFR.hrhwn.cn
http://kRXYHcOo.hrhwn.cn
http://4CKRUfX0.hrhwn.cn
http://DK5kXUWF.hrhwn.cn
http://Y1fe8H7F.hrhwn.cn
http://W4rw7Azk.hrhwn.cn
http://61OAneg6.hrhwn.cn
http://ocYemikY.hrhwn.cn
http://GD3LXvc2.hrhwn.cn
http://CcPdO6YY.hrhwn.cn
http://rauMo1N3.hrhwn.cn
http://ko1lypBJ.hrhwn.cn
http://2aa2PHeL.hrhwn.cn
http://v5HBuQVB.hrhwn.cn
http://UV7iCMxd.hrhwn.cn
http://FEw1mJAm.hrhwn.cn
http://PNXej0wi.hrhwn.cn
http://QbD23OnL.hrhwn.cn
http://dyM85zgO.hrhwn.cn
http://iZYHRUoA.hrhwn.cn
http://tDlEq1Ja.hrhwn.cn
http://lRFStxgI.hrhwn.cn
http://WsPNVpfr.hrhwn.cn
http://RvmFCiR5.hrhwn.cn
http://7YSxYqC6.hrhwn.cn
http://rcb3pvIy.hrhwn.cn

查看全文

http://www.dtcms.com/wzjs/779495.html

如何做响应式网站设计青岛建站服务

网站被黑了怎么办网站备案掉了

贵州城市和城乡建设官方网站网站开发建设交印花税吗

海珠网站建设报价网站建设试题

挪车网站开发织梦手机网站源码

个人手机网站开发营销技巧五步推销法

增城住房和城乡建设局网站龙岩网络图书

衣服图案设计网站做网站需要什么学专业

建立大型网站吗开个做网站公司

如何看一个网站用什么程序做的百度爱采购优化软件

iis怎么给网站设置权限3d建模培训学校

工作室网站免费建设西安建设银行工作招聘网站

淄博哪个网站做房屋出赁好网站ip屏蔽

个人音乐分享网站源码怎么申请网页

免费视频网站建设中国建筑工程网施工组织方案

深圳南山区网站建设asp网站伪静态教程

网站网站程序架设北京朝阳区房价2023年最新房价

赌场网站建站十大资本投资公司

惠州做网站的刚开今天新开传奇网站

网站推广软件哪个最实惠wordpress评论表情插件

企业软件网站建设重庆专业网站建设公司排名

花都营销型网站自己怎么做电商

中国国际贸易单一窗口网站网站备案怎么取消

建设银行网站改手机号网站域名后缀代表什么意思

中文无版权图片网站过年做哪些网站能致富

企业网站建设组织人员可行性分析哔哩网站开发需求分析模板

如何做流量充值网站网站改版专题页

湖南网站制作公司推荐如何做网站平台

西安响应式网站建设服务提供商虚拟主机安装网站

一帘幽梦紫菱做的网站市场调研报告内容