当前位置：首页 > news >正文

强化学习-基本概念

news 2025/10/21 14:44:22

本章的位置

一、基本的概念

1.1网格世界例子

图中有一个白色的智能体(Agent)在网格中移动，禁止区域不能进入，智能体的任务是从出发区域到达目标区域。

在这里插入图片描述

如果智能体知道网格世界的地图，那么可以规划一条到达目标单元格的路径。

但是如果事先不知道有关环境的任何信息，就需要智能体与环境进行交互，通过获取经验来找到一个好的策略。

1.2状态和动作

状态(state)：描述了智能体与环境的相对状况。

状态对应了智能体所在单元格的位置。如下图对应着9个状态。所有的状态集合被称为状态空间(state space)，表示为S = {s1,…,s9}。

在这里插入图片描述

动作(action)

如下图所示，智能体在每一个状态有五个可选的动作：向上、右、下、左移动和保持不动(对应a1,…,a5)。所有的动作集合被称为动作空间(action space)，表示为A={a1,…,a5}。

在这里插入图片描述

注意，不同的动作可以有不同的动作空间，比如可以设置状态s1的动作空间为A= {a2，a3，a5}，即直接把明显的不合理的动作从动作空间中删除。

1.3状态转移

当执行一个动作时，智能体可能从一个状态转移到另一个状态，这样的过程称为状态转移(state transition)。

比如，智能体处在s1，执行a2，那么智能体下个时刻移动到s2，这个过程可以表示为

在这里插入图片描述

两个重要问题

**问题一：**当智能体的下一步操作越过了网格世界的边界，他的下一时刻应该转移到什么状态？

因为网格世界是一个仿真世界，我们可以根据自己的喜好任意设置其状态转移过程(例如被弹回到原来的位置)。

如果是在现实世界，状态转移需要服从物理规律。

**问题二：**当智能体的下一步操作进入禁止区域，他的下一时刻应该转移到什么状态？

==》两种情况

1、虽然是禁止区域，但它仍然是“可进入”的，只不过进入的时候会受到惩罚。

2、禁止区域”不可进入“，智能体被弹回。

==》因为这是一个仿真环境，可以随意选择。本博客中选择第一种。之后会看到智能体可能会“冒险”穿过禁止区域，从而可以更快地到达目标区域。

每一个状态的每一个动作都会对应一个状态专业过程。这些过程可以使用一个表格来完成

在这里插入图片描述

在数学上，状态转移过程可以通过条件概率来描述。状态s1和动作a2的状态专业可以用如下条件概率描述：

在这里插入图片描述

==》当状态s1采取动作a2时，智能体转移到状态s2的概率为1，转移到其他任意状态的概率为0.

**扩展：**状态转移也可以是随机的，此时需要用条件概率分布来描述。

比如网格世界中有随机的阵风吹过，s1采取a2可能到达s5而不是s2。p(s5 | s1,a2) > 0，即下一个状态具有不确定性。

本博客只考虑确定性的状态转移过程。

1.4策略

**策略(policy)**会告诉智能体在每一个状态应该采取什么样的动作。

在直观上，策略可以通过箭头来描述。{如下（a）、（b）为一个确定性策略和对应的轨迹}

在这里插入图片描述

如果智能体执行某一个策略，那么他会从初始状态生成一条轨迹。

在这里插入图片描述

在数学上，策略可以通过条件概率来描述。通常使用π(a|s)来表示在状态s采取动作a的概率。这个概率对每一个状态和每一个动作都有定义。

在上图中的(a)(b)可以看到状态s1对应的策略是：

在这里插入图片描述

该条件概率表名在状态s1采取动作a2的概率为1，而采取其他任意动作的概率为0。

上述例子中的策略是确定性的。策略也可能是随机性的。如下图的随机策略：在状态s1，智能体分别有0.5的概率采取向右和向左的动作。状态s1的策略是

在这里插入图片描述

除了使用条件概率，策略也可以用表格来描述。====》表格表示法

在这里插入图片描述

1.5奖励

**奖励(reward)**是强化学习中最独特的概念之一。

在一个状态执行一个动作后，智能体会获得奖励r。r是一个实数，它是状态s和动作r的函数，可以写成r(s,a)。其值可以是正数、负数或零。

正的奖励表示估计智能体采取相应的动作，负的奖励(也称为惩罚)反之。

在最初的网络世界例子中可以设置越过四周边界或者进入禁止区域，设r=-1；到达目标区域，设r=+1；在其他情况下，r=0。

**注意：**当到达目标状态之后，也许会持续执行策略，进而持续获得奖励。

奖励实际上是人机交互的一个重要的手段：可以设置合适的奖励来引导智能体按照我们的预期来运动。

设计合适的奖励来实现我们的意图是强化学习的一个重要环节。

奖励的过程可以直观地表示为一个表格，如下图所示。

已知奖励表格，是否可以通过简单的选择对应最大奖励的动作来找到好的策略呢？

===》答案是否定的，这些奖励只是即时奖励，即在采取一个动作后可以立刻获得的奖励。具有最大即时奖励的动作不一定能带来最大的总奖励。

如果要寻找一个好的策略，那么必须考虑更长远的总奖励。

在这里插入图片描述

虽然直观，但是表格只能描述确定性的奖励过程。

为了描述更加一般化的奖励过程==》条件概率：p(r|s,a)表示在状态s采取动作a得到奖励r的概率。

对表格中的状态1：p(r = -1 | s1,a1)=1,p(r ≠ -1 | s1,a1)=0；这个奖励是确定性的==》表格和条件概率均可。

p(r = -1 | s1,a1) = 0.5，p(r = -2 | s1,a1) = 0.5 ==》各有0.5的概率获得-1或者-2的奖励 ==>奖励是随机的 =》只能条件概率。

该博客只考虑确定行的奖励过程

1.6轨迹、回报、回合

一条**轨迹(trajectory)**指的是一个“状态-动作-奖励”的链条。

在这里插入图片描述

如图(a)，智能体从s1出发会得到如下轨迹：

在这里插入图片描述

沿着一条轨迹，智能体会得到一系列的即时奖励，这些即时奖励之和被称为回报(return)。

上述轨迹对应的回报为 return = 0 + 0 + 0 + 1 = 1

回报由即时奖励和未来奖励组成。

即时奖励：在初试状态执行动作后立刻获得的奖励；

未来奖励：离开初始状态后获得的奖励之和。

在上述轨迹对应的即时奖励为0，未来奖励为1.

回报也称为总奖励或累计奖励。

回报可以用于评价一个策略的“好坏”。对于上图(a)(b)两个策略可以分别计算两条轨迹对应的回报，进而判断哪个策略更好。

(a) == > 回报为1；

(b) == >回报为0-1+0+1=0；

==》左边的策略相比右边的策略更能得到更大的回报 ==> 更好

轨迹是可以无限长的。到达目标之后保持不动，智能体会不断获得+1的奖励=》return = 0 + 0 + 0 +1 + 1 + 1 + …… = ∞ ==》引入折扣回报。

令γ∈(0,1)为折扣因子，折扣回报是所有折扣奖励的总和，即为不同时刻得到的奖励添加相应的折扣再求和：

在这里插入图片描述

由于γ∈(0,1)，上式中的折扣回报的值不再是无穷，而是一个有限值：

在这里插入图片描述

引入折扣因子的作用：

1、它允许考虑无限长的轨迹，而不用担心回报会发散到无穷；

2、折扣因子可以用来调整对近期或者远期奖励的重视程度。

当执行一个策略进而与环境交互时，智能体从初始状态开始到终止状态停止的过程被称为一个回合(episode)或尝试(trial)。

如果一个任务做多有有限步，那么这样的任务称为回合制任务。

如果一个任务没有终止状态，则意味着智能体与环境的交互永不停止，这样的任务称为持续性任务。

在回合制任务中达到终止状态后，有如下两种方式将其转换为持续性任务。

第一，将终止状态视为一个特殊状态，从而使智能体永远停留在此状态，这样的状态称为吸收状态。即一旦达到这样的状态就会一直应留在该状态。

第二，将终止状态视为一个普通状态，将其与其他状态一视同仁，此时智能体可能会离开该状态并再次回来。由于每次到达s9都可以获得r=1的正奖励，可以预期的是智能体最终会学会永远停留在s9以获得更多的奖励。(需要使用折扣因子，以避免回报趋于无穷)。

博客更趋向于选择第二种情况。即让智能体学习到在到达这个状态之后能够保持原地不动。

1.7马尔可夫决策过程

马尔可夫决策过程是描述随机动态系统的一般框架。(强化学习需要依赖这个框架)

马尔可夫决策过程涉及以下关键要素：
在这里插入图片描述

在这里插入图片描述

马尔可夫过程与马尔可夫决策过程有什么区别和联系？

一旦在马尔可夫决策过程中的策略确定下来了，马尔可夫决策过程就退化成一个马尔可夫过程。

本博客主要考虑有限的马尔可夫决策过程，即状态和动作的数量都是有限的。

在这里插入图片描述

强化学习的过程涉及智能体与环境的交互，智能体之外的一切都被视为环境(environment)。

第一，智能体是一个感知者，例如具有眼睛能够感知并理解当前的状态；

第二，智能体是一个决策者，例如具有大脑能够做出决策，知道在什么状态应该采取什么行动；

第三，智能体是一个执行者，例如具有操作机构来执行策略所指示的动作，从而改变状态并得到奖励。

查看全文

http://www.dtcms.com/a/508888.html

盘锦企业网站建设网站建设投资资金

摄影行业网站做网站分类搜索

广东网站备案要求宁波网站建设七米

秦皇岛做网站seo的移动营销做手机网站

对数器(如何检验算法是否正确)

suricata之PoolThread

教育课程网站建设Iis wordpress无法发表文章

怎样制作免费的网站邯郸手机网站建设费用

自己做的腾讯充值网站科技小发明小制作

Android studio 修改包名

legacyForge插件（2）

百度做个网站多少钱餐饮vi设计一套多少钱

新网站百度收录要几天注册公司地址可以用家庭地址

YOLOv4 深度解析：单 GPU 可训的目标检测性能王者

建设网站征集图片的通知织梦做网站也是模板吗

免费做调查问卷的网站个人外贸网站制作

Kafka面试精讲 Day 25：Kafka与大数据生态集成

中小学网站建设规范培训网站官网

开鲁网站seo转接如何建设一个收费的影视图文网站

自己做的网站打不开了h5网站架设

天翼云OS2.0.1快速查看CPU架构

5.类和对象（下）

树莓派控制板载LED闪烁

上海专业网站建设平台深圳罗湖高端网站建设

怎么让程序更高效地连起来？

网站商城 app 建设银川网站建设nx110

泉州建设网站公司网站建设新闻常识

从零搭建本地化 RAG 聊天助手：从环境配置到核心逻辑全解析

福建建设局网站旅游网站建设代码

云南城市建设职业学院成绩查询网站将网站做成logo怎么做

一、基本的概念

1.1网格世界例子

1.2状态和动作

1.3状态转移

1.4策略

1.5奖励

1.6轨迹、回报、回合

1.7马尔可夫决策过程

相关文章：