当前位置：首页 > wzjs >正文

广州那家做网站最好永州网络推广

wzjs 2025/8/5 6:12:21

广州那家做网站最好,永州网络推广,网站建设促销文案,wordpress主题官方网站2.1 马尔科夫决策过程理论讲解强化学习的基本原理是：智能体和环境进行交互。从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。在监督学习和非监督学习中，数据是静态的、不需要与环境进行交互，比如…

2.1 马尔科夫决策过程理论讲解

强化学习的基本原理是：智能体和环境进行交互。

从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。在监督学习和非监督学习中，数据是静态的、不需要与环境进行交互，比如图像识别，只需要给出足够的差异样本，将数据输入深度网络中进行训练即可。然后，强化学习的学习过程是动态的、不断交互的过程，所需要的数据也是不断与环境进行交互的。所以，强化学习涉及的对象更多，比如动作、环境、状态状态概率和回报函数等。

强化学习更像是人的学习过程，人类通过与环境交互，学会走路、奔跑、劳动；人类与大自然，与宇宙的交互创造了现代文明。另外，深度学习如图像识别和语音识别解决的是感知问题，强化学习解决的是决策问题。

马尔科夫决策过程（MDP）是一套可以解决大部分强化学习问题的框架。

下面介绍 马尔科夫性-->马尔科夫过程-->马尔科夫决策。

1.马尔科夫性

指系统的下一个状态 $s_{t+1}$ 仅与当前状态 $s_{t}$ 有关，而与以前的状态无关。

定义：状态 $s_{t}$ 是马尔科夫的，当且仅当 $P[s_{t+1}|s_{t}]=P[s_{t+1}|s_{1},...,s_{t}]$ .

定义中可以看到，当前状态 $s_{t}$ 其实是蕴含了所有相关的历史信息 $s_{1},...,s_{t}$ ,一旦当前状态已知，历史信息将会被丢弃。

马尔科夫性描述的是每个状态的性质，但真正有用的是描述一个状态序列。数学中用来描述随机变量序列的学科叫随机过程。若随机变量序列中的每个状态都是马尔科夫的，则称此随机过程为马尔科夫随机过程。

2.马尔科夫过程

马尔科夫过程是一个二元组（S,P）,且满足:S是有限状态集合，P是状态转移概率。状态转移概率矩阵为P

$P=\begin{bmatrix} P_{11}& ...& P_{1n}\\ ...& ...& ...\\ P_{n1}& ...& P_{nn}\\ \end{bmatrix}$

下面举一个列子进行阐述。

一个学生的7中状态{娱乐，课程1，课程2，课程3，考过，睡觉，论文}。一天可能的状态序列为：

课1-课2-课3-考过-睡觉

课1-课2-睡觉

以上状态序列成为马尔科夫链。当给定状态转移概率时，从某个状态出发存在多个马尔科夫链。对于游戏或机器人，马尔科夫过程不足以描述其特点，因为不管是游戏还是机器人，他们都是通过动作与环境进行交互，并从环境中获得奖励，而马尔科夫过程中不存在动作和奖励。将动作（策略）和回报考虑在内的马尔科夫过程称为马尔科夫决策过程。