当前位置：首页 > news >正文

【强化学习】强化学习算法 - 马尔可夫决策过程

news 2025/11/1 16:02:18

马尔可夫决策过程 (Markov Decision Process, MDP)

1. MDP 原理介绍

马尔可夫决策过程 (MDP) 是强化学习 (Reinforcement Learning, RL) 中用于对序贯决策 (Sequential Decision Making) 问题进行数学建模的标准框架。它描述了一个智能体 (Agent) 与环境 (Environment) 交互的过程，其中智能体的目标是最大化其在一段时间内获得的总奖励。

MDP 假设环境具有马尔可夫性质 (Markov Property)，即未来的状态和奖励只依赖于当前的状态和智能体采取的动作，而与过去的状态或动作历史无关。

一个 MDP 通常由以下五个核心要素组成，表示为一个五元组 $\gamma)$ ：

状态集合 (State Space, $S$ ):
- 表示智能体可能处于的所有不同情况或配置的集合。状态可以是离散的（例如棋盘格的位置）或连续的（例如机器人的关节角度）。这里我们主要关注离散状态空间。
- $S_t$ 表示智能体在时间步 $t$ 所处的状态。
动作集合 (Action Space, $A$ ):
- 表示智能体在每个状态下可以采取的所有可能行为的集合。动作也可以是离散的（例如游戏中按键）或连续的（例如控制油门）。有时动作集合依赖于状态，记为 $A (s)$ 。
- $A_t$ 表示智能体在时间步 $t$ 选择的动作。
状态转移概率 (Transition Probability Function, $P$ ):
- $P(s' | s, a) = Pr(S_{t+1}=s' | S_t=s, A_t=a)$ 。
- 它定义了在状态 $s$ 下采取动作 $a$ 后，转移到下一个状态 $s^{'}$ 的概率。这体现了环境的动态性，可能包含随机性。
- 对于所有 $\in S, a \in A(s)$ ，必须满足 $\sum_{s' \in S} P(s' | s, a) = 1$ 。
奖励函数 (Reward Function, $R$ ):
- 定义了智能体在特定状态下采取特定动作后获得的即时奖励。有几种常见的定义方式：
  - $R (s, a, s^{'})$ ：在状态 $s$ 采取动作 $a$ 并转移到状态 $s^{'}$ 时获得的奖励。
  - $E[R_{t+1} | S_t=s, A_t=a] = \sum_{s'} P(s' | s, a) R(s, a, s')$ ：在状态 $s$ 采取动作 $a$ 后期望获得的即时奖励。这是更常用的形式。
  - $R (s)$ ：仅与进入状态 $s$ 相关联的奖励。
- 奖励函数 $R$ 定义了问题的目标。智能体的目的是最大化累积奖励。 $R_{t+1}$ 是在时间步 $t + 1$ 获得的奖励。
折扣因子 (Discount Factor, $\gamma$ ):
- $\gamma \in [0, 1]$ 。它是一个用于衡量未来奖励相对于当前奖励重要性的参数。
- $\gamma$ 接近 0 时，智能体更关注即时奖励（短视）。
- $\gamma$ 接近 1 时，智能体更关注长期累积奖励（远视）。
- $\gamma < 1$ 通常也确保了无限时间范围内的累积奖励（回报）是有限的。

马尔可夫性质 (Markov Property)
这是 MDP 的核心假设： $P(S_{t+1}, R_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ..., S_0, A_0) = P(S_{t+1}, R_{t+1} | S_t, A_t)$ 。这意味着，系统下一时刻的状态和获得的奖励，仅取决于当前的状态 $S_t$ 和当前采取的动作 $A_t$ ，与之前的历史状态和动作无关。

目标
智能体的目标是找到一个策略 (Policy) $\pi$ ，该策略定义了在每个状态 $s$ 下选择动作 $a$ 的方式（通常是概率分布 $\pi(a|s) = Pr(A_t=a | S_t=s)$ ），以最大化期望累积折扣奖励 (Expected Cumulative Discounted Reward)，也称为回报 (Return) 或 价值 (Value)。
从时间步 $t$ 开始的回报定义为：
$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$

价值函数 (Value Functions)
为了评估策略的好坏，引入了价值函数：

状态价值函数 (State-Value Function) $V^\pi(s)$ : 从状态 $s$ 开始，遵循策略 $\pi$ 所能获得的期望回报。
$V^\pi(s) = E_\pi[G_t | S_t=s] = E_\pi\left[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t=s\right]$
动作价值函数 (Action-Value Function) $Q^\pi(s, a)$ : 在状态 $s$ 采取动作 $a$ ，然后遵循策略 $\pi$ 所能获得的期望回报。
$Q^\pi(s, a) = E_\pi[G_t | S_t=s, A_t=a] = E_\pi\left[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t=s, A_t=a\right]$

贝尔曼方程 (Bellman Equations)
价值函数满足递归关系，称为贝尔曼方程，它们是大多数 RL 算法的基础。

贝尔曼期望方程 (Bellman Expectation Equation for $V^\pi$ ):
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$
(若使用 $R (s, a)$ ，则为: $V^\pi(s) = \sum_{a} \pi(a|s) (R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s'))$ )
贝尔曼期望方程 (Bellman Expectation Equation for $Q^\pi$ ):
$Q^\pi(s, a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a')]$
(若使用 $R (s, a)$ ，则为: $Q^\pi(s, a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) V^\pi(s') = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \sum_{a'} \pi(a'|s') Q^\pi(s', a'))$ )

强化学习的目标是找到最优策略 $\pi_*$ ，使得所有状态的价值 $V^{\pi_*}(s)$ 或所有状态动作对的价值 $Q^{\pi_*}(s, a)$ 最大化。对应的价值函数称为最优价值函数 $V_*(s)$ 和 $Q_*(s, a)$ ，它们满足贝尔曼最优方程 (Bellman Optimality Equations)。

2. MDP 建模/实现步骤

将一个实际问题建模为 MDP，通常涉及以下步骤。这并不是一个具体的编程实现，而是定义问题的数学框架：

定义状态空间 $S$ : 确定能够充分描述问题状态的所有变量和它们的可能取值。状态需要满足马尔可夫性质。选择合适的状态表示至关重要。
定义动作空间 $A$ : 确定智能体在每个状态下可以采取的所有动作。
定义状态转移概率 $P (s^{'} ∣ s, a)$ : 描述环境的动态。对于每个状态 $s$ 和动作 $a$ ，确定转移到下一个状态 $s^{'}$ 的概率。这通常是建模中最困难的部分，可能基于物理定律、规则或数据估计。
定义奖励函数 $R (s, a)$ 或 $R (s, a, s^{'})$ : 设计奖励信号以引导智能体实现目标。奖励应该反映任务的即时成功或失败。例如，目标达成给予正奖励，危险状态给予负奖励，普通移动给予小的负奖励（鼓励效率）。
选择折扣因子 $\gamma$ : 根据任务是有限期还是无限期，以及对未来奖励的重视程度来选择 $\gamma$ 。

完成建模后:

如果 MDP 的模型（ $P$ 和 $R$ ）已知，可以使用动态规划 (Dynamic Programming) 方法（如价值迭代 Value Iteration 或策略迭代 Policy Iteration）来精确计算最优价值函数和最优策略。
如果 MDP 的模型未知（这是更常见的情况），则需要使用强化学习算法（如 Q-Learning, SARSA, DQN, Actor-Critic 等），通过智能体与环境的交互（采样）来学习最优策略。

3. MDP 示例：简单网格世界 (Grid World)

假设有一个 3x3 的网格世界。

+---+---+---+
|   |   | G |  (0,0) (0,1) (0,2)
+---+---+---+
|   | W |   |  (1,0) (1,1) (1,2)
+---+---+---+
| S |   |   |  (2,0) (2,1) (2,2)
+---+---+---+

S (Start): 智能体的起始位置 (2,0)。
G (Goal): 目标位置 (0,2)，到达后获得奖励。
W (Wall): 墙壁 (1,1)，无法进入。
空格: 可以移动的普通格子。

MDP 组件定义:

状态空间 $S$ : 每个格子的坐标 $(r, c)$ ，其中 $\in \{0, 1, 2\}, c \in \{0, 1, 2\}$ 。共 9 个状态。状态 (1,1) 是障碍物。状态 (0,2) 是目标状态（可以设为终止状态）。
动作空间 $A$ : 在每个非终止状态，智能体可以尝试向四个方向移动：{上 (Up), 下 (Down), 左 (Left), 右 (Right)}。
状态转移概率 $P (s^{'} ∣ s, a)$ :
- 确定性环境: 假设移动是确定的。
  - 如果从状态 $s = (r, c)$ 尝试动作 $a$ ，目标格子 $s^{'} = (r^{'}, c^{'})$ 在网格内且不是墙壁 (1,1)，则 $P (s^{'} ∣ s, a) = 1$ ，其他 $P (s^{''} ∣ s, a) = 0$ 。
  - 如果目标格子 $s^{'}$ 超出边界或撞墙 (1,1)，则智能体停留在原地，即 $P (s ∣ s, a) = 1$ 。
  - 如果当前状态 $s$ 是目标状态 G (0,2)，可以设定 G 为终止状态，任何动作都停留在 G (或转移到一个特殊的终止状态)。
- 随机性环境 (可选): 假设有 80% 的概率按预期方向移动，各有 10% 的概率向预定方向的左侧或右侧移动（撞墙或边界则停留在原地）。例如，在 (1,0) 选择 ‘Up’：
  - 80% 概率到达 (0,0)。
  - 10% 概率向左滑，撞边界，停留在 (1,0)。
  - 10% 概率向右滑，撞墙 (1,1)，停留在 (1,0)。
  - 因此 $\text{'Up'}) = 0.8$ , $\text{'Up'}) = 0.2$ 。
奖励函数 $R (s, a)$ 或 $R (s, a, s^{'})$ :
- 到达目标状态 G (0,2)： $R = + 10$ 。
- 每次移动（到达非目标状态）： $R = - 0.1$ （鼓励尽快到达目标）。
- 撞墙或边界（停留在原地）： $R = - 1$ （轻微惩罚）。
- (另一种设计：只有到达目标状态 G 时获得 $R = + 1$ ，其他所有转移奖励为 0)。
折扣因子 $\gamma$ : 例如， $\gamma = 0.9$ 。

目标: 找到一个策略 $\pi(a|s)$ ，使得从状态 S (2,0) 出发，到达 G (0,2) 的期望累积折扣奖励最大化。这通常意味着找到一条避开墙壁、最快到达目标的路径。

通过动态规划（如果 $P, R$ 已知）或强化学习算法（如果未知或需要通过交互学习），可以计算出每个状态的最佳动作，形成最优策略。例如，在 (2,0) 最优动作可能是 ‘Up’，在 (1,0) 最优动作可能是 ‘Up’ 或 ‘Right’ (取决于随机性和奖励设计)，最终引导智能体走向 (0,2)。

查看全文

http://www.dtcms.com/a/180236.html