当前位置：首页 > news >正文

强化学习核心概念与算法详解-马尔可夫决策过程(MDP)+贝尔曼方程(Bellman Equation)

news 2025/8/26 6:40:52

本文系统梳理强化学习（Reinforcement Learning, RL）的核心理论，从基本概念到贝尔曼方程，再到动态规划、蒙特卡洛和时间差分三大求解方法，构建清晰的知识脉络。特别地，我们将深入探讨马尔可夫性质与贝尔曼方程的内在联系，揭示它们如何共同构成强化学习问题建模与求解的理论基石。

1. 基本概念

1.1 马尔可夫决策过程（MDP）：强化学习的标准建模框架

在强化学习中，几乎所有问题都被形式化为马尔可夫决策过程（Markov Decision Process, MDP）。MDP 提供了一个统一的数学框架，将智能体与环境的交互抽象为状态、动作、奖励和状态转移的组合。

一个 MDP 由五元组 $\gamma)$ 定义：

$S$ ：状态空间，所有可能环境状态的集合；
$A$ ：动作空间，智能体可执行动作的集合；
$\mid s, a)$ ：状态-奖励转移概率函数，表示在状态 $s$ 执行动作 $a$ 后转移到状态 $s^{'}$ 并获得奖励 $r$ 的联合概率；
$R (s, a)$ 或 $R (s, a, s^{'})$ ：奖励函数，通常定义为期望奖励：
$\mathbb{E}[r_{t+1} \mid s_t = s, a_t = a]$
$γ∈[0,1]\gamma \in [0,1]$ ：折扣因子，用于权衡即时奖励与未来奖励的重要性。

关键假设：马尔可夫性质
MDP 的核心前提是马尔可夫性质，即：
$P(s_{t+1} \mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1} \mid s_t, a_t)$
换句话说，未来的状态仅依赖于当前状态和动作，而与历史轨迹无关。这一假设极大简化了建模复杂度，使得我们无需记忆完整历史即可预测未来。虽然现实中许多任务（如部分可观测环境）不完全满足该性质，但通过设计包含历史信息的状态表示（如使用RNN或堆叠帧），可以近似满足马尔可夫性，从而使问题可解。

1.2 奖励函数（Reward Function）

奖励是环境对智能体行为的即时反馈，为标量信号。

在 MDP 中，奖励依赖于当前状态和动作：
$\mathbb{E}[r_{t+1} \mid s_t = s, a_t = a]$
其中 $r_{t+1}$ 是执行动作 $a$ 后获得的即时奖励。

1.3 回报（Return）

回报是从当前时刻开始，未来所有奖励的折扣加权和，用于衡量长期性能。

$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

符号说明：
- $G_t$ ：时刻 $t$ 的回报；
- $r_{t+k+1}$ ：第 $t + k + 1$ 步的即时奖励；
- $γ∈[0,1]\gamma \in [0,1]$ ：折扣因子，控制未来奖励的重要性。
  - $γ=0\gamma = 0$ ：只关注当前奖励；
  - $γ→1\gamma \to 1$ ：重视长期回报；
  - 使用 $γ<1\gamma < 1$ 可避免无限回报发散，并体现未来不确定性。