当前位置：首页 > news >正文

【强化学习】Deep Reinforcement Learning: A Survey综述学习

news 2025/9/23 19:04:54

文章目录

- - Deep Reinforcement Learning: A Survey
  - RL 基础
  - - 1.MDP
    - 2.Bellman Equations
    - 3.On-Policy and Off-Policy Methods
    - 4.蒙特卡罗(MC)、时序差分(TD)
    - - MC
      - TD
    - 5.Policy Gradient
  - DL
  - DRL
  - - Value-based RL
    - - 1.DQN
      - 2.Prioritized Experience Replay
      - 3.Dueling Network
      - 4.Noisy Network
      - 5.关键区别与对比
    - Policy-based RL
    - - 1.Advantage Actor-Critic (A2C/A3C)
      - 2.Deterministic Policy Gradient (DPG/DDPG)
      - 3.算法对比与区别
    - Maximum entropy-based DRL
    - - 最大熵强化学习（Maximum Entropy RL）的核心思想
  - 参考

Deep Reinforcement Learning: A Survey

论文名称：Deep Reinforcement Learning: A Survey
RL过程通常可以建模成MDP过程，
传统的 RL 算法只能解决具有低维状态和动作空间的任务。
更复杂、更接近真实世界情况的任务通常具有更高维的状态空间和连续动作空间，限制了 RL 的应用，从而引入DL（具有强大表征能力。

RL 基础

1.MDP

解决顺序决策问题
MDP 基于以下假设。1. 环境是马尔可夫的，这意味着下一个时间步的状态仅由当前状态决定，独立于前一个状态。2. 环境是完全可观察的。
MDP 表示为五元组 $(S, A, ρ, f, γ)$ ，策略： $π ： S \to A$ ，通过交互获得的状态和动作轨迹表示为 $τ:（s_0，a_0，s_1，a_1,...,a_{t−1}，s_t）$ 。
$ρ ： S \times A \to R$ 是直接标量奖励。
$f ： S \times A \times A \to [0, 1]$ 称为状态转换函数。 $f(s,a,s^{'}) = P(s^{'}|s,a)$ 是执行作 $a$ 后状态 $s$ 转换为 $s^{'}$ 的概率。
$γ \in [0, 1]$ 是一个折扣因子，其目的是减少未来奖励对现在的影响。
MDP 下的 RL 任务的目标是找到可以最大化累积奖励的轨迹，这表示为从时间 t 开始的所有衰减奖励的总和, $G_t= \gamma*G_{t+1}+R_{t+1}$ $G_t=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}$ 其中 $R_i$ 是时间步 i 的即时奖励， $G_t$ 称为回报。

2.Bellman Equations

关于贝尔曼方程

贝尔曼方程，是以Richard Bellman命名的，表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题，可以用动态规划方法求解。某一阶段最优决策的问题，通过贝尔曼方程转化为下一阶段最优决策的子问题，从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程，是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问题，都可以通过构造合适的贝尔曼方程来求解。
[来源于: Bertsekas, D. P. (1976). Dynamic Programming and Stochastic Control. Academic Press, Inc.]
符号
- $V_π ( s )$ ：策略为 $\pi$ 的状态-值函数，即状态s下预计累计回报的期望值，满足： $V_\pi(s)=\mathbb{E}[G_t\vert S_t=s]$
- $Q_\pi(s,a)$ ：策略为 $\pi$ 的状态-动作值函数，即状态s下采取行动a预计累计回报的期望值，满足： $Q_\pi(s,a)=\mathbb{E}[G_t\vert S_t=s,A_t=a]$
- $P_{s\rightarrow s'}^a$ ： $p(s^{'},r|s,a)$ ，即采取行为a后状态 $s$ 转换到 $s^{'}$ 的概率。
- $R_{s\rightarrow s'}^a$ ：采取行为a后状态 $s$ 转换到 $s^{'}$ 所获得的奖赏。
- $\pi(s,a)$ ：状态s下根据策略 $\pi$ 采取行为a的概率。
状态值 - 动作值 $V_\pi(s)=\sum_a\pi(a|s)Q_\pi(s,a)$
动作值 - 状态值 $Q_\pi(s,a)=\sum_{s^{\prime}\in\mathrm{S},r}p(s^{\prime},r|s,a)(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma V_\pi(s^{\prime}))$
状态值 – 下一状态值 $V_{\pi}(s)=\sum_a\pi(a|s)Q_\pi(s,a)=\sum_a\pi(a|s)\sum_{s^{\prime}\in\mathrm{S},r}p(s^{\prime},r|s,a)(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma V_\pi(s^{\prime}))$
详细证明状态-值函数可以表示成Bellman方程 $\begin{aligned} \mathrm{V}_{\pi}(\mathrm{s}) & =\mathbb{E}[\mathrm{G_t}|\mathrm{S_t}=\mathrm{s}]\\ & =\mathbb{E}[R_{t+1}|S_t=s]+\gamma\mathbb{E}[G_{t+1}|S_t=s], \\ & =\underbrace{\sum_a\pi(a|s)\sum_rp(r|s,a)r}_{\text{mean of immediate rewards}}+\underbrace{\gamma\sum_a\pi(a|s)\sum_{s^{\prime}}p(s^{\prime}|s,a)V_\pi(s^{\prime}),}_{\text{mean of future rewards}} \\ & =\sum_{a}\pi(a|s)\left[\sum_{r}p(r|s,a)r+\gamma\sum_{s^{^{\prime}}}p(s^{\prime}|s,a)V_{\pi}(s^{\prime})\right],\forall s\in\mathcal{S} \\ & =\sum_a\pi(a|s)\sum_{s^{\prime},r}p(s^{\prime},r|s,a)\left[r+\gamma V_\pi(s^{\prime})\right],\quad\forall s\in\mathcal{S}. \end{aligned}$
最优策略
最优策略所对应的值函数 $V^\star(s)$ 称为最优值函数，由于最优值函数的累积奖赏值已达最大，因此可以对前面的Bellman方程做一个改动，将对动作的概率求和改为取最优： $\begin{aligned} \mathrm{V}^\star(\mathrm{s})& =\max_{\mathrm{a}\in\mathrm{A}}\mathrm{Q}_{\pi^\star}(\mathrm{s},\mathrm{a})\\& =\max_{\mathrm{a}\in\mathrm{A}}\sum_{\mathrm{s}^{\prime}\in\mathrm{S}}\mathrm{P}_{\mathrm{s}\to\mathrm{S}^{\prime}}^\mathrm{a}\cdot(\mathrm{R}_{\mathrm{s}\to\mathrm{s}^{\prime}}^\mathrm{a}+\gamma\mathrm{V}^\star(\mathrm{s}^{\prime})) \end{aligned}$ 可以得到最优状态-动作值函数为 $\mathrm{Q^\star(s,a)=\sum_{s^{\prime}\in S}P_{s\to s^{\prime}}^a\cdot(R_{s\to s^{\prime}}^a+\gamma\max_{a^{\prime}\in A}Q^\star(s^{\prime},a^{\prime}))}$
非最优策略 -> 最优策略 $\pi^{\prime}(\mathrm{s})=\arg\max_{\mathrm{a}\in\mathrm{A}}\mathrm{Q}_\pi(\mathrm{s},\mathrm{a})$

3.On-Policy and Off-Policy Methods

On-policy 和 off-policy 是指两种不同的训练方式，它们的主要区别在于行为策略和目标策略是否相同。行为策略是用于与环境交互以生成训练数据的策略。目标策略是我们希望代理学习的策略。
一个直观区别：在这里插入图片描述

4.蒙特卡罗(MC)、时序差分(TD)

MC

通过采样来估计分布的一种算法。在一场游戏中，先让策略 $\pi$ 去和环境进行交互获取数据，看到状态s后计算整场游戏的累积奖赏G ，记录下这些数据后训练一个回归问题来拟合 $V_\pi(s)$ ,公式逼近为：
$\mathrm{V}_\pi(\mathrm{s_t})\leftarrow\mathrm{V}_\pi(\mathrm{s_t})+\alpha(\mathrm{G}_\mathrm{t}-\mathrm{V}_\pi(\mathrm{s_t}))$ 这样的训练需要大量的采样，并且每次update都需要一整轮的累积奖赏 $G_t$

TD

对于TD算法，只需要记录每一步的即时奖励 $r_t$ ，通过神经网络直接训练 $V_\pi$ 函数，分别输入 $s_t$ 和 $s_{t+1}$ ，将两个结果相减，再将减后的结果与 $r_t$ 进行回归拟合，更新方式为： $V(s_t)=V(s_t)+\alpha(R_{t+1}+\gamma V(s_{t+1})-V(s_t))$

5.Policy Gradient

动态规划、MC 和 TD 方法都需要在使用之前计算出最优 Q 值来获得最优策略，称为基于值的方法。另一类可以直接优化策略的方法称为策略梯度方法。在策略梯度中， $\pi_{\theta}(a|s)=P(a|s,\theta)$ ，目标函数是 $J(\theta)=V_{\pi_\theta}(s)=E_{\pi_\theta(s)}\left[\sum_aQ(s,a)\pi_\theta(a|s)\right]$ 目标是最大化这个目标函数，通过微分 $\nabla_{\theta}J(\theta)=E_{\pi_{\theta}(s)}\left[\sum_{a}Q(s,a)\nabla_{\theta}\pi_{\theta}(a|s)\right]\\\theta=\theta+\alpha\nabla_{\theta}J$
当使用基于值的方法解决具有连续动作空间的任务时，动作空间必须首先离散化。离散化受到维数和步长的影响。通过策略梯度方法得到的最优策略是动作上的概率分配或概率密度函数，可以是连续的，也可以是离散的，避免了上述缺点。

DL

MLP可以近似任何非线性函数。
DRL 利用神经网络强大的表示能力来处理高维输入和近似值或策略，以解决状态空间过大和连续动作空间过大的 RL 问题。

DRL

Value-based RL

1.DQN

传统的 Q-learning 使用 TD 方法更新 Q 值并将其存储在 Q 表中，这对于大状态空间和动作空间的问题是不可行的
DQN 的隐藏层包括 3 个卷积层和一个全连接层，DQN 在时间步 t 的近似值为： $y=R+\gamma\max_{a}Q(s_{t+1},a;\theta^-)$ 其中 $\theta$ 代表深度 Q 网络的参数，并通过最小化近似值和实际Q值之间的 MSE 来更新。
目标Q值公式：
$y_j = \begin{cases} R_j, & \text{if } s_{j+1} \text{是终止状态} \\ R_j + \gamma \max_a Q(s_{j+1}, a; \theta^-), & \text{otherwise} \end{cases}$
损失函数：均方误差（MSE）
$L(\theta) = \mathbb{E}_{(s,a,r,s') \sim D} \left[ (y_j - Q(s,a;\theta))^2 \right]$
增强探索能力：DQN 使用了 $\epsilon$ − 贪婪方法，该方法以一定的概率执行随机作，并以剩余的概率 1 − $\epsilon$ 执行最优作，这相当于在策略中添加了一定量的噪声。
Off-policy方法

2.Prioritized Experience Replay

核心思想：根据TD误差 ( $\delta_i$ ) 的优先级采样样本，加速重要样本的学习。
优先级定义：
$\delta_i = |R + \gamma \max_a Q(s', a; \theta^-) - Q(s, a; \theta)|$
采样概率：
$\frac{|\delta_i|^\alpha}{\sum_k |\delta_k|^\alpha}$
(其中 $\alpha$ 控制优先级强度）

3.Dueling Network

架构改进：将Q网络分为两部分：

状态价值函数 ( V(s) )：衡量状态的好坏。
优势函数 ( A(s,a) )：衡量动作的相对优势。
组合公式：
$\left( A(s,a) - \frac{1}{|A|} \sum_{a'} A(s,a') \right)$
优点：在动作价值相近时更稳定。

4.Noisy Network

改进：在网络权重中加入参数化噪声，替代传统的 (\epsilon)-greedy探索。
公式：
$\gamma \max_a Q(s_{j+1}, a, \epsilon^-; \theta^-, \delta^-)$
（ $\epsilon$ ) 为噪声参数）

5.关键区别与对比

算法	核心改进	解决的核心问题
DQN	经验回放 + 目标网络	数据相关性与训练稳定性
DDQN	解耦动作选择与评估	Q值高估
Prioritized Replay	按TD误差优先级采样	数据利用效率
Dueling Network	分离V(s)和A(s,a)	动作价值相近时的稳定性
Noisy Network	参数化噪声探索	替代(\epsilon)-greedy
Multistep Learning	多步回报	平衡偏差与方差
Distributional DQN	建模Q值分布	捕获回报不确定性

Policy-based RL

Policy-Based DRL方法直接优化策略（policy），而不是通过价值函数间接优化
策略梯度定理：
$\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) Q^\pi(s,a) \right]$
通过采样估计梯度，无需环境模型。

1.Advantage Actor-Critic (A2C/A3C)

概念：
- Actor-Critic框架结合了策略梯度（Actor）和价值函数（Critic）的优点。
- A3C（Asynchronous Advantage Actor-Critic）通过多线程异步采样数据，加速训练；A2C是其同步版本，更适合GPU优化。
- 使用Advantage Function ( A(s,a) = Q(s,a) - V(s) ) 减少方差，平衡偏差与方差。
公式：
- 策略梯度更新：
  $\nabla_\theta J(\theta) = \frac{1}{T} \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) A(s_t,a_t) + \beta \nabla_\theta \mathcal{H}(\pi_\theta(s_t))$
  - ( $A(s_t,a_t)$ ) 是优势函数， $\mathcal{H}$ ) 是策略熵（鼓励探索）。
- 优势函数：
  $A(s_t,a_t) = \sum_{i=1}^n \gamma^{i-1} r_{t+i} + \gamma^n V(s_{t+n}) - V(s_t)$
特点：
- 异步训练（A3C）提升数据效率，但A2C更稳定。
- 优势函数替代纯回报，减少方差

2.Deterministic Policy Gradient (DPG/DDPG)

概念：
- 确定性策略 $\mu_\theta(s)$ ，适用于连续动作空间。
- DDPG（Deep DPG）结合DQN技术（经验回放、目标网络）。
公式：
- 策略梯度：
  $\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_a Q(s,a) \nabla_\theta \mu(s) \big|_{a=\mu(s)} \right]$
- 目标网络软更新：
  $\theta' \leftarrow \tau \theta + (1-\tau) \theta'$
  - $\tau \ll 1$ （如0.001）。
特点：
- 直接输出确定性动作，无需动作概率分布。
- 需要添加噪声（如Ornstein-Uhlenbeck噪声）探索。

3.算法对比与区别

算法	策略类型	核心改进	适用场景
A3C/A2C	随机策略	多线程异步采样，优势函数	离散/连续动作，高维状态
TRPO	随机策略	信任区域约束，保证单调提升	连续动作，复杂任务
PPO	随机策略	截断目标函数，简化TRPO	通用任务，实现简单
DDPG	确定性策略	结合DQN技术，直接优化策略	连续动作（如机器人控制）
TD3	确定性策略	解决DDPG的高估问题	连续动作，需稳定训练
SAC	随机策略	最大熵框架，自动调节探索	离线/在线，连续控制

Maximum entropy-based DRL

最大熵强化学习（Maximum Entropy RL）的核心思想

最大熵强化学习在传统RL目标（最大化累计奖励）的基础上，增加了一个熵（Entropy）最大化项，鼓励策略在追求高回报的同时保持随机性（即探索更多可能性）。其优化目标为： $J(\pi) = \sum_{t=0}^{T} \mathbb{E}_{(s_t,a_t)\sim \rho_\pi} \left[ r(s_t, a_t) + \alpha \mathcal{H}(\pi(\cdot|s_t)) \right]$