当前位置：首页 > news >正文

【强化学习】#8 DQN（深度Q学习）

news 2025/10/2 9:30:11

前言

再三考虑强化学习和足式机器人算法两个系列之间的关系后，我目前决定专门的强化学习算法知识还是放到强化学习系列中，而足式机器人算法系列可能会以其相关的论文和项目为主介绍更多应用层面的内容。而为了以足式机器人为最终导向，本系列将不再以萨顿的《强化学习》为参考教材，博主将自行探索学习方向，但不影响前七篇的内容的基础地位，可以接续学习，本章将依赖于系列第五篇时序差分学习。本章开始将进入深度强化学习领域，深度学习相关知识已在【动手学深度学习】系列笔记中整理，故不再赘述。

DQN

DQN（deep Q-network，深度Q网络）将深度神经网络应用于Q-learning（Q学习）算法，是深度强化学习的开山之作。

Q网络

回顾一下时序差分学习一篇中的知识，Q-learning是一种直接以对最优动作价值函数 $q_*$ 的估计为目标的时序差分控制

$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma\underset a\max Q(S_{t+1},a)-Q(S_t,A_t)]$

当该更新公式收敛时，有

$Q(S_t,A_t)=R_{t+1}+\gamma\underset a\max Q(S_{t+1},a)$

Q-learning算法使用表格存储每个状态 $s$ 下采取动作 $a$ 的动作价值函数 $Q (s, a)$ ，然而现实中很多情况下，强化学习任务所面临的状态空间是连续的、无穷大的，此时我们无法再使用表格进行存储。

为此，我们可以用一个线性函数 $Q(s,a;θ)Q(s,a;\theta)$ 来近似 $Q (s, a)$ ，称为价值函数近似，并使用线性神经网络来拟合这个函数 $Q(s,a;θ)Q(s,a;\theta)$ ，称为Q网络。

输入与输出：一个标准的Q网络的输入为状态 $s$ ，输出为所有动作 $a$ 的 $Q$ 值，因此只需要一次前向传播即可找出最优动作价值。相应地，其输入神经元数量为状态空间的维数（在此之前状态空间也可经过其他神经网络处理），输出神经元数量为动作空间的大小。
标签与损失函数：Q网络的标签即其收敛的目标 $yt=rt+γ⋅max⁡aQ(st+1,a;θ)y_t=r_t+\gamma\cdot\max_aQ(s_{t+1},a;\theta)$ ，损失函数可采用均方损失 $L=12[yt−Q(s,a;θ)]2L=\displaystyle\frac12[y_t-Q(s,a;\theta)]^2$ 。

目前，我们可以得到DQN的算法流程如下

初始化Q网络，输入状态 $s_t$ ，输出 $s_t$ 下所有动作的 $Q$ 值；
利用行动策略（例如 $ε\varepsilon$ -贪心）选择一个动作 $a$ ，将 $a_t$ 输入到环境中，获得新状态 $s_{t+1}$ 和 $r_t$ ；
将状态 $s_{t+1}$ 输入Q网络，从输出中选择最优动作价值 $max⁡aQ(st+1,a;θ)\max_aQ(s_{t+1},a;\theta)$ ；
计算标签 $yt=rt+γ⋅max⁡aQ(st+1,a;θ)y_t=r_t+\gamma\cdot\max_aQ(s_{t+1},a;\theta)$ ；
计算损失函数 $L=12[yt−Q(s,a;θ)]2L=\displaystyle\frac12[y_t-Q(s,a;\theta)]^2$ ；
使用梯度下降更新Q网络中的参数；
丢弃四元组 $s_t,a_t,r_t,s_{t+1})$ ，输入新状态 $s_{t+1}$ ，重复更新工作。

经验回放

原始的DQN算法具有如下缺点：

数据相关：在序贯决策下，按顺序获得的经验之间具有相关性，不满足独立同分布；
经验浪费：每个状态转移四元组用完即弃，数据利用率低。

经验回放可以克服上面两个缺点，它将经验 $s_t,a_t,r_t,s_{t+1})$ 存储在一个固定大小的回放缓冲区中。在训练前，先让智能体采用某个行动策略 $π\pi$ 与环境持续交互，收集多条经验直至回放缓冲区存满。随后利用该回放缓冲区对Q网络进行训练，训练过程的每一轮等概率随机从缓冲区中抽取一个batch大小的经验训练网络，算出每个经验的梯度后使用梯度的平均更新参数。

在上述基础之上，经验回放还可作出如下改进：

分布式回放：多个智能体同时在多个环境中运行，将经验统一存储在一个缓冲区中，可以利用更多的资源更快地收集经验。
优先回放：为缓冲区中每条经验制定一个优先级，在采样经验时更倾向于选择优先级高的经验。

目标网络

原始的DQN算法使用一个Q网络，其在被训练的同时还用于给出自己的训练标签，这使得网络的更新总是在追逐一个不断变化的目标，在复杂的环境中极易产生振荡和发散，难以收敛。其次，仅依赖于单个Q估计存在最大化偏差问题（也称“高估”）。

为了避免上述问题，DQN引入了第二个网络目标网络 $Q(s,a;θ−)Q(s,a;\theta^-)$ ，而原来的网络称为评估网络。目标网络和评估网络的结构一样，只是参数不同，即 $θ−≠θ\theta^-\neq\theta$ 。

目标网络和评估网络将动作评估与标签计算的过程解耦。其中评估网络负责控制智能体，收集经验；目标网络用于计算标签 $yt=rt+γ⋅max⁡aQ(st+1,a;θ−)y_t=r_t+\gamma\cdot\max_aQ(s_{t+1},a;\theta^-)$ 。在每一批更新中，只有评估网络的权重 $θ\theta$ 会得到持续的更新，目标网络的权重 $θ−\theta^-$ 保持不变以稳定训练目标。评估网络更新一定次数后，其权重更新结果才会复制给目标网络，让目标网络也能得到更新，随后进行下一批更新。