当前位置：首页 > news >正文

Double DQN（DDQN）详解与实现

news 2025/10/31 11:45:30

Double DQN（DDQN）详解与实现

- 0. 前言
- 1. DDQN 原理
- 2. 使用 Keras 实现 DDQN
- 3. 结果分析

0. 前言

在深度 Q 网络 (Deep Q-Network, DQN) 中，目标 Q 网络负责选择并评估每个动作，这会导致 Q 值被高估。为解决此问题，Double DQN (DDQN) 提出使用 Q 网络选择动作，而用目标 Q 网络评估动作。在本节中，我们将介绍 DDQN 的基本原理，并使用 Keras 实现 DDQN。

1. DDQN 原理

在 DQN 中，智能体使用相同的Q值来选择和评估一个动作。这可能会导致学习中的最大化偏差。例如，假设对于某个状态S，所有可能的动作的真实Q值都为零。此时，DQN 估计值将会有一些高于零的值和一些低于零的值，由于选择具有最大Q值的动作，并且后续使用相同(最大化的)估计值函数评估每个动作的Q值，智能体就会高估Q值，换句话说，智能体过于乐观，这可能导致训练不稳定和低质量的策略。为了解决这个问题，DeepMind 提出了 Double DQN 算法。在 Double DQN 中，有两个具有相同结构但权重不同的Q网络。其中一个Q网络使用ε-贪婪策略确定动作，另一个Q网络确定其值 ( $Q_{target}$ )。
在 DQN 中， $Q_{target}$ 目标计算方式如下：
$Qtarget=Rt+1+γmax⁡AQ(St+1,At)Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1}, A_t)$
其中，动作 $A$ 是使用相同的 DQN $Q (S, A; W)$ 选择的，其中 $W$ 是网络的训练参数：
$Qtarget=Rt+1+γmax⁡AQ(St+1,argmaxtQ(S,A;W);W)Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1},argmax_tQ(S,A;W); W)$
在 Double DQN 中，目标方程有所不同，DQN $Q (S, A; W)$ 用于确定动作，而 DQN $Q (S, A; W^{'})$ 用于计算目标。因此，方程将改写为：
$Qtarget=Rt+1+γmax⁡AQ(St+1,argmaxtQ(S,A;W);W′)Q_{target}=R_{t+1} + \gamma \max_A Q(S_{t+1},argmax_tQ(S,A;W); W')$
这一简单的更改减少高估Q值的可能性，并且能够更快、更可靠地训练智能体。

2. 使用 Keras 实现 DDQN

定义 DDQNAgent 类，该类继承自 DQNAgent 类。我们仅需重写 get_target_q_value() 方法，即可实现对最大Q值计算方式的修改。

class DDQNAgent(DQNAgent):def __init__(self,state_space, action_space, episodes=500):super().__init__(state_space, action_space, episodes)# Q Network weights filenameself.weights_file = 'ddqn_cartpole.h5'print("-------------DDQN------------")def get_target_q_value(self, next_state, reward):# max Q value among next state's actions# DDQN# current Q Network selects the action# a'_max = argmax_a' Q(s', a')action = np.argmax(self.q_model.predict(next_state)[0])# target Q Network evaluates the action# Q_max = Q_target(s', a'_max)q_value = self.target_q_model.predict(\next_state)[0][action]# Q_max = reward + gamma * Q_maxq_value *= self.gammaq_value += rewardreturn q_value