当前位置：首页 > news >正文

一文读懂DQN改进算法(Double DQN+Dueling DQN)—强化学习(7)

news 2025/10/12 15:06:15

1、通俗理解Double DQN和Dueling DQN

1.1、Double DQN：避免 “过度自信” 的选择

1.1.1、传统 DQN 的问题

1.1.2、Double DQN 的改进

1.2、Dueling DQN：拆分 “环境价值” 和 “动作价值”

1.2.1、传统 DQN 的局限性

1.2.2、Dueling DQN 的改进

1.3、两者结合：更聪明的决策系统

1.4、总结

2、Double DQN（双深度 Q 网络）详解

2.1、传统 DQN 的问题

2.2、 Double DQN 的核心思想

2.3、目标 Q 值计算

2.4、代码实现对比

2.5、优势

3、Dueling DQN（对决网络架构）详解

3.1、传统 DQN 的局限性

3.2、 Dueling DQN 的核心架构

3.3、网络结构

3.4、代码实现

3.5、优势

4、Double DQN 与 Dueling DQN 结合

5、Double DQN实验

5.1、Double DQN实验代码

5.2、Double DQN实验对比结果

5.2.1、DQN实验结果

编辑 5.2.2、Double DQN实验结果

6、Dueling DQN实验

6.1、Dueling DQN实验代码

6.2、Dueling DQN实验结果

1、通俗理解Double DQN和Dueling DQN

1.1、Double DQN：避免 “过度自信” 的选择

1.1.1、传统 DQN 的问题

想象你是一个餐厅评论家，需要预测每家餐厅的 “最佳菜品”。传统 DQN 的做法是：

尝遍所有菜后，直接选当前认为最好吃的( $\max Q$ ）。
但如果某些菜的评分有误差（比如你今天状态不好），你可能会高估某道菜的价值，导致错误选择。

1.1.2、Double DQN 的改进

Double DQN 相当于：

先选菜：用 “当前的评分表”（主网络）选出你认为最好吃的菜。
再评估：用 “更稳定的历史评分表”（目标网络）来实际打分。

例子：你先用自己最近的评分表选出 “宫保鸡丁”，然后用餐厅的历史平均分（更可靠）来确定这道菜到底多好吃。这样可以避免因为某次偶然的高分而过度推荐某道菜。

1.2、Dueling DQN：拆分 “环境价值” 和 “动作价值”

1.2.1、传统 DQN 的局限性

假设你在玩《王者荣耀》，传统 DQN 会直接告诉你：“在中路遇到敌人时，选貂蝉能赢”。但它没有解释：

是 “中路这个位置本身就容易赢”（环境价值）？
还是 “貂蝉在中路比其他英雄更强”（动作价值）？

1.2.2、Dueling DQN 的改进

Dueling DQN 把评分拆成两部分：

环境价值 V (s)：中路本身的优势（比如兵线好、防御塔多）。
动作优势 A (s,a)：貂蝉在中路比其他英雄强多少。

公式：总价值 = 环境基础分 + （英雄优势分 - 所有英雄平均优势）比如：中路基础分 80 分，貂蝉优势分 + 15 分，所有英雄平均优势 5 分 → 貂蝉总价值 = 80+(15-5)=90 分。

好处：

如果中路优势变化（比如防御塔被推了），所有英雄的评分会同时调整，不用重新训练每个英雄。
如果貂蝉被削弱，只需要更新她的优势分，不影响其他英雄。

1.3、两者结合：更聪明的决策系统

Double DQN + Dueling DQN 就像是：

用 Dueling DQN 的 “环境分 + 动作分” 系统来更细致地评估选择。
用 Double DQN 的 “先选后评估” 机制避免过度自信。

生活例子：你要选一家餐厅吃饭，

Dueling DQN 会告诉你：

这家餐厅的环境基础分（位置好、氛围好）。
每道菜的优势分（比其他餐厅的同类菜好多少）。

而 Double DQN 会帮你：

先用当前的评分选出 “辣子鸡”。
再用历史评分（比如朋友的评价）来确认这道菜是否真的好吃。

1.4、总结

Double DQN：避免 “过度自信”，通过 “先选后评估” 提高稳定性。
Dueling DQN：拆分 “环境价值” 和 “动作价值”，提高学习效率。
结合使用：在复杂环境中更准确、更稳定地学习最优策略。

2、Double DQN（双深度 Q 网络）详解

2.1、传统 DQN 的问题

传统 DQN 在估计目标 Q 值时使用公式：

$y_t = r_t + \gamma \max_{a'} Q_{\theta^-}(s_{t+1}, a')$

这种方式存在最大化偏差（Maximization Bias）：当 Q 值估计存在误差时，直接取最大值会系统性地高估真实价值，导致训练不稳定。

2.2、 Double DQN 的核心思想

Double DQN 通过解耦动作选择和动作评估来减少偏差：

动作选择：使用主网络（当前策略）选择最优动作。
动作评估：使用目标网络评估该动作的 Q 值。

2.3、目标 Q 值计算

Double DQN 的目标 Q 值公式为：

$y_t = r_t + \gamma Q_{\theta^-}(s_{t+1}, \arg\max_{a'} Q_\theta(s_{t+1}, a'))$

其中：

$\arg\max_{a'} Q_\theta(s_{t+1}, a')$ ：主网络选择的最优动作。
$Q_{\theta^-}(s_{t+1}, \cdot)$ ：目标网络对该动作的 Q 值评估。

2.4、代码实现对比

传统 DQN：

# 传统DQN目标Q值计算
next_q_values = target_network(next_state)
target = reward + gamma * torch.max(next_q_values)

Double DQN：

# Double DQN目标Q值计算
next_actions = main_network(next_state).argmax(dim=1)  # 主网络选动作
next_q_values = target_network(next_state)  # 目标网络评估Q值
target = reward + gamma * next_q_values.gather(1, next_actions.unsqueeze(1)).squeeze(1)

2.5、优势

显著减少最大化偏差，提高 Q 值估计的准确性。
在 Atari 游戏等环境中表现更稳定，收敛性更好。

3、Dueling DQN（对决网络架构）详解

3.1、传统 DQN 的局限性

传统 DQN 直接输出每个动作的 Q 值，但在许多场景中：

状态价值（State Value）对所有动作相同。
动作优势（Advantage）体现不同动作的相对价值。

3.2、 Dueling DQN 的核心架构

将 Q 值分解为状态价值函数 V (s)和动作优势函数 A (s,a)：

$Q(s,a) = V(s) + A(s,a)$

但直接分解会导致参数冗余（V 和 A 不唯一），因此实际使用：

$Q(s,a) = V(s) + \left( A(s,a) - \frac{1}{|A|} \sum_{a'} A(s,a') \right)$

通过减去平均优势，强制唯一解。