当前位置：首页 > news >正文

csdn_export_md

news 2025/10/28 12:41:27

好的，没有问题。以下是一个符合学术规范的章节草案，专门介绍您优化的 TD3 算法及其在“基于强化学习的无人机蝗灾施药路径优化”论文中的应用。

第四章基于 TD3 算法的无人机施药路径优化

4.1 引言

在寻求最优无人机蝗灾施药路径的过程中，深度强化学习 (Deep Reinforcement Learning, DRL) 提供了一套强大的方法论。特别是在需要精确控制连续动作（如无人机的飞行方向和速度、农药喷洒速率）的场景下，基于Actor-Critic框架的算法表现尤为突出。深度确定性策略梯度 (Deep Deterministic Policy Gradient, DDPG) [Lillicrap et al., 2015] 是处理连续动作空间的经典算法，但其在训练过程中常因对Q值函数的过高估计 (Overestimation Bias) 而导致性能不稳定或收敛效果不佳。

为了克服 DDPG 的局限性，双延迟深度确定性策略梯度 (Twin Delayed Deep Deterministic Policy Gradient, TD3) [Fujimoto et al., 2018] 被提出。TD3 通过引入三个关键技术——截断的双Q学习 (Clipped Double Q-Learning)、延迟的策略更新 (Delayed Policy Updates) 和目标策略平滑 (Target Policy Smoothing)——显著提高了算法的稳定性和最终性能。

本章旨在详细阐述 TD3 算法在本研究中的具体实现和优化。我们将首先介绍 TD3 算法的核心原理，随后描述如何将其应用于无人机施药路径优化问题，包括状态空间、动作空间和奖励函数的设计考量。接着，我们将详细说明所采用的神经网络结构、训练流程以及关键超参数。特别地，本章还将介绍针对探索策略进行的优化——探索噪声衰减机制，旨在平衡训练初期的广泛探索与后期的策略精调。本章所实现的 TD3 算法将作为后续章节中与其他强化学习算法（如 PPO、SAC）进行性能对比的重要基准之一。

4.2 TD3 算法原理

TD3 算法建立在 DDPG 的 Actor-Critic 框架之上，旨在通过以下三个核心机制缓解 DDPG 的主要问题：

截断的双Q学习 (Clipped Double Q-Learning):
为解决 Q 值过高估计问题，TD3 采用了两套独立的评论家网络 ( $Qθ1,Qθ2Q_{\theta_1}, Q_{\theta_2}$ ) 及其对应的目标网络 ( $Qθ1′,Qθ2′Q_{\theta'_1}, Q_{\theta'_2}$ )。在计算目标 Q 值时，选择两个目标评论家网络输出中的较小值作为最终的目标值。这可以有效抑制因函数近似误差或优化过程本身导致的对真实 Q 值的正向偏差。目标 Q 值的计算方式如下：
$\gamma (1-d) \min_{i=1,2} Q_{\theta'_i}(s', \tilde{a}')$
其中， $r$ 是奖励， $s^{'}$ 是下一状态， $d$ 是完成标志（done flag）， $γ\gamma$ 是折扣因子。 $a~′\tilde{a}'$ 是经过噪声平滑处理的目标动作（见下文）。
延迟的策略更新 (Delayed Policy Updates):
TD3 建议策略网络（Actor）和目标网络的更新频率应低于价值网络（Critic）。通常，评论家网络每步更新一次，而演员网络和所有目标网络则每隔 $k$ (例如 $k = 2$ ) 步才进行一次更新。这样做的目的是让价值网络的估计在策略网络更新前相对稳定，从而为策略网络提供更可靠的梯度信号，减少策略更新的方差。
目标策略平滑 (Target Policy Smoothing):
为了使学习到的价值函数对策略中的微小变化更加鲁棒，TD3 在计算目标 Q 值时，对目标策略网络 $πϕ′\pi_{\phi'}$ 输出的下一动作 $a^{'}$ 加入了截断的正态噪声 $ϵ\epsilon$ ：
$a~′=clip(πϕ′(s′)+ϵ,alow,ahigh)\tilde{a}' = \text{clip}(\pi_{\phi'}(s') + \epsilon, a_{low}, a_{high})$
$ϵ∼clip(N(0,σ′),−c,c)\epsilon \sim \text{clip}(\mathcal{N}(0, \sigma'), -c, c)$
其中， $σ′\sigma'$ 是噪声标准差， $c$ 是噪声裁剪边界， $a_{low}, a_{high}$ 是动作空间的边界（在本研究中为 $[- 1, 1]$ ）。这种噪声注入有助于平滑 Q 函数，防止其对特定的尖锐峰值过拟合，从而学习到更稳健的策略。

通过这三种机制的结合，TD3 算法在许多连续控制任务上展现了相比 DDPG 更优越的性能和稳定性。

4.3 TD3 在无人机路径优化中的应用

为了将 TD3 算法应用于无人机蝗灾施药路径优化问题，我们需要明确定义智能体（无人机）与环境的交互接口，即状态空间、动作空间和奖励函数。在本研究中，所有算法均使用统一的环境实现（详见 drone_env.py），以保证对比的公平性。

状态空间 ( $S\mathcal{S}$ ):
状态是智能体感知环境并做出决策的基础。为了提供充分的信息，状态向量 $\in \mathcal{S}$ 被设计为包含以下几部分信息：
- 无人机自身状态：归一化的二维坐标 $(x, y)$ 和剩余农药百分比。
- 全局环境信息：整个区域的平均蝗虫密度、最大蝗虫密度以及当前时间步相对于最大步数的比例。
- 局部环境信息：无人机周围 5x5 网格范围内的蝗虫密度分布。
  经整合与填充后，状态向量的维度固定为 31 维 ( $dim(S)=31dim(\mathcal{S}) = 31$ )。为了提高训练效率和稳定性，输入给神经网络的状态会进行在线归一化处理（尽管在本 TD3 实现中未使用独立的 RunningMeanStd 类，但环境本身提供了归一化或限制范围的状态值）。
动作空间 ( $A\mathcal{A}$ ):
动作是智能体与环境交互的方式。本研究中，无人机的动作空间 $A\mathcal{A}$ 被定义为一个三维连续向量 $\in [-1, 1]^3$ ：
- $d x, d y$ : 分别表示无人机在 x 和 y 方向上的归一化位移。实际位移会根据这两个值进行计算。
- $s p r a y$ : 表示喷洒决策相关的变量。在环境的 step 函数中，通常会将其映射到实际的喷洒强度或开关（例如，大于某个阈值则喷洒）。
  演员网络（Actor）的输出层使用 tanh 激活函数，将动作约束在 $[- 1, 1]$ 范围内。
奖励函数 ( $R\mathcal{R}$ ):
奖励函数 $\mathcal{R}(s, a, s')$ 是引导智能体学习目标行为的核心信号。统一环境 (drone_env.py) 中定义的奖励函数旨在鼓励高效灭蝗，同时考虑时间和资源消耗：
- 灭蝗奖励: 主要奖励项，与单步蝗虫密度的减少量成正比（乘以奖励系数10.0）。
- 时间惩罚: 每执行一步会受到一个微小的负奖励（-0.1），鼓励智能体尽快完成任务。
- 成功奖励: 当蝗虫密度降低到阈值以下（例如初始总量的10%）时，给予一个较大的正奖励（+100），明确任务目标。
- 关键处理：奖励裁剪 (Reward Clipping): 为了稳定训练过程，防止因偶尔的极端奖励值导致梯度爆炸，环境在 step 函数的最后将计算出的单步奖励强制裁剪到 $[- 10, 10]$ 的范围内 (reward = np.clip(reward, -10, 10)）。这是保证算法稳定收敛的重要措施。

4.4 网络结构与实现细节

本研究中 TD3 算法的实现基于 PyTorch 框架，具体的网络结构如下：

演员网络 (Actor Network):
- 输入层：接收维度为 31 的状态向量 $s$ 。
- 隐藏层：包含两个全连接层，每层有 256 个神经元，使用 ReLU 作为激活函数。
- 输出层：一个全连接层，输出维度为 3 的动作向量 $a$ ，并使用 tanh 激活函数将输出压缩到 $[- 1, 1]$ 范围。
评论家网络 (Critic Network):
- 包含两套完全相同的 Q 网络结构 ( $Q_1, Q_2$ ) 以实现双 Q 学习。
- 输入层：接收状态向量 $s$ 和动作向量 $a$ 的拼接（维度为 31+3=34）。
- 隐藏层：每套 Q 网络包含两个全连接层，每层有 256 个神经元，使用 ReLU 作为激活函数。
- 输出层：每套 Q 网络输出一个标量 Q 值。

4.5 训练过程与超参数设置

TD3 算法的训练遵循标准的 Off-Policy 流程，并结合了特定的优化策略。

经验回放: 使用一个容量为 100,000 的标准经验回放缓冲区 (ReplayBuffer) 存储 $(s, a, r, s^{'}, d)$ 转移元组。
初始探索: 在训练开始的前 2000 步 (START_STEPS)，智能体执行完全随机的动作，以填充经验回放池，确保初始学习数据的多样性。
探索策略: 在 START_STEPS 之后，智能体的动作选择基于当前策略网络的输出，并叠加一个高斯噪声以进行探索。关键优化在于，这个探索噪声 $σexpl\sigma_{expl}$ 并非固定不变，而是随训练回合数进行衰减：
- 初始噪声标准差 (expl_noise): 0.25
- 噪声衰减率 (noise_decay): 0.999 (每回合乘以该因子)
- 最小噪声标准差 (min_expl_noise): 0.05
  探索噪声的衰减机制旨在平衡训练初期的广泛探索和后期的策略利用与精调，有助于智能体收敛到更优的确定性策略。
网络更新:
- 当经验回放池中的样本数量超过批次大小 (BATCH_SIZE = 256) 时，开始进行网络更新。
- 每次更新从缓冲区中随机采样一个批次的数据。
- 评论家网络在每个训练迭代中都进行更新。
- 演员网络和目标网络根据 policy_freq = 2 的设置，每隔 2 次评论家网络更新后才进行一次更新（延迟更新）。
- 目标网络使用软更新 (Soft Update) 方式，更新率 $τ=0.005\tau = 0.005$ 。
优化器与学习率: 演员和评论家网络均使用 Adam 优化器，学习率设为 $\times 10^{-4}$ 。
其他超参数:
- 折扣因子 $γ=0.99\gamma = 0.99$ 。
- 目标策略噪声 $σ′=0.2\sigma' = 0.2$ (policy_noise)。
- 目标策略噪声裁剪边界 $c = 0.5$ (noise_clip)。
- 训练总回合数 NUM_EPISODES = 500。

4.6 本章小结

本章详细介绍了 TD3 算法的基本原理及其针对 DDPG 的关键改进。随后，结合本研究的具体问题背景——无人机蝗灾施药路径优化，阐述了状态空间、动作空间和标准化的奖励函数设计。我们详细描述了演员和评论家网络的具体结构，并列出了包括探索噪声衰减优化在内的训练过程和关键超参数。通过这些设定，我们构建了一个基于 TD3 的智能体，其训练结果将在后续章节中与其他算法进行对比分析，以评估不同强化学习方法在解决该复杂连续控制问题上的性能和特性。

查看全文

http://www.dtcms.com/a/537594.html