[论文笔记]在复杂环境中使用基于注意力机制的深度确定性策略梯度进行路径规划
electronics丨2024丨 Path Planning in Complex Environments Using Attention-Based
Deep Deterministic Policy Gradient
笔记作者:
王海博,男,西安工程大学电子信息学院,2024级研究生,张宏伟人工智能课题组
研究方向:模式识别与人工智能
电子邮件:1137460680@qq.com
1.研究内容
传统的深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法在复杂的模拟环境中训练后,转移到新环境时,成功率经常出现显著下降。针对这些问题,本文采用多环境(Multi-Env)并行训练方法,将Multi-Head Attention (MHA)和priority Experience Replay (PER)集成到DDPG框架中,优化奖励函数,形成MAP-DDPG算法。该方法提高了算法的泛化能力和执行效率。通过对DDPG算法和MAP-DDPG算法在仿真和现实环境下的对比训练和测试,实验结果表明MAP-DDPG算法比DDPG算法的泛化和执行效率显著提高。具体来说,在仿真环境测试中,MAP-DDPG算法的成功率比DDPG算法平均提高了30%,到达目标点的平均时间缩短了23.7 s。这些结果表明,MAP-DDPG算法显著提高了路径规划的通用性和执行效率,为复杂环境下的路径规划提供了更有效的解决方案。
2.文章贡献
本文提出了一种改进的路径规划方法,主要贡献如下:
(1)引入了一种新的网络架构,该架构将多线程注意(Multi-Head Attention, MHA)机制与DDPG算法相结合,提高了路径规划策略生成的效率和通用性;
(2)在多个随机生成的复杂环境(包括动态和静态障碍物)中同时训练同一模型,并结合优先体验重放(PER)方法加快训练速度,提高模型的泛化能力;
(3)重新设计了奖励函数,使其更符合本研究的具体要求,进一步提高了智能体在复杂环境中的性能。
3.相关工作
3.1 深度确定性策略梯度(DDPG)算法
该算法在强化学习领域具有重要的应用价值和研究意义。自引入以来,已经开展了大量的工作来改进和应用该算法,并产生了广泛的结果。Lillicrap等率先提出了DDPG算法,该算法将确定性策略梯度方法与深度神经网络相结合,在高维连续动作空间[12]中实现了高效学习。DDPG的核心思想基于Actor - Critic体系结构,其中Actor网络负责生成动作,而Critic网络负责评估这些动作的价值。这种方法允许DDPG在连续动作空间中直接输出动作,而不依赖于离散化,显著提高了强化学习的效率。复杂环境中的路径规划通常需要对机器人的速度和方向等连续动作进行精确控制。DDPG算法专门设计用于处理连续的动作空间,能够生成平滑和准确的动作序列,使其非常适合复杂环境中的细粒度路径规划。此外,DDPG结合了一个Actor - Critic体系结构,允许它同时学习动作策略(Actor网络)和评估该策略的价值(Critic网络)。这使它能够根据环境的变化实时调整路径规划决策,使其更能适应复杂环境中存在的不确定性。如图所示,Critic网络通过最小化以下损失函数来更新其参数。
许多学者还致力于通过改进勘探策略、优化奖励函数或增加正则化项来提高DDPG的效率和鲁棒性。Henderson等人探讨了不同的超参数设置对DDPG绩效的影响,发现适当的奖励设计和参数调整对于提高DDPG的学习成果至关重要。然而,尽管DDPG在许多领域具有优越的性能,但在处理复杂或不熟悉的环境时仍然面临挑战。这些挑战包括算法容易陷入局部最优,对环境变化的适应能力差,导致新环境下的成功率和效率显著下降。这些问题限制了其在现实场景中的广泛应用,特别是在高风险或快速变化的环境中。未来的研究应着眼于解决这些挑战,以进一步提高DDPG的实用价值。
3.2注意机制算法
注意机制代表了一种模仿人类视觉系统集中注意力能力的深度学习方法。它已被应用于计算机视觉,以增强认知集中。Mnih等人是引入递归神经网络(RNN)模型的先驱,该模型能够选择性地处理基本元素以从图像中提取信息。在此之后,Jaderberg等人开发了空间变压器网络(Spatial Transformer Network),这是一种旨在选择和强调重要区域的方法。这种方法最终被认为是注意力机制。
从本质上讲,注意力机制使模型能够在处理广泛的数据集时专注于特定的数据段。通过允许模型评估各种输入组件的重要性并相应地分配不同级别的注意力,它增强了模型识别数据中复杂模式和依赖关系的能力。注意机制最初被设想用于图像处理、分类和文本摘要等任务,但也被证明在强化学习中非常有效。
注意机制在路径规划中的应用是一个新兴的研究领域,该机制可以显著提高路径规划算法的性能。通过使用注意力机制,算法可以专注于环境中最相关的特征和信息,使它们能够更有效地处理复杂和动态的场景。注意机制允许模型在路径规划过程中优先考虑对决策至关重要的区域和因素,从而减少不必要的计算资源消耗,同时提高生成路径的准确性和效率。该机制的引入使路径规划算法具有更强的适应性和鲁棒性,特别是在具有高度多样性和不确定性的环境中。
该机制通过计算环境状态不同部分之间的关联权值来动态调整策略,实现对环境变化的适应。2020年,Li等人提出了一种通过自注意与实体感知嵌入相结合增强的选择性门控机制,以改善远程监督关系的提取。2022年,Shiri等人探索了一种基于注意力的多无人机(Unmanned Aerial Vehicle)路径规划通信与控制策略。研究小组利用注意力模型优化无人机之间的协调和通信,使每架无人机能够根据其他无人机的状态和环境因素调整其飞行路径。该策略不仅提高了路径规划的效率,而且增强了无人机执行复杂任务时的集体协调能力。尽管自关注机制为路径规划带来了新的可能性,但在实际应用中仍面临计算复杂度和资源消耗等挑战。未来的研究可能侧重于优化这些算法的计算效率,同时探索如何将自注意机制与其他类型的机器学习技术相结合,以进一步提高动态和不确定环境下的路径规划性能。
3.3优先体验重玩机制
优先体验重播(priority Experience Replay, PER)机制是Schaul等人为了提高深度强化学习算法的学习效率和性能,首先提出的一种改进的强化学习经验重播方法。在传统的经验重播中,智能体将通过与环境交互产生的经验存储在重播缓冲区中,并在训练期间随机采样这些经验以更新策略或值函数。这种随机抽样方法打破了经验之间的时间相关性,有助于提高样本效率,稳定训练过程。然而,传统的体验重播为所有体验分配了相同的优先级,这意味着每个体验都有相同的采样概率。这种随机抽样方法可能会降低学习效率,因为一些关键经验,如具有高TD (Temporal Difference)误差的经验,对策略更新的贡献更大,但在随机抽样过程中没有得到更多的关注。
为了解决这个问题,Schaul等人提出了PER机制。PER根据经验的重要性对其进行加权抽样,通常通过TD误差来衡量。具体来说,经验的重要性是由其时间差误差(TD误差)决定的,其定义为:
其中δi为第i次经验的TD误差,ri为执行动作ai后获得的即时奖励,γ为折现因子Q(si+1, a ';θ−)为目标网络估计的下一个状态动作对的值,Q(si+1, ai;θ)为当前网络估计的当前状态-动作对的值。在PER中,每个经验的抽样概率P(i)基于其TD误差,通常使用以下加权抽样策略:
在这里,pi = |δi | + ε代表经验的优先级,其中ε是一个小常数,用于防止采样概率为零,α控制采样偏差的程度。当α = 0时,PER退化为均匀采样。由于采样概率的变化可能会引入偏差,PER机制通常会在更新过程中结合重要性采样权重来纠正这种偏差。重要性抽样权值定义为:
这里,N是经验回放缓冲区的大小,β控制重要采样的程度,通常在训练过程中逐渐增加,以减少训练早期阶段的偏差。最后,更新过程中的权值修正由:θ给出。
优先体验重放(PER)机制显著提高了深度强化学习的效率和性能,特别是在具有高维状态空间或稀疏奖励的环境中。它使算法能够快速聚焦于最有利于政策改进的关键经验,从而加速收敛。大量研究表明,PER广泛适用于DQN和其他深度强化学习算法,在各种任务中获得更好的性能。此外,PER的概念在其他情况下得到了进一步扩展和应用。PER已成为深度强化学习(DRL)中提高训练效率和策略稳定性的重要工具。
4.方法
4.1跨多个复杂环境的并行训练
在复杂环境下的强化学习任务中,为了提高算法的泛化能力和训练效率,本文提出了一种跨多环境并行训练的方法,结合优先体验重放(priority Experience Replay, PER)机制来优化模型的学习过程。多环境并行训练的核心思想是在多个独立的环境中同时训练同一个智能体模型。这些环境可能有不同的障碍物布局和动态变化,每个环境为agent提供不同的训练数据,帮助模型全面学习应对各种场景的策略。如图2所示,在每个训练步骤中,agent可以在每个环境中执行以下动作:首先,在时间步长t,每个环境i都有一个当前状态it,它表示环境中所有相关因素的组合(例如机器人在地图上的位置,障碍物的位置等)。接下来,Actor网络根据当前状态生成一个动作,该动作指导agent在环境中的下一步动作(例如,机器人运动的方向和速度)。然后,代理在每个环境中依次执行生成的动作,并与环境交互。这种交互产生即时奖励ri ,其中即时奖励ri t衡量当前行动对实现目标的贡献。最后,生成的元组存储在相应环境的经验池中,用于后续的训练步骤。为了保证在训练过程中更有效地利用存储的经验,本文将PER机制引入到经验回放中。具体来说,PER方法根据经验的TD误差为经验分配优先级,误差较高的经验更有可能在重播时被选择,从而加速收敛,提高学习效率。
在训练期间,系统根据其优先级从各种环境的经验池中采样经验,形成一个小批量,用于更新Actor和Critic网络的参数。这种方法确保模型从每个环境中最关键的经验中学习,从而加速收敛并增强算法的泛化能力。多环境并行训练策略具有显著的优势。首先,通过同时在多个不同的环境中进行训练,该模型暴露于更多样化的状态-动作对集合中,使其能够学习更广义的策略,从而提高其在新环境中的性能。其次,多环境数据的并行处理,结合PER机制,有效利用了计算资源,加快了模型收敛速度。跨多个环境的训练有助于模型避免在单个环境中可能出现的局部最优,从而增强训练过程的稳定性。最后,PER机制动态调整经验的采样概率,确保模型专注于学习对政策改进最关键的经验,从而提高训练的效率和效果。
总体而言,多环境并行训练和优先经验重播相结合,使模型能够更快地适应多样化和复杂的环境,显著增强了模型的鲁棒性和性能,为挑战性环境下的路径规划问题提供了强有力的解决方案。
4.2MAP-DDPG网络架构
本文提出的多头注意力深度确定性策略梯度(MAP-DDPG)网络的总体框架如图3所示。该框架是一个端到端路径规划网络,由两部分组成:参与者网络和批评家网络,旨在解决从模拟环境到现实环境的路径规划问题。具体来说,Actor网络负责根据输入的环境状态和位置信息生成最优动作,而Critic网络则评估Actor网络输出的动作的价值。通过将多头注意(MHA)机制与行动者和评论家网络相结合,MAP-DDPG体系结构在处理复杂环境时显著增强了模型的决策能力和鲁棒性。多头注意机制允许模型跨多个注意头并行处理输入特征,从而提取更丰富、更多样化的特征表示。
具体来说,如图3中的Actor网络所示,来自n个环境的状态向量被组合成一个状态矩阵St。这个环境状态矩阵St通过一个全连接层和一个ReLU激活函数处理,生成矩阵X。矩阵X随后由多头注意(MHA)机制处理。路径规划中的多头注意机制如图4所示。
矩阵X被线性映射以生成查询Q、键K和值V向量。假设有h个注意头,每个注意头i的线性映射可以表示为:
接下来,将这个多头矩阵与前面提到的X矩阵连接起来,生成形状为n × 200的Y矩阵。然后使用连接的Y矩阵来计算机器人的线速度和角速度。这描述了MAP-DDPG网络中Actor网络的处理流程,与Critic网络的结构和处理流程在很大程度上相似。然后用形状为n × 200的组合Y矩阵计算线速度和角速度。上面的描述涵盖了MAP-DDPG网络中的演员网络,评论家网络遵循类似的结构。
在MAP-DDPG网络中,多头注意机制通过对来自多个环境的输入特征进行加权处理,增强了特征提取和信息集成能力。与单头注意机制相比,多头注意机制在提取关键特征和整合信息方面更为强大。具体而言,它可以同时从环境中的不同注意头中提取多个关键特征,使模型能够更全面地捕获信息,并在各种环境中表现出更大的适应性。这种并行处理方法使多头注意机制能够在多个环境输入中识别和关注重要特征,同时也降低了对噪声和无关信息的敏感性。相比之下,单头注意机制通常侧重于输入的特定方面,这可能导致环境信息的不完全捕获,可能影响决策的准确性和策略的稳健性。
此外,MAP-DDPG网络优化了特征表示融合策略。该框架在多头注意机制处理特征的基础上,将原始输入特征与注意机制提取的环境特征的相关向量相结合。该融合策略既保留了原始输入特征的丰富信息,又融合了注意机制提取的相关特征,增强了特征表示的多样性和深度。具体来说,这种融合策略带来了两个主要改进:第一,保留原始输入特征,确保模型在处理复杂和动态场景时不会丢失可能影响路径规划的关键细节;其次,通过整合多个环境输入特征的相关向量,该模型可以识别和利用不同环境下的公共信息,从而提高决策的一致性和准确性。
综上所述,MAP-DDPG网络通过将多头注意机制与环境特征相关向量的融合相结合,为路径规划提供了更加精确和高度通用性的解决方案,在处理复杂环境转换和实际应用方面具有显著优势。
4.3奖励功能的设计
在本研究中,专门设计了一个复合奖励函数,用于未知复杂环境下的智能体路径规划。该功能将DDPG框架与多头自关注(MHA)和优先体验回放(PER)相结合,以提高移动机器人在向目标导航时的效率和安全性。如图4所示,MAP-DDPG网络接收与周围环境相关的输入特征,这些特征由配备激光测距仪(LiDAR)的移动机器人捕获。10束激光测得的平均距离数据用d(d1, d2,…)表示。d10)。变量θyaw表示机器人的当前偏航角,来源于里程表,而θtarget表示相对于目标的方位角。角度θ航向表示代理当前航向和目标方向之间的差值。θobs表示最近障碍物相对于agent的方位角,(dobs)表示到最近障碍物的距离。变量dcurrent表示代理到目标的当前距离。MAP-DDPG网络生成移动机器人的运动策略,包括线速度vellin和角速度velang。
为了使移动机器人沿着最优路径高效地前进,航向调整奖励是一个至关重要的组成部分。我们计算航向调整奖励rtr如式(11)、(12)所示:
角度θ航向表示智能体当前航向与目标方向的差值(如图5所示)。公式(11)使用条件语句对角度θ航向进行归一化,以确保计算出的角度差值保持在[−π, π]范围内。式(12)定义了基于角度差的奖励函数rtr,其形式为角度差的负指数函数。该奖励函数使奖励值随着角度差的增大而迅速减小,从而激励agent尽量减小与目标方向的角度差。这种设计促进了快速准确的航向调整,提高了导航的精度和效率。
在移动机器人端到端路径规划中,航向调整奖励起着至关重要的作用。通过鼓励机器人直接向目标调整,不仅有效缩短了到目标点的路径长度,提高了路径规划效率,而且支持了机器人在动态环境中对新的障碍物和路径约束的适应能力。此外,这种奖励机制减少了路径上不必要的转弯,使轨迹更平滑,并有助于节省能源。保证了机器人能够灵活地调整方向,高效地到达目标点。
距离比奖励是为了鼓励移动机器人减少到目标点的距离,从而提高到达目标点的效率。这种奖励机制确保机器人在接近目标时获得更大的奖励,从而激励机器人选择最短路径。这个奖励的数学表达式可以表示为:
式(14)中,dcurrent表示机器人当前位置到目标点的实际距离,如图5所示。Dgoal是从起点到目标点的直线距离。公式中的负号确保随着电流的减小,即机器人越来越接近目标点,奖励值增加。C代表一个用来放大奖励的常数。在这个公式中使用指数函数允许在不同距离水平上非线性缩放奖励,这意味着随着机器人越来越接近目标点,减少距离的好处也会增加。在目标附近每减少一个单位的距离就会获得更大的奖励。该设计促进了路径规划过程中的效率优化,促使机器人快速、直接地向目标点移动。
在移动机器人端到端路径规划问题中,确保路径的安全性与优化路径以提高到达目标点的效率同样重要。为此,我们在奖励函数中引入障碍惩罚项,旨在防止机器人与障碍物碰撞,从而提高路径规划过程的整体安全性。障碍罚则由式(15)计算如下:
Dobs表示到最近障碍物的距离,θobs表示最近障碍物相对于agent前进方向的方位角。α和β是用于控制惩罚强度和衰减率的调谐因子。当障碍物在机器人正前方时,θobs≈0,|cos(θobs)|接近于1,因为障碍物直接阻碍了机器人前进的路径,因此受到的惩罚最大。障碍物距离越近,罚分越大,反映了紧急避障的需要。参数α控制基本惩罚强度,而β调节惩罚随距离的衰减,允许这些参数根据特定的应用环境进行调整,以适应不同的导航任务和安全要求。该机制有效地提高了路径规划的安全性,降低了碰撞的可能性,保证了移动机器人在复杂环境下的稳定运行,使其能够高效地完成任务。
在移动机器人路径规划中,到达目标点是整个任务的最终目标。为了鼓励机器人准确、快速地到达指定位置,有必要设计一个专门针对到达目标点的奖励机制。该奖励定义如式(16)所示。
rarr表示到达目标点的奖励函数,dcurrent表示智能体到目标点的当前距离,darr为阈值距离。如果电流小于该阈值,则认为agent已经到达目标点,并给予奖励;否则,奖励设置为零。
在移动机器人路径规划任务中,除了奖励机制外,设计良好的惩罚机制也同样重要,特别是在安全和避碰方面。碰撞惩罚是一种旨在防止机器人与环境中的障碍物或墙壁接触的措施。
其中,rcol表示与障碍物碰撞时的惩罚函数,dobs表示agent与最近障碍物的当前距离,dcol为阈值距离。如果dobs小于该阈值,则认为agent与障碍物发生碰撞,并进行处罚;否则,处罚设置为零。
在本研究提出的端到端路径规划模型中,总奖励由以下关键组成部分积分计算,如式(18)所示:
这里,rtr鼓励机器人进行有效的航向调整,使其更直接地面对目标点,优化路径效率,减少不必要的转弯。Rdis奖励机器人缩短到目标点的距离,激励机器人选择最短可行路径,提高到达目标的效率。当机器人离障碍物太近时,Robs会进行处罚,提示机器人保持安全距离,避免碰撞,从而确保路径的安全。Rarr在机器人成功到达目标点时提供一次性的显著正向奖励,增强了机器人完成任务的能力。最后,如果机器人与障碍物发生碰撞,rcol会对机器人进行实质性的惩罚,提高机器人在避障和确保路径安全方面的学习效率。
5.实验和分析
5.1实验准备
为了验证MAP-DDPG算法的有效性,我们在配备Intel i7-13500 CPU (Intel, Santa Clara, CA, USA)和Nvidia GeForce RTX 4080 GPU (Nvidia, Santa Clara, CA, USA)的平台上进行了实验。相关实验参数详见表1。如图6所示,我们使用ROS 1/Gazebo 7构建了一个移动机器人导航仿真场景,模拟了一个真实的室内环境。基于这种情况,我们开发了一个结合动力学和运动学特性的移动机器人模型。该算法是使用Python 3.6和PyTorch框架实现的。
他的研究基于三个关键指标来评估所提出的路径规划算法:成功率、到达目标的时间和训练时间。首先,到达目标的成功率和时间反映了算法在不同新环境下的泛化和执行效率。具体来说,成功率衡量了算法在新环境中可靠地引导机器人从起点到目标的能力。成功率越高,说明系统的适应性和可靠性越高。当机器人中心与红色方块中心之间的距离小于10cm时,认为机器人成功到达目标点。为了保证模型在各种环境下的适应性和泛化性,我们采用了多环境训练策略。
在该策略中,机器人在多个不同的复杂环境中进行训练,每个环境都具有各种动态和静态障碍物。每个环境中的地形都是不同的,模拟了现实世界场景中的多样性。在这些环境中,随机生成7-10个静态障碍物和1-2个动态障碍物,它们的位置也是随机的。通过在这些不同的环境中训练,我们的模型可以有效地学习和优化路径规划策略,从而在现实场景中表现出更强的泛化能力。
图8显示了其中一个训练环境中的过程,其中红线表示机器人的路径。粉色方框内的区域为路径规划的起始位置,红色方框内的区域为目标点。在图8b中,机器人成功避开移动障碍物;在图8c中,机器人避开一堵墙;最后,在图8d中,机器人到达目标点。这种多环境训练方法有望使我们的模型在面对现实世界中的各种挑战时表现得非常好,展示出增强的适应性和泛化能力。
本研究基于三个关键指标:成功率、到达目标时间和训练时间来评估所提出的路径规划算法。首先,到达目标的成功率和时间反映了算法在不同新环境下的泛化和执行效率。具体来说,成功率衡量了算法在新环境中可靠地引导机器人从起点到目标的能力。
成功率越高,说明算法在各种环境中的适应性和可靠性越高。到达目标的时间表示机器人成功到达目标点时生成路径的效率;更短的时间表明该算法可以更快、更有效地规划路径。另一方面,训练时间用于评估算法的训练效率,反映算法在训练过程中达到最优策略所需的时间。训练时间越短,学习过程收敛速度越快,学习效率越高。
5.2算法分析
为了验证所提出算法的性能,我们在Gazebo仿真环境中进行了2200集训练的仿真,并比较了四种不同算法的结果:基线DDPG算法;在多个复杂环境下训练的M-DDPG算法;MA-DDPG算法,融合了多头注意(MHA)机制;MAP-DDPG算法,该算法进一步引入了优先体验重放(priority Experience Replay, PER)。通过训练和测试,分析了各算法在路径规划任务中的性能。
图9显示了在图6所示的复杂仿真环境中,基本DDPG算法和提议的M-DDPG、MA-DDPG和MAP-DDPG算法在路径规划训练过程中每10000步返回的平均奖励。蓝线表示基本DDPG算法,绿线表示M-DDPG算法,黄线表示MA-DDPG算法,红线表示MAP-DDPG算法。
专注于训练期间对政策改进最关键的學習经验。此外,通过對输入信息进行加权,多头注意力(MHA)机制增强了模型感知环境变化的能力,从而提高了其在不同环境中的适应能力,并进一步提升了训练效率。具体来说,MAP-DDPG算法需要345,856个训练步骤,而DDPG算法需要353,264个步骤,这表明与单环境DDPG算法相比,MAP-DDPG在收敛速度上也有提升(如表2所示)。
为了进一步验证这四种算法在新的复杂环境中的有效性,我们在图10所示的模拟环境中针对多个目标点进行了50次测试。表3给出了不同算法的成功率和到达目标点所需时间的比较。这些结果揭示了不同算法在新环境下的性能差异,特别是在路径规划任务的效率和有效性方面。表中的数据表明,本文提出的MAP-DDPG算法性能最好,与传统的DDPG算法相比,成功率提高了30%,到达目标点的平均时间缩短了23.7 s。
具体而言,新环境下DDPG的成功率为58%,平均达到目标时间为52.3 s。在多环境训练下,M-DDPG算法的成功率提高了10%,平均到达目标的时间缩短了8.2 s。这表明在新的复杂环境中,多环境训练可以提高路径规划算法的泛化和执行效率。
进一步将多头注意(MHA)机制融入到M-DDPG框架中,与M-DDPG相比,MA-DDPG算法的成功率提高了18%,平均到达目标的时间缩短了13.9 s。这说明多头注意机制通过对输入信息进行加权处理,显著增强了模型对环境变化的感知能力,从而提高了模型在不同环境下的泛化和执行效率。
通过比较不同算法在新环境下的性能,本研究验证了MAP-DDPG算法在路径规划任务中的显著优势。引入多头注意机制(MHA)和优先体验重放(PER)机制,显著提高了模型的成功率和执行效率,进一步证明了这些增强对复杂环境下路径规划的有效性。
为了验证图6所示仿真环境中训练的模型在新的和复杂环境中的路径规划性能,我们在多个新环境中进行了30次测试。图10展示了使用三种不同路径规划算法(DDPG、M-DDPG和MAP-DDPG)的移动机器人在新环境中的运动轨迹和性能。在实验过程中,Rviz订阅了移动机器人的Odom发布的里程表信息,将机器人在每个时刻的姿势信息可视化为绿色箭头。
这些结果表明,多复杂环境下的并行训练策略可以使模型暴露于广泛的可能场景和情境中,从而在面对新环境时表现出更强的泛化能力。这种训练方法不仅保证了模型在已知环境中的优异性能,而且使模型在未知或不可见的环境中也能有效地发挥作用。此外,多头注意(Multi-Head Attention, MHA)机制的引入使模型能够更准确地识别和处理关键环境信息,显著增强了模型对环境变化的感知,从而提高了模型在复杂环境中的适应性。这一改进进一步验证了MAP-DDPG算法在复杂路径规划任务中的显著优势。
5.3和其他算法比较
为了验证本文提出的算法的性能,我们将其与近期文献中的几种算法进行了实验比较[34,35]。在图6所示的模拟环境中,每个算法都经历了2200集的训练。随后,为了评估这三种算法在新的、更复杂的环境中的性能,我们分别测试了50次,针对图11所示的模拟环境中的多个目标点。表4给出了不同算法的成功率和达到目标点所需时间的比较,清楚地反映了处理复杂环境的性能差异,特别是在路径规划任务的效率和有效性方面。
本文提出的MAP-DDPG算法在成功率方面表现最好,达到86%。相比之下,[34]中的算法成功率为72%,[35]中的算法成功率为70%。这表明MAP-DDPG在复杂环境下的成功率明显优于其他两种算法。MAP-DDPG在到达目标点的平均时间上也有明显的优势,平均为35.2 s,而[34]和[35]中的算法分别为43.6 s和40.5 s。
这表明MAP-DDPG不仅在成功率上优于其他算法,而且在路径规划效率上也很出色。通过将本文提出的MAP-DDPG算法与其他先进算法在复杂环境下的性能进行比较,验证了MAPDDPG算法在路径规划任务中的显著优势。引入多头注意机制和优先体验重播,有效提高了模型的成功率和执行效率,证明了该算法在复杂路径规划任务中的出色性能。
为了验证图4所示仿真环境中训练的模型在新的复杂环境中的路径规划性能,本文在各种新环境中进行了30次测试。图8展示了移动机器人在新环境中使用三种不同路径规划算法的轨迹和性能:MAP-DDPG,[34]中提出的算法和[35]中提出的算法。在实验过程中,使用Rviz订阅移动机器人发布的测程数据,以坐标轴的形式将机器人在每个时刻的姿态信息(用绿色箭头表示)可视化。如图8所示,当使用[34]中提出的算法时,机器人的路径最长,不能像[35]中的算法和本文提出的MAP-DDPG算法那样有效地缩短路径。此外,在路径灵活性方面,MAP-DDPG算法也明显优于其他两种算法。
这些结果表明,与文献中的其他算法相比,MAP-DDPG算法在新的复杂环境中表现出更好的适应性和路径规划能力。通过在多个复杂环境下的并行训练,该模型在面对新环境时表现出更强的泛化能力。多头注意(MHA)机制的引入使模型能够更有效地识别和处理关键环境特征,提高其感知环境变化的能力。这大大提高了模型在复杂环境下的适应性和路径规划性能。
5.4算法的实际性能
我们进一步将MAP-DDPG和DDPG算法应用于两个场景:场景1(静态障碍物)和场景2(静态和动态障碍物)。实验结果如图12所示,其中红线表示移动机器人的完整导航路径,黄框表示机器人的起始点,红圈表示目标点。蓝线表示动态障碍物穿过的路径。从实验结果来看,很明显,在现实环境中,由于传感器精度较低和网络延迟等问题,模拟环境中训练模型的性能可能并不总是直接转化为现实场景。在场景1中,两种算法都成功完成了导航任务,但MAP-DDPG算法生成的路径更加优化,具有更好的路径规划能力。在场景2中,只有MAP-DDPG算法成功完成了导航任务,而DDPG算法无法避开动态障碍物。实验结果表明,与DDPG算法相比,MAP-DDPG算法在实际环境中表现更好,具有更高的成功率和更优的路径规划能力。总体而言,MAP-DDPG算法在导航和路径优化方面明显优于DDPG算法,显示了其在复杂现实环境中的潜在应用价值。
原文链接: https://www.mdpi.com/2079-9292/13/18/3746?type=check_update&version=1