Diffusion-Based Planning for Autonomous Driving with Flexible Guidance论文细读
1)粗看
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决自动驾驶领域中的一个关键挑战:在复杂开放世界环境中实现类似人类的驾驶行为。具体来说,论文旨在解决以下几个问题:
-
多目标平衡与安全保障:现有的基于学习的规划方法,如模仿学习方法,base-learning往往难以平衡竞争目标并且在学习人类规划中常见的复杂多模态行为方面存在局限性,更不用提它们对预定义规则的强烈依赖性。
-
适应性与多模态行为:人类驾驶员在规划场景中常常表现出多模态行为,而现有方法依赖于行为克隆,缺乏对这种复杂数据分布的拟合保证。
-
面对分布外(OOD)场景的规划质量:直接使用模型输出可能导致规划结果质量低下,迫使许多方法依赖于基于规则的方法进行轨迹优化或筛选,这不可避免地面临与基于规则方法相关的固有局限性。
-
个性化与灵活性:模仿学习单独不足以捕捉自动驾驶所需的广泛驾驶行为。此外,训练有素的模型可能难以根据特定需求调整行为。
为了解决这些问题,论文提出了一个基于扩散模型(Diffusion Planner)的新型学习框架,用于闭环规划。该框架能够有效模拟多模态驾驶行为,并确保轨迹质量,无需任何基于规则的精细化处理。此外,通过学习轨迹评分函数的梯度并采用灵活的分类器引导机制,Diffusion Planner实现了安全、可适应的规划行为。
综述:learningbase或者rulebase,再或者mixrule-learningbase无法具有多目标(保持车速,避免碰撞,遵守交规)的平衡,规划结果单一且缺乏灵活性(交叉口,驾驶员根据交通状况可以左转,右转,直行等),ODD外场景规划质量低下。也无法做到千人千面的个性化和灵活性。
Q: 有哪些相关研究?
A: 根据论文内容,相关研究主要分为以下几个领域:
-
基于规则的规划方法(Rule-based Planner):
- 这类方法依赖于预定义的规则来指导自动驾驶车辆的驾驶行为,提供高度可控和可解释的决策过程。
- 相关研究包括:Treiber et al. (2000a; 2000b), Fan et al. (2018), Dauner et al. (2023a)。
-
基于学习的规划方法(Learning-based Planner):
- 这类方法通过模仿学习直接从数据集中克隆人类驾驶行为,成为自动驾驶中流行的解决方案。
- 相关研究包括:Hu et al. (2023), Tampuu et al. (2020), Chen et al. (2023)。
-
扩散模型在相关领域的应用(Diffusion-based Methods Used in Related Domain):
- 扩散模型最近在决策领域被探索,但在自动驾驶规划中的使用尚未被充分探索。
- 相关研究包括:Janner et al. (2022), Chi et al. (2023)。
-
自动驾驶和闭环规划(Autonomous Driving and Closed-Loop Planning):
- 涉及自动驾驶的主要目标是允许车辆在最小人类干预的情况下导航复杂环境,其中闭环规划是一个关键挑战。
- 相关研究包括:Caesar et al. (2021), Ngiam et al. (2021), Zhou et al. (2023)。
-
扩散模型和引导方案(Diffusion Model and Guidance Schemes):
- 扩散概率模型是一种通过逆转一个称为前向扩散过程的马尔可夫链过程来生成输出的生成模型。
- 相关研究包括:Sohl-Dickstein et al. (2015), Ho et al. (2020), Song et al. (2021)。
-
分类器引导(Classifier Guidance):
- 分类器引导是一种通过分类器引导采样过程来生成优选数据的技术。
- 相关研究包括:Diffusion Models Beat GANs on Image Synthesis
这些相关研究为论文提出的Diffusion Planner提供了理论基础和技术背景,使其能够在自动驾驶的闭环规划中实现高性能和灵活性。
Q: 论文如何解决这个问题?
A: 论文通过提出一个基于扩散模型(Diffusion Planner)的新方法来解决自动驾驶中的闭环规划问题。以下是该方法的关键解决方案:
1. 基于扩散模型的规划器(Diffusion Planner)
-
多模态行为建模:扩散模型能够模拟复杂的数据分布,有效捕捉人类驾驶中的多模态行为。
-
无需规则精炼:扩散模型的高质量生成能力提供了改善输出轨迹质量的机会,消除了对基于规则的精细化处理的依赖。
2. 灵活的分类器引导机制
- 个性化规划行为适应:通过学习轨迹评分函数的梯度并采用分类器引导机制,Diffusion Planner能够实现安全、可适应的规划行为,无需额外训练。
3. 网络架构设计
- 基于扩散的Transformer架构:提出了一个新的网络架构,建立在扩散Transformer之上,联合训练预测和规划任务,实现车辆间的协作行为。
4. 任务重新定义
- 未来轨迹生成任务:将自动驾驶中的规划任务重新定义为未来轨迹生成任务,联合生成自我车辆的规划和邻近车辆的预测。
5. 规划行为对齐
- 通过分类器引导实现规划行为对齐:利用分类器引导在推理时添加额外的指导,以强化一些优选的行为,如安全、舒适性或控制车辆速度。
6. 实际实施细节
-
数据增强和归一化:使用数据增强和归一化技术提高模型对分布外问题的鲁棒性,并稳定训练过程。
-
快速采样和低温度采样:在推理时使用DPM-Solver实现快速采样,低温度采样增强规划过程的确定性。
通过这些解决方案,Diffusion Planner能够在大规模真实世界的自动驾驶规划基准测试nuPlan和新收集的200小时送货车驾驶数据集上实现最先进的闭环性能,并展示出在不同驾驶风格中的鲁棒性和可转移性。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来验证Diffusion Planner的性能和有效性:
1. 基准测试评估
- nuPlan数据集:在大规模真实世界的自动驾驶规划基准测试nuPlan上进行评估,使用Val14 (Dauner et al., 2023b), Test14-hard, 和Test14基准,在闭环非反应模式和反应模式下测试。
- 送货车驾驶数据集:收集了200小时的真实世界数据,使用Haomo.AI的送货车,该数据集涵盖了不同的城市驾驶场景,并验证模型在不同驾驶风格中的可转移性和鲁棒性。
2. 与现有方法的比较
- 将Diffusion Planner与三组基线方法进行比较:基于规则的方法、基于学习的方法和混合方法。包括IDM、PDM、UrbanDriver、GameFormer和PlanTF等。
3. 定性结果展示
- 展示了代表性基线(无精细化处理)的轨迹生成结果,比较了Diffusion Planner与GameFormer w/o refine、PlanTF和PLUTO w/o refine的性能。
4. 扩散规划器属性的实证研究
- 多模态规划行为:通过多次推断获取不同可能的输出,评估模型拟合多模态驾驶行为的能力。
- 灵活的引导机制:展示了在推理时添加不同类型的分类器引导的效果,包括目标速度维护和舒适性引导。
5. 消融研究
- 训练设计选择:分析了数据处理、自我车辆当前状态的处理方式和预测车辆数量对模型性能的影响。
- 推理设计选择:研究了去噪步骤数量和低温采样大小两个超参数对模型性能的影响。
这些实验全面评估了Diffusion Planner在不同场景下的性能,并与现有技术进行了比较,同时通过消融研究和属性研究深入理解了模型的行为和关键组件的作用。
Q: 有什么可以进一步探索的点?
A: 根据论文内容,以下是一些可以进一步探索的点:
1. 端到端训练管道
- 论文中的方法依赖于矢量化地图信息和邻近车辆的检测结果,这需要一个数据处理模块。未来的工作可以探索如何修改编码器架构,使用图像作为输入,实现端到端的训练管道。
2. 侧向灵活性
- 学习型方法在需要显著侧向移动的场景中表现不佳。未来的工作可以通过增加涉及大侧向进展的数据、利用带有奖励机制的强化学习,或设计更有效的扩散引导机制来帮助模型学习车道变换行为。(变道 需要奖励强化学,或者设计更有效扩散引导机制)
3. 样本效率
- 扩散模型的高性能以牺牲样本效率为代价,需要多次模型推断。未来的工作可以探索使用一致性模型或基于蒸馏的采样方法来进一步提高扩散模型的样本效率。
4. 更复杂的驾驶场景
- 论文中的数据集主要由直线驾驶场景组成,很少出现车道变换或避让操作。未来的工作可以探索如何让模型更好地泛化,并获取这些技能。
5. 更优的分类器引导函数
- 论文中验证了模型支持多种类型的引导,并提供了一些关于能量函数选择的见解和经验。未来的工作可以探索更有效的选项,以优化引导函数。
6. 模型的可解释性和安全性
- 尽管扩散模型在规划质量上表现出色,但其“黑箱”特性可能对模型的可解释性和安全性构成挑战。未来的工作可以探索提高模型透明度和安全性的方法。
7. 跨域泛化能力
- 论文中的方法在一个数据集上训练,并在另一个数据集上测试其泛化能力。未来的工作可以探索如何提高模型在更多样化的环境和不同的驾驶风格中的泛化能力。
8. 实时性能和计算效率
- 考虑到现实世界应用的要求,未来的工作可以探索优化模型的实时性能和计算效率,使其更适合实际部署。
这些探索点可以帮助研究者们进一步提高自动驾驶规划的性能,增强模型的泛化能力和实用性,并推动自动驾驶技术的发展。
Q: 总结一下论文的主要内容
A: 这篇论文提出了一个名为Diffusion Planner的新型学习框架,旨在解决自动驾驶中的闭环规划问题。以下是论文的主要内容总结:
1. 问题陈述
- 实现类似人类的驾驶行为在复杂开放环境中是自动驾驶的一个关键挑战,现有方法在平衡多目标、适应性和安全性方面存在局限性。
2. Diffusion Planner框架
- 提出一个基于扩散模型的规划器,能够模拟多模态驾驶行为,并确保轨迹质量无需规则精炼。
- 利用扩散模型的灵活引导机制实现个性化和灵活的驾驶行为适应。
3. 方法论
- 将规划任务重新定义为未来轨迹生成任务,联合建模自我车辆的规划和邻近车辆的预测。
- 基于扩散Transformer构建网络架构,联合训练预测和规划任务。
- 通过分类器引导调整规划行为以符合安全或用户偏好的驾驶风格。
4. 实验评估
- 在nuPlan和新收集的200小时送货车驾驶数据集上评估Diffusion Planner。
- 与基于规则、基于学习和混合方法的基线进行比较,展示了Diffusion Planner在闭环规划中的性能。
5. 主要贡献
- 首次充分利用扩散模型的潜力,无需过度依赖规则精炼即可实现高性能的运动规划。
- 在真实世界的nuPlan数据集上实现了最先进的性能,并在送货车数据集上展示了模型的可转移性和鲁棒性。
- 通过引导机制实现了运行时的个性化和灵活的驾驶行为。
- 收集并评估了一个新的200小时送货车数据集,并计划开源。
6. 未来工作和局限性
- 论文讨论了模型的局限性,包括对矢量化地图信息的依赖、侧向灵活性和样本效率,并提出了可能的解决方案和未来的研究方向。
-
在Diffusion Planner中,多目标平衡的处理面临一些局限性:
-
矢量化地图信息依赖:
-
Diffusion Planner依赖于矢量化地图信息和邻近车辆的检测结果,这需要一个数据处理模块来转换和利用这些信息。这种依赖性可能限制了模型在不同地图环境下的适应性。
-
-
侧向灵活性:
-
在需要显著侧向移动的场景中,如紧急避让或快速变道,Diffusion Planner的表现可能不如基于规则的方法。这是因为学习型方法通常在这些复杂场景中缺乏足够的训练数据,导致模型难以泛化和获取这些技能。
-
-
样本效率:
-
Diffusion Planner的高性能是以牺牲样本效率为代价的,需要多次模型推断。这可能导致在数据稀缺的场景中,模型的训练和优化变得困难。
-
-
为了解决这些局限性,未来的研究方向可能包括:
-
端到端训练管道:探索如何修改编码器架构,使用图像作为输入,以实现端到端的训练管道,减少对矢量化地图信息的依赖。
-
强化学习的结合:将强化学习与扩散模型结合,以提高模型在复杂场景中的适应性和泛化能力。
-
样本效率的提升:探索使用一致性模型或基于蒸馏的采样方法来进一步提高扩散模型的样本效率。
-
总体而言,这篇论文通过引入扩散模型来增强自动驾驶的闭环规划性能,并展示了其在多样化驾驶风格中的适应性和鲁棒性。
2)细看
待更新
3)代码解读
diffusion_loss_func
函数通过随机采样时间步和噪声,将真实未来轨迹添加噪声,然后将噪声后的轨迹输入模型进行推理,最后根据模型类型计算扩散模型损失,并分别计算邻居预测损失和自车规划损失。这个损失函数用于训练 Diffusion Planner 模型,使其能够学习到如何生成合理的未来轨迹。
在Diffusion Planner中,快速采样和低温度采样是通过使用DPM-Solver实现的。DPM-Solver是一种快速的ODE求解器,能够在少量步骤内生成高质量样本。其核心思想是将扩散模型的采样过程重新formulate为求解常微分方程(ODE)的问题,并通过高阶ODE求解器来加速采样过程。
快速采样通过减少采样步骤来提高效率,而低温度采样则通过调整采样过程中的温度参数来增强规划过程的确定性。低温度采样可以减少样本的随机性,使得生成的轨迹更加稳定和可预测。
在Diffusion Planner中,DPM-Solver被用来实现快速采样,使得模型能够在短时间内完成轨迹规划。同时,低温度采样被用来增强规划过程的确定性,确保生成的轨迹符合预期的驾驶行为。这种采样方法不仅提高了采样效率,还保证了采样质量,使得Diffusion Planner能够在实际应用中实现高效和可靠的自动驾驶规划