自动驾驶深度学习模型的SOTIF优化方案
摘要
确保自动驾驶系统中深度学习模型的安全性至关重要。为符合汽车安全标准 ISO 21448,我们提出将不确定性作为一种新的补充评估标准,以确保基于深度学习的系统的预期功能安全性(SOTIF)。为评估和改进自动驾驶系统的轨迹预测功能,考虑到资源和响应时间的限制,我们采用认知不确定性作为评估标准,该不确定性通过单前向传播模型进行量化。基于 CARLA 模拟器收集的数据进行的实验结果表明,不确定性标准能够检测出未知驾驶场景中具有潜在危害性的功能缺陷,并最终促使模型进行额外学习。
1、引言
在机器学习领域,深度学习在过去十年中取得了多项技术突破,其在各类任务中的性能迅速提升。如今,深度学习被广泛应用于感知和规划子系统的实现,推动了高级驾驶自动化的发展。目前,除深度学习的性能外,不确定性问题也正受到严肃关注。在自动驾驶领域,不确定性问题同样值得探讨。
安全性是汽车最重要的考量因素。因此,汽车行业遵循 ISO 26262 和 ISO 21448 等汽车安全标准进行汽车研发。ISO 26262 旨在确保系统的功能安全,而 ISO 21448 旨在确保系统的预期功能安全性(SOTIF)。ISO 26262 仅处理深度学习模型软件层面的故障。ISO 21448 的发布是为了弥补 ISO 26262 覆盖范围的不足,它主要针对模型预期功能中的缺陷。ISO 26262 强调,应明确规定深度学习训练和测试的合格 / 不合格标准。然而,深度学习模型具有非线性特征且缺乏形式化验证方法,要对其进行全面验证难度极大,因此需要补充验证手段。
深度学习存在不确定性问题,ISO 21448 虽简要提及了机器学习的不确定性,但在自动驾驶系统的设计中,并未积极考虑这一具有潜在危险性的不确定性问题。本文提出,通过量化自动驾驶所用深度学习模型输出的不确定性,将其用作深度学习模型的合格 / 不合格标准,以及驾驶控制权的备用标准。第 2 节将阐述安全标准、不确定性类型及不确定性量化方法。第 3 节将介绍不确定性量化在自动驾驶轨迹预测功能中的应用方法,并呈现实验结果。第 4 节将讨论未来工作并总结全文。
2、背景与相关工作
2.1 汽车安全标准
ISO 26262
ISO 26262 是一项通过确保功能安全来指导汽车系统开发的国际标准。根据 ISO 26262,安全目标会被分解为功能安全要求,系统的开发需满足这些规范。为防止故障引发的危险演变为不合理风险,必须实施符合功能安全要求的安全措施。通过验证和确认这些安全措施满足要求,可确保汽车系统的功能安全。
如果将高级驾驶辅助系统(ADAS)和自动驾驶系统中的深度学习模型视为一种通过一系列计算操作接收输入并生成输出的软件,那么遵循 ISO 26262 可通过检查软件架构或代码是否存在问题,确保模型的功能安全。但通过深度神经网络训练完成的深度学习模型,其范式与现有汽车软件完全不同。深度学习的预测过程和性能限制并不直观,难以在规范中进行解释说明。仅依靠现有的 ISO 26262 标准,无法使基于深度学习的软件确保汽车的安全性。
ISO 21448
为弥补 ISO 26262 的覆盖范围缺陷,针对 SOTIF 的 ISO 21448 标准应运而生。ISO 21448 假设功能安全已得到保障,主要解决无故障系统中可能出现的风险。系统的功能缺陷可能导致危害,进而引发风险。ISO 21448 旨在通过尽可能降低不合理风险,实现预期功能安全性(SOTIF)。在 SOTIF 工作流程中,会定义验收标准,以证明已识别危险不存在不合理风险。通过在已知和未知场景中进行测试等验证工作,提供充分可信的证据证明已达到验收标准,即可确保 SOTIF。有关 SOTIF 活动的详细信息,可参见附录 A 中的图 2 和图 3。
明确深度学习模型的 SOTIF 保障标准,与通用汽车软件的情况有所不同。例如,在执行目标检测或分类任务的深度学习模型中,训练和测试阶段可将误报率和漏报率用作合格 / 不合格标准。在车辆层面,可将单位行驶距离内的事故率作为判断感知子系统预期功能是否存在功能缺陷的标准。但要提供 SOTIF 的相关证据,还需要补充标准来验证可解释性较低的深度学习模型。在这种情况下,不确定性可作为一个候选标准。
2.2 不确定性类型
分类器模型在做出预测的同时输出的概率向量,难以作为衡量对分布外输入数据所生成输出的置信度的有效指标。要评估深度学习模型在任意分布下的安全性,需要对输出的不确定性进行量化。
随机不确定性
随机不确定性是对由传感器噪声和驾驶环境随机性导致的数据模糊性进行量化的指标。由于噪声和随机性是数据固有的属性,因此增加训练数据量无法降低随机不确定性。鉴于其不可约性,随机不确定性并非本文的主要研究范围。
认知不确定性
认知不确定性是对模型解释数据所需知识的缺失程度进行量化的指标。换句话说,它体现了训练数据分布无法准确逼近真实世界的局限性。通过将之前未见过的数据作为额外训练数据提供给模型并更新模型,可降低认知不确定性。
2.3 不确定性量化方法
目前主流的不确定性量化方法可分为四类:贝叶斯模型、蒙特卡洛 dropout、深度集成和确定性单前向传播方法。这些方法的实现方式差异显著,且各具特点,因此建议根据应用的领域和任务选择最合适的方法。表 1 总结了这四种方法的特性对比。

表 1、主流不确定性量化方法的特性总结
已有部分研究将不确定性量化应用于自动驾驶领域,其中大部分采用了深度集成架构。但与典型的深度神经网络相比,深度集成存在一定的权衡 —— 构成集成的多个网络必须同时进行训练和推理,这在带来收益的同时也存在效率低下的问题。由于自动驾驶系统运行在边缘硬件上,要求以尽可能少的资源和计算能力运行。此外,出于安全考虑,还要求以尽可能短的运行时间提供快速响应。综合效率因素,我们认为参数数量少、计算负担低的确定性单前向传播方法更为合适,因此选择了当前主流方法之一的深度确定性不确定性(DDU)作为本文的不确定性量化方法。
3、不确定性作为基于深度学习的轨迹预测模型SOTIF的评估标准
我们将不确定性量化应用于自动驾驶决策所需的关键功能 —— 轨迹预测中。首先,我们从 CARLA 模拟器收集驾驶数据作为数据集。模型的输入数据包括车辆的状态向量和表示车辆周围环境的鸟瞰图图像。我们仅使用单个模型进行训练和推理。该模型基于 ResNet 架构,残差块和谱归一化通过良好地正则化特征空间并将对输入的敏感性维持在适当水平,提高了模型的泛化能力。有关数据集和网络架构的详细信息,可参见附录 B。
我们的模型预测每辆车的未来速度和未来偏航角。我们将速度和偏航角的连续值划分为多个小区间,模型将预测概率最高的那个区间类别作为结果。除获取预测结果外,通过将验证数据输入冻结的模型,我们还可以分别得到两个表示速度和偏航角特征空间的高斯混合模型(GMM)。有关所获高斯混合模型(GMM)的详细信息,可参见附录 C 中的图 4。所得到的高斯混合模型(GMM)通过高斯判别分析(GDA)用于量化预测速度和偏航角的认知不确定性。认知不确定性是由高斯混合模型(GMM)等密度模型表示的特征空间的边际似然。我们对预测的速度和偏航角进行插值,以计算未来轨迹。如果速度的不确定性较高,则可解释为轨迹的纵向不确定性较高;如果偏航角的不确定性较高,则可解释为轨迹的横向不确定性较高。图 1 描述了在轨迹预测任务中量化不确定性并将其用作 SOTIF 标准的工作流程。

如图 1 所示、该图为所提出的将量化不确定性用作深度学习模型轨迹预测任务 SOTIF 评估合格 / 不合格标准的简化工作流程
如第 2 节所述,深度学习模型的评估应在已知和未知场景中均进行。对于已知场景,可将深度学习模型评估中常用的指标定义为目标要求。而对于未知场景,由于现实世界中存在大量长尾案例,提前设定标准难度较大。例如,无法为自动驾驶车辆可能遇到的所有驾驶场景制定标准。ISO 26262 仅建议通过大量测试来减少未知场景,并将累积测试时长和场景类型作为标准。
我们提出,认知不确定性可作为识别未知场景的标准。将其应用于我们的深度学习模型时,在评估过程中,如果模型在特定场景下提供的预测轨迹的认知不确定性被估计为较高,则可解释为由于模型知识不足导致预测错误,该场景下自动驾驶功能可能会失效。作为模型的合格 / 不合格标准,认知不确定性可作为未知场景中是否需要额外训练的指标。在我们的实验中,高速公路环境属于模型的分布外场景。表 2 显示,高速公路场景中的不确定性测量值较高,可被判定为未知场景,且经过额外训练后,不确定性可降低。有关实验结果示例,可参见附录 D 中的图 5 和图 6。

表 2、两种不同驾驶场景下的认知不确定性均值对比。我们对不确定性进行归一化处理,使其值大于 0。认知不确定性均值是场景执行时间内量化不确定性的平均值。该值为相对值,以已知场景中的数值为 1
如果模型被判定为满足合格 / 不合格标准且确保了 SOTIF,则该模型将被部署为自动驾驶系统并在现实世界中运行。自动驾驶车辆可能会遇到违反 SOTIF 的长尾案例。由于深度学习模型设计为即使在因知识不足而存在不确定性的情况下也能产生输出,因此可能会做出错误预测。在这种情况下,认知不确定性可作为备用机制的启动信号。当估计的不确定性较高,预计会出现功能缺陷或潜在危害时,为防止事故发生,系统可将控制权移交给人类驾驶员或采取紧急措施。有关不确定性作为 SOTIF 活动中标准的详细信息,可参见附录 A 中的图 3。
4、结论
在轨迹预测任务中,我们通过单前向传播深度学习模型对不确定性进行量化,并将其用作 SOTIF 评估的标准。如果认知不确定性超过设定标准,则认为该场景可能存在潜在危险,因此我们会收集额外数据并进行额外训练。实验结果表明,不确定性有望用作判断自动驾驶系统在未知场景中功能缺陷的标准。
已有研究利用不确定性对端到端自动驾驶系统进行在线学习。不确定性量化在自动驾驶系统的评估和学习中似乎具有应用潜力。但对于不确定性量化过程中产生的资源和时间消耗问题,仍需进一步研究解决。
附录
A ISO 21448 中描述的预期功能安全性(SOTIF)活动
预期功能安全性(SOTIF)活动的目标是最大限度增加已知场景的数量,同时最大限度减少危害场景的数量。因此,通过扩大已知场景集合,安全置信度将得到提升;通过减少危害场景集合,残余风险将有所降低。这些活动最终将确保预期功能安全性(SOTIF)的实现。图 2 展示了随着预期功能安全性(SOTIF)活动的推进,场景的演变过程。

图 2、预期功能安全性(SOTIF)活动带来的场景演变
圆形代表场景集合的分布情况,圆形周围的箭头表示由于预期功能安全性(SOTIF)活动而导致的场景集合增减。场景分为四类:已知安全场景、未知安全场景、已知危害场景和未知危害场景。
我们认为,在 ISO 21448 标准中构成预期功能安全性(SOTIF)活动的两个阶段中,均可利用不确定性。在未知场景评估阶段,不确定性可作为深度学习模型的合格 / 不合格判定标准;而在运行阶段活动中,不确定性可作为基于深度学习模型的自动驾驶系统的备用判定标准。图 3 展示了不确定性在预期功能安全性(SOTIF)活动中的适用性。

图 3、不确定性作为基于深度学习模型的自动驾驶系统的合格 / 不合格标准及备用标准,在预期功能安全性(SOTIF)活动中的适用性
该部分用红色虚线框标记。
B 数据集与网络架构详情
我们的车辆状态向量数据是在 CARLA 模拟器上以 20Hz 的频率采集的。表 3 列出了状态向量的数据构成。训练数据的采集环境为 Town03 地图,这是一个城市环境,包含最多 4 车道的道路、多个十字路口和环岛;用于在未知场景中评估模型的数据,其采集环境为 Town06 地图,这是一个高速公路环境,包含最多 12 车道的道路。
鸟瞰图图像并非直接从 CARLA 模拟器采集,而是利用收集到的道路和车辆数据抽象绘制而成。该鸟瞰图图像通过标注每条车道的虚拟中心线来展示道路结构,同时也会显示距离某一车辆一定范围内的周边车辆。

表 3、从 CARLA 模拟器采集的车辆状态向量的数据构成
我们使用训练数据集中未包含的驾驶环境数据,来评估未知场景中认知不确定性是否会升高。尽管本研究使用预处理后的仿真数据作为输入,但我们的预测模型仍有潜力与处理传感器原始数据的感知模型集成,从而构建完整的自动驾驶系统。
我们基于 ResNet 的模型深度较浅,由 4 个卷积块和随后的 4 个全连接块组成。每个块包含 2 层,且块与块之间存在残差连接。每一层都应用了谱归一化。卷积块的第一层以鸟瞰图图像作为输入;全连接块的第一层以一个向量作为输入,该向量由展平后的卷积特征图与状态向量拼接而成。
C 表征预测模型特征空间的高斯混合模型(GMM)
我们利用网络最后一层(即输出层)的输入 —— 特征嵌入,计算了类别层面的均值和协方差,然后将高斯混合模型(GMM)拟合到这些类别上。构成高斯混合模型(GMM)的高斯分布数量与类别数量一致。图 4 展示了通过主成分分析(PCA)得到的、表征我们预测模型特征空间的高斯混合模型(GMM)的二维和三维可视化结果。

图 4、表征模型特征空间的高斯混合模型(GMM)的二维与三维可视化
(a)速度高斯混合模型(GMM)的二维投影 (b)偏航角高斯混合模型(GMM)的二维投影(c)速度高斯混合模型(GMM)的三维投影 (d)偏航角高斯混合模型(GMM)的三维投影
D CARLA 仿真中预测轨迹与量化不确定性的示例

图 5、CARLA 模拟器 Town03 地图(城市环境)中的预测轨迹与量化不确定性
由于该环境是模型经过训练的环境,因此不确定性较低,轨迹预测结果正常。

图 6、CARLA 模拟器 Town06 地图(高速公路环境)中的预测轨迹与量化不确定性
由于该环境是模型未经过训练的环境,因此不确定性较高,轨迹预测结果与实际情况存在偏差,属于预期功能安全性(SOTIF)视角下的未知危害场景。
