端到端智驾测试技术论文阅读
文章目录
- LiRTest--解决极端恶劣天气,自动驾驶感知系统难题
- SoVAR--庞大的仿真测试搜索空间,测试人员的痛点
- Semantic-Guided--庞大的仿真测试搜索空间,测试人员的痛点
- CooTest--V2X协同感知实际可能起到反作用
问题提出:虽然自动驾驶发展很快,但现实中仍然发生了不少事故,而软件缺陷仍然是事故的重要原因
测试方法概括:
实车路测:在封闭测试场或者真实道路中进行。缺点:周期长、成本高、难以覆盖多样化的关键场景。
仿真测试:借助 CARLA 等平台。优点:高保真、可控性强。关键环节:如何对可能导致事故的关键场景进行重建?
发现问题(核心创新):通过各种测试手段(功能、性能、鲁棒性、安全性等)尽早暴露缺陷。
复现问题:确保缺陷能够被稳定重现,便于定位和分析。
闭环问题:将问题提交、修复、回归验证,形成闭环,避免反复出现。
LiRTest–解决极端恶劣天气,自动驾驶感知系统难题
基于规则的雷达感知组件测试技术
LiRTest: Augmenting LiDAR Point Clouds for Automated Testing of Autonomous Driving Systems
LiRTest:增强LiDAR点云,用于自动驾驶系统的自动测试
主要问题提出:
自动驾驶系统(ADS)依赖深度神经网络(DNN),虽然性能不断提升,但由于其黑箱特性和输入空间巨大,仍然可能在现实场景中出现致命错误,因此亟需有效的测试方法。
目前现有的测试方法概括:
现有研究主要集中在 图像领域的测试,通过对驾驶场景图像施加各种变换来发现模型缺陷,例如:
DeepTest:对图像进行雾、雨等滤镜和几何变换,检查模型一致性;
DeepRoad:利用GAN生成不同天气的图像场景;
DeepBillboard:物理世界中的对抗性广告牌攻击。
但是这些现有的测试方法都有问题:
关注点偏差:几乎都针对摄像头图像,很少研究LiDAR点云。
环境敏感性缺失:LiDAR虽能在夜间工作,但对雨、雾、雪等不良环境极其敏感,现实中常见却缺乏系统性测试。
数据收集成本高:真实采集各种恶劣环境下的点云代价巨大。
标注困难:点云人工标注工作量大,极其耗时。
我们的测试方法:
提出 LiRTest ——第一个针对LiDAR点云的自动化ADS测试工具:
- 两类变换算子:
仿射变换 → 几何变化;
物理建模天气变换 → 模拟雨、雾、雪对LiDAR的影响。 - ADS特定的形变关系(Metamorphic Relation, MR):自动判断模型在原始点云和变换点云上的输出一致性,发现潜在错误。
- 自动化测试 + 再训练:
用生成点云发现缺陷;
用这些数据再训练模型,提高其对恶劣环境的鲁棒性。
实验结果:
在四种主流3D检测模型上验证,LiRTest不仅发现了许多潜在错误,还通过再训练显著提升平均精度(AP)。
思考:
我看到这篇论文实验部分造的是机械雷达点云的数据,和我现在做的重复式扫描的雷达点云走tcp注入比较相似。这篇论文是2022年发表的,当时应该还是有很多机械式旋转雷达。但现在重复式扫描的雷达点云密度大,距离远,要考虑的方向可能也会有所不同。
SoVAR–庞大的仿真测试搜索空间,测试人员的痛点
基于交通事故数据的系统及测试场景生成技术
SoVAR: Building Generalizable Scenarios from Accident Reports for Autonomous Driving Testing
SoVAR:从自动驾驶测试的事故报告中构建可泛化的场景
主要问题提出:虽然自动驾驶发展很快,但现实中仍然发生了不少事故,而软件缺陷仍然是事故的重要原因
测试方法概括:
实车路测:在封闭测试场或者真实道路中进行。缺点:周期长、成本高、难以覆盖多样化的关键场景。
仿真测试:借助 CARLA 等平台。优点:高保真、可控性强。关键环节:如何对可能导致事故的关键场景进行重建。
测试问题提出:
事故场景重建存在的两大核心问题:
信息抽取不准:从交通事故报告里提取关键信息(如参与车辆、动作、环境条件)往往有歧义或缺失。
环境匹配困难:不同道路环境复杂多样,很难把事故信息和仿真地图数据对应起来,实现通用/泛化的场景重建。
解决方法:
为此,SoVAR利用大模型提升文本解析的准确性,从事故报告中提取具体信息,结合约束求解生成合理轨迹,并能在不同道路结构中复现场景,从而实现更全面、更通用的自动驾驶系统安全测试。
实验:
•RQ1:使用SoVAR从事故报告中提取信息的有效性如何?
•RQ2:SoVAR在生成可泛化模拟场景的有效性如何?
•RQ3:复杂的场景转化测试用例是否会导致自动驾驶汽车发生碰撞
思考:
这一点和我目前的工作还是有很大的区别,SoVAR会通过大模型从事故报告中获取信息,并在仿真中生成各种可泛化的模拟场景,同时在模拟场景下待测试模型的准确性。我在地平线的工作主要是通过实车采集回家的数据,再通过我的长稳系统如实回放或者注入。而SoVAR专注于激烈的驾驶场景,解决了激烈场景数据不足的痛点。
Semantic-Guided–庞大的仿真测试搜索空间,测试人员的痛点
基于抽象语义变异的系统级测试场景生成技术
Semantic-Guided Fuzzing for Virtual Testing of Autonomous Driving Systems
自动驾驶系统虚拟测试的语义引导模糊
主要问题提出:
虽然自动驾驶发展很快,但现实中仍然发生了不少事故,特别是在一些极端/激烈驾驶情况。
目前现有的测试方法概括:
现在常用的测试方式分为两类:一类是实车路测,虽然贴近真实,但需要非常大的时间和资源投入;另一类是虚拟仿真测试,更高效,但在构造测试场景的时候会面临“参数组合爆炸”的问题。
现有测试方法的不足:
为了解决效率问题,有人尝试把传统软件里的 模拟测试引入进来,但它在 ADS 里存在三个不足:一是随机变异生成的场景往往不合理;二是工程师使用成本高,要学专用语言;三是很容易重复发现同类错误,覆盖不足。
我们的解决方案:
针对这些痛点,作者提出了 FuzzScene。它的核心思路是“语义引导的 fuzz 测试”,具体来说就是利用 OpenSCENARIO 描述语言来保证场景的合理性,再结合语法感知的生成策略和特定的 metamorphic transformation 来丰富场景的多样性,同时设计测试准则来引导算法发现更多潜在错误。实验结果表明,这个方法确实比现有方法能检测到更多、更多样化的错误行为,并且 retraining 后还能提升模型鲁棒性。
CooTest–V2X协同感知实际可能起到反作用
面向网联通讯场景下的协同感知测试技术
CooTest:V2X通信系统的自动化测试方法
V2X是一种信息增强的通道。它主要解决单车智能感知上的盲区问题。我理解,V2X 的价值在于和端到端模型结合,比如将 V2X 信息作为bev表征的一部分,从而提升在长尾场景、遮挡场景下的安全性。
单车感知问题:
单车感知虽然随着深度学习和传感器技术发展进步很大,但它始终有天生的局限,比如视野遮挡、远处稀疏的点云观测,导致感知结果不完整甚至错误。
V2X感知问题提出:
为了解决单车感知的不足,业界提出了 V2X 协同感知,让多辆车之间共享感知结果(百度,ford)。不过问题在于,现实环境下通信可能丢包、延迟甚至错位,这些共享数据一旦出问题,不仅帮不上忙,还可能误导决策,带来安全隐患。所以必须要有一套针对 协同感知系统的测试方法。
测试问题不足的提出:
现有的感知测试方法主要还是针对单车感知,而且需要大量实车数据采集和人工标注,不仅资源消耗大,还很难覆盖各种复杂的通信场景。这是目前方法的不足。
解决方法:
针对这些痛点,提出了 CooTest,一个自动化的 V2X 协同感知测试工具。它的核心思路是基于 变形测试(metamorphic testing),通过设计两类变换算子来模拟真实V2X协同场景里的各种干扰和不确定性。这样就能在不用大规模人工采集和标注的情况下,自动生成测试用例。同时,CooTest 还能利用这些变换前后数据之间的关系来自动发现错误。
实验表明,CooTest 在六个不同融合方式的协同感知模型上都有效,比随机策略能发现更多错误。而且用这些生成的数据去再训练模型,可以让误导性的协作错误明显减少,整体精度平均提升了 6.7%。