当前位置：首页 > news >正文

端到端智驾测试技术论文阅读

news 2025/9/18 10:02:14

文章目录

LiRTest--解决极端恶劣天气，自动驾驶感知系统难题
SoVAR--庞大的仿真测试搜索空间，测试人员的痛点
Semantic-Guided--庞大的仿真测试搜索空间，测试人员的痛点
CooTest--V2X协同感知实际可能起到反作用

问题提出：虽然自动驾驶发展很快，但现实中仍然发生了不少事故，而软件缺陷仍然是事故的重要原因

测试方法概括：
实车路测：在封闭测试场或者真实道路中进行。缺点：周期长、成本高、难以覆盖多样化的关键场景。
仿真测试：借助 CARLA 等平台。优点：高保真、可控性强。关键环节：如何对可能导致事故的关键场景进行重建？

发现问题（核心创新）：通过各种测试手段（功能、性能、鲁棒性、安全性等）尽早暴露缺陷。
复现问题：确保缺陷能够被稳定重现，便于定位和分析。
闭环问题：将问题提交、修复、回归验证，形成闭环，避免反复出现。

LiRTest–解决极端恶劣天气，自动驾驶感知系统难题

基于规则的雷达感知组件测试技术
LiRTest: Augmenting LiDAR Point Clouds for Automated Testing of Autonomous Driving Systems
LiRTest：增强LiDAR点云，用于自动驾驶系统的自动测试

主要问题提出：
自动驾驶系统（ADS）依赖深度神经网络（DNN），虽然性能不断提升，但由于其黑箱特性和输入空间巨大，仍然可能在现实场景中出现致命错误，因此亟需有效的测试方法。

目前现有的测试方法概括：
现有研究主要集中在图像领域的测试，通过对驾驶场景图像施加各种变换来发现模型缺陷，例如：
DeepTest：对图像进行雾、雨等滤镜和几何变换，检查模型一致性；
DeepRoad：利用GAN生成不同天气的图像场景；
DeepBillboard：物理世界中的对抗性广告牌攻击。

但是这些现有的测试方法都有问题：
关注点偏差：几乎都针对摄像头图像，很少研究LiDAR点云。
环境敏感性缺失：LiDAR虽能在夜间工作，但对雨、雾、雪等不良环境极其敏感，现实中常见却缺乏系统性测试。
数据收集成本高：真实采集各种恶劣环境下的点云代价巨大。
标注困难：点云人工标注工作量大，极其耗时。

我们的测试方法：
提出 LiRTest ——第一个针对LiDAR点云的自动化ADS测试工具：

两类变换算子：
仿射变换 → 几何变化；
物理建模天气变换 → 模拟雨、雾、雪对LiDAR的影响。
ADS特定的形变关系（Metamorphic Relation, MR）：自动判断模型在原始点云和变换点云上的输出一致性，发现潜在错误。
自动化测试 + 再训练：
用生成点云发现缺陷；
用这些数据再训练模型，提高其对恶劣环境的鲁棒性。

实验结果：
在四种主流3D检测模型上验证，LiRTest不仅发现了许多潜在错误，还通过再训练显著提升平均精度（AP）。

思考：
我看到这篇论文实验部分造的是机械雷达点云的数据，和我现在做的重复式扫描的雷达点云走tcp注入比较相似。这篇论文是2022年发表的，当时应该还是有很多机械式旋转雷达。但现在重复式扫描的雷达点云密度大，距离远，要考虑的方向可能也会有所不同。

SoVAR–庞大的仿真测试搜索空间，测试人员的痛点

基于交通事故数据的系统及测试场景生成技术
SoVAR: Building Generalizable Scenarios from Accident Reports for Autonomous Driving Testing
SoVAR：从自动驾驶测试的事故报告中构建可泛化的场景

主要问题提出：虽然自动驾驶发展很快，但现实中仍然发生了不少事故，而软件缺陷仍然是事故的重要原因

测试方法概括：
实车路测：在封闭测试场或者真实道路中进行。缺点：周期长、成本高、难以覆盖多样化的关键场景。
仿真测试：借助 CARLA 等平台。优点：高保真、可控性强。关键环节：如何对可能导致事故的关键场景进行重建。

测试问题提出：
事故场景重建存在的两大核心问题：
信息抽取不准：从交通事故报告里提取关键信息（如参与车辆、动作、环境条件）往往有歧义或缺失。
环境匹配困难：不同道路环境复杂多样，很难把事故信息和仿真地图数据对应起来，实现通用/泛化的场景重建。

解决方法：
为此，SoVAR利用大模型提升文本解析的准确性，从事故报告中提取具体信息，结合约束求解生成合理轨迹，并能在不同道路结构中复现场景，从而实现更全面、更通用的自动驾驶系统安全测试。

实验：
•RQ1：使用SoVAR从事故报告中提取信息的有效性如何？
•RQ2：SoVAR在生成可泛化模拟场景的有效性如何？
•RQ3：复杂的场景转化测试用例是否会导致自动驾驶汽车发生碰撞

思考：
这一点和我目前的工作还是有很大的区别，SoVAR会通过大模型从事故报告中获取信息，并在仿真中生成各种可泛化的模拟场景，同时在模拟场景下待测试模型的准确性。我在地平线的工作主要是通过实车采集回家的数据，再通过我的长稳系统如实回放或者注入。而SoVAR专注于激烈的驾驶场景，解决了激烈场景数据不足的痛点。

Semantic-Guided–庞大的仿真测试搜索空间，测试人员的痛点

基于抽象语义变异的系统级测试场景生成技术
Semantic-Guided Fuzzing for Virtual Testing of Autonomous Driving Systems
自动驾驶系统虚拟测试的语义引导模糊

主要问题提出：
虽然自动驾驶发展很快，但现实中仍然发生了不少事故，特别是在一些极端/激烈驾驶情况。

目前现有的测试方法概括：
现在常用的测试方式分为两类：一类是实车路测，虽然贴近真实，但需要非常大的时间和资源投入；另一类是虚拟仿真测试，更高效，但在构造测试场景的时候会面临“参数组合爆炸”的问题。

现有测试方法的不足：
为了解决效率问题，有人尝试把传统软件里的模拟测试引入进来，但它在 ADS 里存在三个不足：一是随机变异生成的场景往往不合理；二是工程师使用成本高，要学专用语言；三是很容易重复发现同类错误，覆盖不足。

我们的解决方案：
针对这些痛点，作者提出了 FuzzScene。它的核心思路是“语义引导的 fuzz 测试”，具体来说就是利用 OpenSCENARIO 描述语言来保证场景的合理性，再结合语法感知的生成策略和特定的 metamorphic transformation 来丰富场景的多样性，同时设计测试准则来引导算法发现更多潜在错误。实验结果表明，这个方法确实比现有方法能检测到更多、更多样化的错误行为，并且 retraining 后还能提升模型鲁棒性。

CooTest–V2X协同感知实际可能起到反作用

面向网联通讯场景下的协同感知测试技术
CooTest：V2X通信系统的自动化测试方法
V2X是一种信息增强的通道。它主要解决单车智能感知上的盲区问题。我理解，V2X 的价值在于和端到端模型结合，比如将 V2X 信息作为bev表征的一部分，从而提升在长尾场景、遮挡场景下的安全性。

单车感知问题：
单车感知虽然随着深度学习和传感器技术发展进步很大，但它始终有天生的局限，比如视野遮挡、远处稀疏的点云观测，导致感知结果不完整甚至错误。

V2X感知问题提出：
为了解决单车感知的不足，业界提出了 V2X 协同感知，让多辆车之间共享感知结果（百度，ford）。不过问题在于，现实环境下通信可能丢包、延迟甚至错位，这些共享数据一旦出问题，不仅帮不上忙，还可能误导决策，带来安全隐患。所以必须要有一套针对协同感知系统的测试方法。

测试问题不足的提出：
现有的感知测试方法主要还是针对单车感知，而且需要大量实车数据采集和人工标注，不仅资源消耗大，还很难覆盖各种复杂的通信场景。这是目前方法的不足。

解决方法：
针对这些痛点，提出了 CooTest，一个自动化的 V2X 协同感知测试工具。它的核心思路是基于变形测试（metamorphic testing），通过设计两类变换算子来模拟真实V2X协同场景里的各种干扰和不确定性。这样就能在不用大规模人工采集和标注的情况下，自动生成测试用例。同时，CooTest 还能利用这些变换前后数据之间的关系来自动发现错误。
实验表明，CooTest 在六个不同融合方式的协同感知模型上都有效，比随机策略能发现更多错误。而且用这些生成的数据去再训练模型，可以让误导性的协作错误明显减少，整体精度平均提升了 6.7%。