当前位置: 首页 > news >正文

自动驾驶数据集综述:统计特征、标注质量与未来展望

自动驾驶数据集综述:统计特征、标注质量与未来展望

A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook

得益于硬件和深度学习技术的快速进步,自动驾驶近年来迅速发展并展现出良好的性能。高质量的数据集是构建可靠自动驾驶算法的基础。以往的数据集综述要么关注的数据集数量有限,要么缺乏对数据集特征的深入研究。为此,本文从多个角度对265个自动驾驶数据集进行了全面研究,包括传感器类型、数据规模、任务类型和环境上下文等方面。我们提出了一种用于评估数据集影响力的新指标,该指标也可作为构建新数据集的参考。此外,本文还分析了数据集的标注流程、现有标注工具以及标注质量,强调了建立标准化标注流程的重要性。另一方面,我们深入探讨了地理因素和对抗性环境条件对自动驾驶系统性能的影响。同时,还展示了多个关键数据集的数据分布情况,并分别讨论了它们的优劣。最后,本文总结了当前面临的挑战,并对未来自动驾驶数据集的发展趋势进行了展望。

一、引言

自动驾驶(Autonomous Driving,简称 AD)旨在通过打造能够准确感知环境、做出智能决策并在无需人工干预的情况下安全行驶的车辆,彻底变革交通系统。随着技术的飞速发展,自动驾驶产品已在多个领域得到了实际应用,例如无人出租车等。这些迅猛进展在很大程度上依赖于大量的数据集,正是这些数据集帮助自动驾驶系统在复杂驾驶环境中保持鲁棒性与可靠性。

近年来,自动驾驶数据集在质量和多样性方面有了显著提升。第一个显著的现象是数据采集策略的多样化,包括使用仿真器生成的合成数据集以及来自真实世界的实景采集数据集。其次,数据集在构成上也表现出丰富性,不仅涵盖了多种传感器模态,如摄像头图像和激光雷达点云,还包含了面向不同任务的多种标注类型及数据分布情况。

下图展示了六个知名真实世界数据集(Argoverse 2、KITTI、nuScenes、ONCE、Waymo 和 ZOD)中三维目标边界框在鸟瞰图视角下的分布,突出表现了各数据集在标注特性上的差异。此外,传感器的安装位置也反映了不同的数据感知域,包括车载、车联网(V2X)以及无人机等。数据集在几何结构上的多样性以及不同天气条件下的采集,也进一步提升了其在自动驾驶应用中的泛化能力。
在这里插入图片描述

(一)研究空白与研究动机

我们通过下图展示了每年发布的感知类数据集数量,以说明自动驾驶数据集的发展趋势。随着公开数据集数量的迅速增长和体量不断扩大,全面梳理这些资源对于推动自动驾驶领域的学术研究和工业应用具有重要价值。
在这里插入图片描述

在此前的工作中,Yin 等人总结了 27 个在公共道路上采集的公开数据集。随后的一项工作对数据集数量进行了扩展。Guo 等人和 Janai 等人则从应用角度对已有数据集做了系统性的介绍。除了描述已有数据集,Liu 等人还探讨了合成数据与真实数据之间的领域适应问题以及自动标注方法。Li 等人则对现有数据集进行了总结,并深入分析了下一代数据集的关键特征。

然而,这些综述大多仅覆盖了数量较少的数据集,导致研究覆盖范围不够广泛。AD-Dataset 虽然收集了大量数据集,但在数据集属性的深入分析方面存在不足。与这些通用数据集研究不同,也有研究者专注于某一类特定的自动驾驶数据集进行调研,如异常检测、合成数据集、三维语义分割或决策任务等。此外,也有一些针对具体任务的综述中整理了相关的自动驾驶数据集。

在这里插入图片描述

在本研究中,我们对自动驾驶领域中大量数据集进行了全面且系统性的综述。我们在上表中将本综述与其他研究进行了比较。我们的综述涵盖了从感知到控制的所有任务,包含了真实世界数据和合成数据,并对多个关键数据集在数据模态和数据质量方面提供了深入的见解。

(二)主要贡献

本文的主要贡献总结如下:

  • 我们呈现了迄今为止最为全面的自动驾驶数据集综述,尽可能全面地展示了公开可用的数据集,并记录了它们的核心特征,如发布年份、数据规模、传感器模态、感知域、几何与环境条件、支持的任务等。
  • 我们系统性地阐述了用于采集自动驾驶数据的传感器种类和感知域。此外,还介绍了自动驾驶中的主要任务,包括任务目标、所需数据模态以及评估指标。
  • 我们依据感知域和相关任务对数据集进行了分类,帮助研究人员高效地识别并整合其目标数据集的信息,从而促进更有针对性和高效的研究与开发工作。
  • 我们还引入了一种影响力评分指标,用于衡量已发布感知类数据集的影响程度,该指标也可为未来数据集的开发提供指导。我们对高影响力评分的数据集进行了深入分析,突出了其优势和实际应用价值。
  • 我们调查了自动驾驶各类任务中数据集的标注质量和现有的标注流程。
  • 我们通过详细的数据统计,从多个维度展示了不同数据集的数据分布情况,揭示了它们的固有限制与适用场景。
  • 我们分析了最新的技术趋势与下一代数据集的发展方向,包括将语言引入自动驾驶数据、使用视觉语言模型生成自动驾驶数据、推动数据标准化,以及建设开放的数据生态系统。

(三)范围与局限性

我们的目标是对现有的自动驾驶数据集进行详尽的综述,以推动该领域未来算法和数据集的发展。我们收集了与自动驾驶五个基本任务相关的数据集:感知、预测、规划、控制以及端到端(E2E)驾驶。为保持清晰性并避免冗余,我们仅在所支持的主要任务范畴中描述多用途数据集。

此外,我们整理了大量数据集,并在表格中展示了它们的主要特征。然而,为了使本综述更有效地服务于研究人员,我们将详细讨论重点放在影响力最大的部分数据集上,而非对所有数据集进行广泛描述。

(四)综述结构

在这里插入图片描述

本综述的其余部分结构如下:第二部分介绍了用于收集公共数据集的方法以及相应的评估指标。第三部分展示了自动驾驶中使用的主要传感器及其数据模态。第四部分讨论了自动驾驶的各项任务、相关挑战以及所需的数据类型。第五部分对若干重要数据集进行了深入讨论。第六部分探讨了数据标注的流程及影响标注质量的因素。第七部分对各类数据集中的数据分布进行了统计分析。第八部分展望了自动驾驶数据集的未来发展趋势及潜在研究方向。第九部分为全文总结。综述的分类结构如上图所示。

二、方法

本节包括两个部分:1)数据集的收集与筛选;2)用于评估数据集在自动驾驶领域影响力的指标。

(一)数据集收集

借鉴既有研究,我们进行了系统性回顾,以尽可能全面地收集已发布的自动驾驶数据集。为保证信息来源的多样性,我们使用了多个知名搜索引擎,包括 Google、Google Scholar 和百度,搜索相关数据集。

为了确保涵盖来自不同国家和地区的数据集,我们使用了英文、中文和德文等多种语言进行检索,关键词包括“autonomous driving dataset/benchmark(自动驾驶数据集/基准)”“intelligent vehicle dataset/benchmark(智能车辆数据集/基准)”,以及与目标检测、分类、跟踪、分割、预测、规划、控制和端到端驾驶等任务相关的术语。

此外,我们还在 IEEE Xplore、Paperswithcode 以及与自动驾驶和智能交通系统相关的主流会议中查找论文及其附带的数据集,并通过关键词搜索和人工标题筛选来验证这些数据集的有效性。

最后,为确保涵盖一些较为专业或不太知名的数据集,我们还检索了 Github 上的开源项目仓库。与数据库检索类似,我们结合关键词搜索和人工筛查的方法,以尽可能完整地收集相关数据集。

(二)数据集评估指标

我们引入了一个新的评估指标——影响力评分(impact score),用于衡量已发布数据集的重要性,同时也可以为新数据集的设计提供参考。在本节中,我们将详细介绍如何计算自动驾驶数据集的影响力评分。

为了实现公平且可比的对比,我们仅考虑感知领域相关的数据集,因为这类数据集在自动驾驶中占据了很大比例。为保证评分系统的客观性与可理解性,我们综合考虑多个因素,包括引用分数、数据维度和环境多样性。所有数据均来自官方论文或开源数据集官网。

三、自动驾驶中的传感器与感知技术

在本节中,我们将介绍自动驾驶中主要使用的传感器及其数据模态。随后,我们将分析数据采集方式与协同感知技术。

(一)传感器数据模态

在这里插入图片描述

高效且精准地采集周围环境的数据,是构建可靠自动驾驶感知系统的关键。为了实现这一目标,各类传感器被部署在自动驾驶车辆与相关基础设施上。上图展示了一些常用的传感器示例。其中,使用最广泛的传感器包括摄像头、激光雷达(LiDAR)和毫米波雷达(Radar),此外,还会在车载或路侧设备上安装事件相机和热成像摄像头,以进一步提升感知能力。

在这里插入图片描述

RGB 图像:
RGB 图像通常由单目、双目或鱼眼摄像头采集。单目摄像头提供无深度信息的二维图像;双目摄像头通过两个镜头实现立体视觉获取深度信息;鱼眼摄像头则通过广角镜头捕捉更广阔的视野。
如图 (a) 所示,二维图像可捕捉颜色信息、丰富纹理、图案和环境视觉细节。凭借这些特性,RGB 图像常用于车辆和行人的检测,以及交通标志的识别。然而,RGB 图像对光照变化敏感,在弱光、雨雾或强光环境下性能会受到影响。

激光雷达点云(LiDAR Point Clouds):
激光雷达通过激光束测量传感器与目标之间的距离,从而构建三维环境模型。如图 (b) 所示,LiDAR 点云提供高分辨率的精确空间信息,能在远距离内检测目标。然而,点的密度会随着距离增加而降低,使远处目标的表示更稀疏。此外,恶劣天气(如浓雾)也会影响激光雷达的性能。通常,LiDAR 适用于对三维信息有较高要求的场景。

毫米波雷达点云(Radar Point Clouds):
毫米波雷达通过发射无线电波并分析其反射来检测目标、距离和相对速度。其优势在于对各种天气条件具有良好的鲁棒性。如图 © 所示,雷达点云通常比激光雷达粗糙,缺乏目标的详细形状或纹理信息,因此常作为辅助传感器使用。

事件相机(Event-based Camera):
事件相机以非同步方式捕捉数据,仅当像素亮度发生变化时才产生输出。所采集的数据被称为“事件”(见图 (d))。由于其独特的数据生成方式,事件相机具有极高的时间分辨率,能够无模糊地捕捉快速运动。

热成像图像(Thermal Camera):
热成像摄像头通过捕捉红外辐射检测热信号(见图 (e))。其基于温度差成像的特性使其能在全黑环境下工作,且不受烟雾或雾气影响。然而,它无法呈现颜色和细致的视觉图案,图像分辨率也低于普通光学摄像头。

惯性测量单元(IMU):
IMU 是一种电子设备,用于测量并报告物体的特定加速度、角速度,有时还包括磁场信息。在自动驾驶中,IMU 用于跟踪车辆的位置变化与姿态方向。

在这里插入图片描述

上图展示了我们所收集数据集中各类传感器的分布情况。由于成本低廉且性能稳定,超过一半的数据集使用单目摄像头(52.79%)。另有 93 个数据集(25.98%)包含 LiDAR 数据,因其高分辨率与空间精度受到青睐,但其高成本限制了普及。此外,有 29 个数据集使用双目摄像头获取深度信息。另有 5.31%、3.35%、1.68% 的数据集分别包含毫米波雷达、热成像相机和鱼眼摄像头。鉴于事件相机在动态场景采集方面的时间效率,共有 10 个数据集(2.79%)基于事件相机生成数据。

(二)感知域与协同感知系统

传感数据的采集以及自动驾驶车辆与周边实体之间的协同,对于确保自动驾驶系统的安全性、效率和整体功能至关重要。因此,传感器的部署位置尤为关键,它决定了可采集数据的质量、角度与范围。通常,自动驾驶中的感知域可分为四类:车载(Onboard)车路协同(V2X)无人机(Drone-based)以及其他(Others)


车载(Onboard)

车载传感器直接安装在自动驾驶车辆上,通常包括摄像头、激光雷达、毫米波雷达和惯性测量单元(IMU)。这些传感器提供车辆视角下的直接感知,能快速反馈周围环境信息。然而,由于探测范围有限,车载传感器在应对盲区障碍物预警或急弯路段的感知时,可能存在局限性。


车路协同(V2X)

V2X(Vehicle-to-Everything)指的是车辆与交通系统中其他组成部分之间的通信,包括车与车(V2V)、车与基础设施(V2I)以及车与网络(V2N)。这种协同系统超越了车辆本身的感知能力,实现多方实体的协同工作。

在这里插入图片描述

  • 车与车(V2V)
    V2V 通信允许附近车辆共享关键信息,如位置、速度及其采集的传感数据(例如摄像图像或激光雷达扫描)。这些共享信息有助于形成对驾驶场景的更全面理解。

  • 车与基础设施(V2I)
    V2I 通信使车辆能够与交通基础设施(如红绿灯、交通标志或路侧传感器)之间进行信息交互。部署在道路基础设施上的传感器与车辆协作,拓展感知范围,增强环境感知能力。在本综述中,我们将单车或多车与单个或多个基础设施设备之间的交互,或多个基础设施之间的协作,均归入 V2I。

  • 车与网络(V2N)
    V2N 指车辆与更大范围的网络基础设施之间的信息交换,通常依赖蜂窝通信网络,为车辆提供云端数据访问。V2N 可辅助 V2V 和 V2I 感知系统,通过共享跨区域数据或提供实时交通拥堵、道路封闭等信息,实现更广域的感知协同。


无人机(Drone)

无人机(或称无人飞行器 UAV)提供俯视视角,为轨迹预测与路径规划提供重要数据。例如,无人机采集的实时数据可被集成进交通管理系统中,用于优化交通流、提前向自动驾驶车辆预警前方事故等。


其他(Others)

不属于以上三类的数据采集方式归为“其他”,包括安装在非车辆对象上的设备采集的数据,或涉及多个感知域的复合型数据采集方式。

四、自动驾驶中的任务

在这里插入图片描述

本章节将深入探讨自动驾驶中的关键任务,包括感知与定位、行为预测以及路径规划与控制。上图展示了自动驾驶整体流程的概览,我们将详细说明每一任务的目标、所依赖的数据类型以及面临的核心挑战。下图则概括了自动驾驶中的若干主要任务。

在这里插入图片描述

(一)感知与定位

感知侧重于基于传感数据理解环境,而定位则确定自动驾驶车辆在该环境中的具体位置。

2D/3D 目标检测:2D或3D目标检测旨在识别驾驶环境中其他实体的位置和类别。尽管检测技术已显著进步,但仍存在一些挑战,如目标遮挡、光照变化和目标外观多样性等。通常,平均精度(Average Precision,AP)指标用于评估目标检测性能。AP指标可表示为:

AP=∫01max⁡r′≥rp(r′)drAP = \int_0^1 \max_{r' \ge r} p(r') \, dr AP=01rrmaxp(r)dr

其中,p(r)p(r)p(r)是精确率-召回率曲线。

2D/3D 语义分割:语义分割涉及将图像的每个像素或点云的每个点分类到对应的语义类别。从数据集角度来看,保持细粒度的目标边界同时处理大量标注需求,是这项任务的重要挑战。常用的评估指标包括平均像素准确率(mean Pixel Accuracy,mPA):

mPA=1k+1∑i=0kpii∑j=0kpijmPA = \frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{ii}}{\sum_{j=0}^{k} p_{ij}} mPA=k+11i=0kj=0kpijpii

以及平均交并比(mean Intersection over Union,mIoU):

mIoU=1k+1∑i=0kpii∑j=0kpij+∑j=0kpji−piimIoU = \frac{1}{k+1} \sum_{i=0}^{k} \frac{p_{ii}}{\sum_{j=0}^{k} p_{ij} + \sum_{j=0}^{k} p_{ji} - p_{ii}} mIoU=k+11i=0kj=0kpij+j=0kpjipiipii

其中,k∈Nk \in \mathbb{N}kN 表示类别数,piip_{ii}piipijp_{ij}pijpjip_{ji}pji分别代表真正例、假正例和假负例。

目标跟踪:目标跟踪是监控单个或多个目标随时间的轨迹,通常需要时序的RGB数据、LiDAR或雷达序列。目标跟踪包括单目标跟踪和多目标跟踪(MOT)。
多目标跟踪精度(Multi-Object-Tracking Accuracy,MOTA)是广泛使用的评估指标,结合了假负例、假正例和匹配错误率,计算公式为:

MOTA=1−∑t(fpt+fnt+et)∑tgttMOTA = 1 - \frac{\sum_t (fp_t + fn_t + e_t)}{\sum_t gt_t} MOTA=1tgttt(fpt+fnt+et)

其中,fptfp_tfptfntfn_tfntete_tet分别是时间点(t)的假正例数、假负例数和匹配错误数,gttgt_tgtt是对应的真实目标数。
此外,平均MOTA(Average MOTA,AMOTA)基于所有目标置信度阈值计算,体现了更全面的性能。

高清地图(HD Map):高清地图旨在构建包含道路结构、交通标志和地标信息的详细、高精度地图。数据集通常应提供LiDAR数据以保证精确的空间信息,以及摄像头数据以补充视觉细节,确保地图的准确性。高清地图的质量通常用准确率指标评估。

同步定位与建图(SLAM):SLAM任务是在构建环境地图的同时实现车辆定位。因此,来自摄像头、惯性测量单元(IMU)用于位置跟踪,以及实时LiDAR点云的数据非常关键。评估SLAM结果时,常用的指标包括相对位姿误差(Relative Pose Error,RPE)和绝对轨迹误差(Absolute Trajectory Error,ATE),用以衡量输入RGB-D图像估计轨迹的质量。

(二)预测

预测(Prediction)指的是对周围交通参与者未来状态或行为的预测。这一能力对于在动态环境中实现更安全的导航至关重要。常用于评估预测性能的指标包括:

均方根误差(Root Mean Squared Error,RMSE):用于衡量预测轨迹与真实轨迹之间的误差,计算公式如下:

RMSE=1N∑n=1N(Tpredn−Tgtn)2RMSE = \sqrt{\frac{1}{N} \sum_{n=1}^{N} (T_{\text{pred}}^n - T_{\text{gt}}^n)^2} RMSE=N1n=1N(TprednTgtn)2

其中,NNN 表示样本总数,TprednT_{\text{pred}}^nTprednTgtnT_{\text{gt}}^nTgtn 分别表示第 nnn 个样本的预测轨迹和真实轨迹。

负对数似然(Negative Log Likelihood,NLL):用于判断预测轨迹的正确性,同时可用于比较不同模型的预测不确定性,计算公式为:

NLL=−∑c=1Cnclog⁡(n^c)NLL = - \sum_{c=1}^{C} n_c \log(\hat{n}_c) NLL=c=1Cnclog(n^c)

其中,CCC 是类别总数,ncn_cnc 是预测正确性的二值指标,n^c\hat{n}_cn^c 是相应的预测概率。

轨迹预测(Trajectory Prediction)

轨迹预测基于来自摄像头和 LiDAR 等传感器的时序数据,用于推测其他实体(如行人、自行车骑行者或其他车辆)的未来路径或运动模式。

行为预测(Behavior Prediction)

行为预测旨在预测其他道路使用者可能采取的具体行动(例如,一辆车是否将变道)。由于实体在不同场景下可能采取的动作种类繁多,因此训练行为预测模型通常需要大量标注数据。

意图预测(Intention Prediction)

意图预测关注的是推断对象行为背后的高层次目标,涉及对人类物理或心理活动的语义理解。由于该任务的复杂性,通常需要综合摄像头、交通信号灯、手势等感知传感器提供的数据。

(三)规划与控制

规划(Planning) 规划是指自动驾驶系统根据感知结果和预测信息进行决策的过程。一个经典的三层级规划框架包括路径规划、行为规划和运动规划:

  • 路径规划(Path Planning):也称为路线规划,负责设定长远目标,是一个高层次过程,用于确定到达目的地的最佳路径。

  • 行为规划(Behavior Planning):处于中层级,涉及具体的决策行为,如变道、超车、并道、通过路口等。该过程依赖于对其他交通参与者行为的正确理解与交互。

  • 运动规划(Motion Planning):负责实时生成车辆应遵循的具体轨迹,需综合考虑障碍物、路况以及其他交通参与者的行为预测。与路径规划不同,运动规划专注于局部目标的实现。

控制(Control) 控制是自动驾驶系统中用于执行运动规划所决定的路径或行为,并对跟踪误差进行修正的机制。它将高层的决策指令转化为可执行的油门、刹车和转向控制指令,从而实现对车辆的精准操控。

(四)端到端自动驾驶

端到端方法是指由单一的深度学习模型完成从感知到控制的全部流程,跳过传统的模块化处理管线。这类模型通常更具适应性,因为它们依赖于对整体模型进行统一学习与调整。

端到端方法的核心优势在于其结构简单、效率高,减少了对手工设计模块的依赖。然而,实际应用中仍面临诸多挑战,例如:

  • 需要大量训练数据;
  • 可解释性较低;
  • 模块间无法灵活调优。

针对端到端自动驾驶的大规模评估方法主要分为两类:

  • 闭环评估(Closed-loop Evaluation):基于仿真环境进行测试,评估系统在控制回路中的实际驾驶表现。
  • 开环评估(Open-loop Evaluation):利用真实世界数据集,通过与专家驾驶行为对比,评估系统的决策合理性和性能表现。

五、高影响力数据集

本节介绍了自动驾驶领域中具有里程碑意义的高影响力数据集,涵盖以下几个方面:感知任务相关的数据集;预测、规划与控制任务相关的数据集;端到端自动驾驶任务相关的数据集。

(一)感知类数据集

感知类数据集对于开发和优化自动驾驶系统至关重要。它们通过提供丰富的多模态感知数据,提升了车辆的可靠性与鲁棒性,确保对周围环境的有效感知和理解。

在这里插入图片描述

我们利用前述提出的数据集评估指标对收集到的感知数据集进行了影响力评分,随后基于评分选取排名前 50 的数据集,构建了按时间排序的概览(如上图所示)。同时,我们将数据集按传感来源划分为车载(onboard)、车路协同(V2X)、无人机(drone)和其他类别,并从每一类别中挑选部分代表数据集,构建出包含 50 个数据集的综合表格(下表)。需要注意的是,表中数据集按各自类别内的影响力得分排序,并不代表整体前 50。以下章节中,我们从每个感知来源中选取若干影响力最高的数据集,结合其发布年份进行介绍。

在这里插入图片描述

1)车载(Onboard)

KITTI:自 2012 年发布以来,KITTI 对自动驾驶领域的发展起到了关键作用。其数据包括摄像头、LiDAR 和 GPS/IMU 采集的信息,支持目标检测、追踪、光流估计、深度估计和视觉里程计等任务。但其数据主要采集于德国城市理想天气条件下,地理和环境多样性有限,限制了其真实场景适应能力。

Cityscapes:Cityscapes 专注于复杂城市环境图像采集,已成为语义分割任务中的标准基准。其为 30 个物体类别(包括车辆、行人、道路、交通标志等)提供像素级标签。但其采集范围局限于德国城市,缺乏气候多样性。

VIPER:VIPER 是基于虚拟世界构建的合成数据集,提供超过 25 万帧视频图像,支持多种视觉任务。它涵盖多种天气和光照场景,是评估算法鲁棒性的理想资源。然而,其与真实世界存在领域差异,算法需跨域泛化。

SemanticKITTI:SemanticKITTI 含有超过 43,000 帧 LiDAR 点云,是最全面的室外 3D 语义分割数据集之一。其标注涵盖 28 个类别(如汽车、道路、建筑物等)。但其在环境多样性和地理覆盖上仍有限。

nuScenes:nuScenes 提供多模态传感器数据(如 LiDAR、雷达、摄像头),涵盖波士顿和新加坡的城市驾驶行为及布局。其六个摄像头提供多视角数据,广泛应用于多视图检测任务。但对如事故等极端场景的覆盖较少。

Waymo:Waymo Open Dataset 于 2019 年发布,提供大规模高质量多模态数据,相较其他数据集具有更好的标注精度和驾驶条件多样性,增强了任务鲁棒性和泛化能力。但对特定极端条件的探索仍可加强。

BDD100K:BDD100K 以其数据规模和多样性著称,包含 10 万个视频片段,涵盖全天候及多气候情况,支持检测、跟踪、语义分割、车道检测等任务。但部分标注质量不稳定,影响其在真实场景中的表现。

Argoverse 2:作为 Argoverse 1 的升级版,Argoverse 2 引入更多复杂场景,支持 3D 检测、分割和跟踪等任务。其覆盖六个城市,但仍可提升对极端或边缘驾驶条件的适应能力。

2)车路协同(V2X)

TUMTraf:TUMTraf 数据集家族共计 50,253 帧数据(含 9,545 帧点云和 40,708 张图像),涵盖德国慕尼黑的多种交通情境,传感器包括 RGB、事件相机、LiDAR、GPS 和 IMU。数据源自基础设施和车辆视角,支持协同感知任务,尤其包含事故、险情、违规等边缘案例。

DAIR-V2X:DAIR-V2X 致力于车辆-基础设施协同场景,提供大规模、多模态、多视角的真实世界数据,解决传感器时间不同步和传输成本问题,为 V2X 感知任务设定了标杆。

3)无人机(Drone)

UAVDT:UAVDT 数据集包含 80,000 帧精确标注图像,涵盖天气、视角、飞行姿态、遮挡等 14 类属性,主要用于城市环境下的目标检测与跟踪,挑战在于密集小目标与摄像机快速运动。

DroneVehicle:DroneVehicle 提供 28,439 对 RGB-红外图像,专注于低照明条件下的检测任务,涵盖城市道路、居民区、停车场等场景,拓展了从无人机视角下的自动驾驶研究。

4)其他(Others)

Pascal3D+:作为 PASCAL VOC 的扩展数据集,Pascal3D+ 为 12 类刚性物体(如汽车、公交、自行车)提供 3D 姿态注释,并引入 ImageNet 图像增强多样性,但其局限于刚性目标,难以适配包含非刚体如行人的动态场景。

Mapillary Vistas:该数据集提出于 2017 年,旨在街景语义分割任务,包含 25,000 张图像,标注 66 个类别及 37 类实例标签,涵盖不同天气、时间和地理区域,有助于缓解数据偏向性。

(二)预测、规划与控制类数据集

预测、规划与控制类数据集是推动自动驾驶系统开发的基础。这些数据集对于预测交通动态、行人行为以及其他影响驾驶决策的关键因素至关重要。因此,我们根据数据规模、数据模态以及引用次数,详细展示了若干具有高影响力的相关数据集,并将其分为特定任务数据集与多任务数据集两类进行总结。
在这里插入图片描述

1)特定任务数据集:

highD:highD 是一个基于无人机的大规模自然驾驶轨迹数据集,采集于德国高速公路,包含11万条汽车和卡车的处理后轨迹。它弥补了传统测量技术在场景安全验证中无法捕捉真实道路行为和缺乏高质量数据的问题。但其拍摄环境为理想天气,限制了其在恶劣天气下的应用能力。

PIE:PIE(Pedestrian Intention Estimation)数据集致力于理解城市环境中行人的行为。该数据集采集于多伦多市中心,在多种光照条件下记录了超过6小时的驾驶视频,并提供丰富的感知和视觉推理标注信息,包括带遮挡标记的边框、过街意图置信度和行人动作文本标签。

Argoverse:Argoverse 是用于3D目标跟踪和运动预测的重要数据集,提供7个摄像头的360°图像、前视双目图像及激光雷达点云。其包含超过30万条车辆轨迹,覆盖290公里已标注车道。得益于丰富的传感器数据和语义地图,Argoverse 在预测系统研发中发挥了关键作用,但在不同地理区域的泛化性仍有局限。

nuPlan:nuPlan 是全球首个基于闭环机器学习的自动驾驶规划评测基准。该多模态数据集包含约1500小时的人类驾驶数据,覆盖美国和亚洲四个城市,涵盖合流、变道、与行人/骑行者交互、施工区驾驶等多种交通模式,为构建更具适应性和上下文感知的规划系统提供了强大支持。

exiD:exiD 是2022年发布的高速公路交互场景轨迹数据集,由无人机采集交通流以避免遮挡,保证了数据质量与采集效率。它优于以往数据集,在出入口变道等交互场景的多样性方面尤为突出。未来可通过引入不同天气和夜间场景进一步扩展。

MONA:MONA(Munich Motion Dataset of Natural Driving)为慕尼黑市自然驾驶数据集,包含702K条轨迹、130小时视频,覆盖城市道路与城内高速转换段。其平均位置精度为0.51米,表明通过高精度定位与激光雷达采集的数据质量极高。但因采集地局限于单一城市,其泛化性可能受限。

2)多任务数据集:

INTERACTION:INTERACTION 是一个多功能平台,包含丰富复杂的驾驶场景与语义地图,支持运动预测、模仿学习及决策规划验证等任务。其数据涵盖多个国家与大洲,有助于研究不同文化背景下的驾驶行为。然而,该数据集未对环境条件影响进行显式建模,可能存在泛化限制。

rounD:rounD 数据集专注于环形交叉口下的场景分类、交通参与者行为预测与驾驶员建模。该数据集利用4K无人机视频记录了13K余个道路使用者,持续时长超6小时。其高质量、多样化的交通情况采集,使其成为研究自然驾驶行为的重要资源。但因采集均在良好天气下进行,模型在复杂气候下的性能可能受限。

Lyft Level 5:Lyft Level 5 是目前最大规模的运动预测数据集之一,包含超过1000小时数据,17,000段25秒的驾驶片段,配套高清语义地图和15,000个手工标注点、8,500个车道段以及高分辨率航拍图像。它支持运动预测、规划与仿真等多任务研究。尽管标注详细,但在处理不常见交通状况或稀有行人行为方面仍有提升空间。

LOKI:LOKI(Long Term and Key Intentions)是一个用于多智能体轨迹与意图预测的重要数据集。该数据集专为异构交通参与者(如行人与车辆)设计,结合图像与激光雷达点云,为复杂交通场景提供多维度视角,适用于智能系统与安全关键任务。

DeepAccident:DeepAccident 是首个可提供直接解释的安全评估指标的合成数据集,包含57K帧标注图像与28.5万条标注样本,支持端到端运动与事故预测,对于避免碰撞与安全评估至关重要。此外,其多模态数据也适用于V2X感知任务如3D目标检测、追踪与BEV语义分割。不同环

(三)端到端类数据集

端到端已成为自动驾驶领域中替代模块化架构的一种重要趋势。多个多功能数据集(如 nuScenes 和 Waymo)以及仿真平台(如 CARLA)为端到端自动驾驶的开发提供了可能。同时,也有一些研究专门提出了用于端到端学习的数据集。

DDD17:DDD17 数据集的显著特点在于使用了事件相机。该数据集同时提供标准有源像素传感器(APS)图像和动态视觉传感器(DVS)所采集的时序对比事件流,构建出一种独特的视觉数据融合形式。此外,DDD17 包含丰富的驾驶场景,如高速公路、城市道路以及多种天气条件,为训练和测试端到端自动驾驶算法提供了详尽而真实的数据支持。

四、自动驾驶数据标注过程

成功和可靠的自动驾驶算法不仅依赖于海量数据,还依赖于高质量的标注。本节首先介绍数据标注的方法,然后分析确保标注质量的重要方面。

(一)标注生成

不同的自动驾驶任务需要特定类型的标注。例如,目标检测需要实例的边界框标注,分割依赖于像素级或点级的标注,连续的轨迹标注对于轨迹预测至关重要。另一方面,如图下所示,标注流程可分为三类:人工标注、半自动标注和全自动标注。本节将详细介绍不同标注类型的标注方法。

在这里插入图片描述

2D/3D 边界框标注:
边界框标注的质量直接影响感知系统(如目标检测)在真实场景中的有效性和鲁棒性。通常,标注过程包括在图像中绘制矩形框,或在点云中使用立方体精确地包围目标对象。

Labelme 是一个早期用于图像目标检测标注的工具。然而,专业人员手动绘制边界框也存在成本高、效率低的问题。Wang 等提出了一种基于 VATIC 开源视频标注系统的半自动标注工具;Manikandan 等人则提出了一个自动视频标注工具用于自动驾驶场景。夜间标注比白天更具挑战性,Schorkhuber 等人提出了一种基于轨迹的半自动方法来解决该问题。

相较于 2D 标注,3D 边界框包含更丰富的空间信息,如精确位置、物体的长宽高和朝向。因此,标注高质量的 3D 数据需要更复杂的框架。例如,Meng 等人提出了一种基于人类反馈的弱监督学习框架用于 LiDAR 点云标注;ViT-WSS3D 则通过建模 LiDAR 点与弱标签之间的全局交互生成伪边界框;Apolloscape 数据集采用双分支框架(3D 和 2D 分支)处理静态与动态目标;3D BAT 开发了一个注释工具箱以协助 2D 与 3D 半自动标注。

分割数据标注:
分割标注的目标是为图像中每个像素或点云中的每个点赋予所属物体或区域的标签。手工标注通常需先绘制边界再填充区域或直接涂抹像素,但该过程耗时且效率低。

为提升效率,许多研究提出了全自动或半自动分割标注方法。例如,Barnes 等人提出一种基于弱监督的全自动分割方法,用于图像中可行驶区域的提取;另一种方法利用目标先验生成分割掩码;Polygon-RNN++ 是一种交互式标注工具;此外,还有方法尝试将 3D 信息转移至 2D 图像域生成语义分割标注;也有研究提出图像辅助的 3D 标注流程,或利用主动学习选取部分点进行训练以避免标注整个点云场景。Liu 等人进一步提出结合弱监督与半监督的高效标注框架用于室外点云。

轨迹标注:
轨迹是反映目标在时间和空间中路径的一系列点。轨迹标注涉及为不同实体(如车辆、行人、自行车等)标注其在驾驶环境中的移动轨迹。该过程通常依赖于目标检测与追踪结果。

早期方法如在线生成动作并标注入轨迹;还有基于众包+专家整合的两步标注流程;Jarl 等人开发了一个主动学习框架用于轨迹标注;Styles 等人提出了一种无需人工的可扩展机器标注方案专用于行人轨迹标注。

合成数据标注:
由于现实世界数据标注昂贵且耗时,利用计算机图形或仿真器生成的合成数据提供了一种替代方案。此类数据生成过程可控,场景中每个物体的位置、尺寸和运动信息都已知,因此可以自动、精准地完成标注。

生成的合成场景模拟现实世界的多目标、多地形、天气与光照条件。选择合适的仿真工具至关重要。早期如 Torcs 和 DeepDriving 缺乏多模态信息与行人等对象。当前广泛使用的开源仿真平台包括 CARLA、SUMO 与 AirSim,可定制化强。而商业平台如 NVIDIA 的 Drive Constellation 受限于非开源,难以创建特殊场景。游戏引擎如 GTA5 和 Unity 也被用于合成数据构建。

具体地,有研究利用 GTA5 引擎构建数据集;也有研究基于多个游戏构建实时系统用于多任务数据生成。SHIFT、CAOS、FedBEVT 和 V2XSet 等数据集基于 CARLA 仿真器生成,V2XSim 更进一步结合多个仿真平台以构建 V2X 感知任务数据集;CODD 进一步利用 CARLA 生成 3D LiDAR 数据用于协同驾驶。还有部分研究基于 Unity 开发平台生成合成数据集。

(二)标注质量

基于监督学习的自动驾驶(AD)算法在很大程度上依赖于大量高质量、标注精确的数据集。优质数据集确保系统能够准确感知并理解复杂的驾驶环境,从而提升道路安全性和系统的可靠性。这不仅增强了用户的信任感,也是自动驾驶汽车广泛应用的关键前提。相反,低质量的数据集可能导致系统错误和安全风险,进而削弱用户信心、阻碍技术接受度,且无法满足值得信赖的人工智能的标准。

因此,在现实复杂驾驶场景中,提高标注质量对于提升感知准确性至关重要。相比于微调模型结构,更重要的是优化数据质量并使用主动学习方法对数据集进行筛选与完善,以在测试集上获得稳健的性能表现。

研究指出,影响标注质量的因素包括一致性、正确性、精确性和验证机制。

  • 一致性 是评估标注质量的首要标准,要求在整个数据集中保持统一。例如,如果某一类型的车辆被标注为“car”,那么所有同类对象在数据集中都应保持一致标注,避免模型学习混淆。
  • 精确性 指标注是否真实反映了物体或场景的实际状态,是另一个关键指标。
  • 正确性 表示标注内容是否符合数据集目标与标注规范。
  • 验证机制 是保障标注数据准确与完整的最后一道防线。验证过程可以通过专家人工审查或算法完成,有效防止低质量数据影响自动驾驶系统性能,降低潜在安全风险。

在这里插入图片描述

例如,KITTI 数据集中存在标注错误的案例(上图):图像左侧红圈部分的车辆边界框并未完整覆盖整辆车,导致标注不准确;绿色框部分的两辆清晰可见的汽车在图像与点云中均未被标注。此外,像 IPS300+ 这样的数据集虽然平均每帧有 319.84 个标注对象,但整体标注质量较差。

相比之下,诸如 Pandaset、Oxford、CADC、nuScenes 和 Lyft Level 5 等大型数据集则由专业标注公司(如 Scale AI)负责标注,保证了标注质量。例如,标注 nuScenes 数据集花费了大约 7,937 小时和 10 万美元的成本。

另一类标注方式是使用自定义标注工具,如 3D BAT(被用于创建 TUMTraf 数据集)、Waymo 和 KITTI 数据集均使用自研工具完成标注;V2V4Real 则使用了 SUSTechPoints 工具生成标注数据。

五、数据分析

本节中,我们从多个角度对自动驾驶相关数据集进行了系统分析,包括全球范围内的数据分布、时间上的发展趋势,以及数据分布情况。

(一)全球分布情况

在这里插入图片描述
我们在上图中展示了191个自动驾驶数据集的全球分布概览。图表显示,美国以40个数据集(占比21%)位居领先地位,凸显其在自动驾驶领域的领导地位。德国拥有24个数据集,中国紧随其后,有16个数据集。相比之下,加拿大、韩国、英国、日本和新加坡等发达国家所占份额较小。尽管有11个数据集为全球采集、24个来自除德国外的欧洲地区,但这些国家或地区都属于高收入区域。美国、西欧和东亚的主导地位反映出自动驾驶技术在全球范围内的发展极为不平衡。

具体来看,最经典的数据集之一KITTI是在德国卡尔斯鲁厄的城市区域采集的。相比之下,Waymo 和 Argoverse 2 数据集则分别来自美国六个不同城市的广泛采集。Apolloscapes 和 DAIRV2X 数据集采集于中国。而nuScenes数据集并非只基于某一个国家的数据,而是基于美国波士顿和新加坡两个城市的数据,这两个地区以其复杂且具有挑战性的交通环境而著称。其他广为人知的自动驾驶数据集也均采集自上述提到的国家。值得一提的是,由于地域多样性,nuScenes 和 Waymo 数据集在迁移学习中被广泛使用,以验证自动驾驶算法的泛化能力。

此外,不同的地理区域面临着独特的自动驾驶挑战。若仅依赖单一来源的数据,可能会引入偏差,导致自动驾驶车辆在多样化或未见过的区域和场景中表现不佳。例如,中国的电动滑板车种类和数量远超德国,这意味着若算法仅在德国数据上训练,可能难以准确识别中国的目标。因此,从不同大洲和国家采集数据,有助于解决地理位置所带来的独特挑战。这种多样化的区域分布增强了数据集的鲁棒性,也体现了学术界与工业界在全球范围内的努力与合作。

此外,还有35个由模拟器(如CARLA)生成的合成数据集,占比18.32%。由于现实世界驾驶环境采集存在诸多限制,这些合成数据集有效克服了这些问题,对于开发更具鲁棒性和可靠性的驾驶系统至关重要。然而,从合成数据到真实数据的领域适配仍是一项具有挑战性的研究课题,这在一定程度上限制了合成数据及相关模拟器的广泛应用。

(二)感知数据集的时间发展趋势

在这里插入图片描述

上图中,我们展示了从2009年到2024年(截至本文撰写时)感知数据集的时间轴概览,这些数据集为影响力得分排名前50的数据集。图中按数据集的来源领域进行颜色编码,合成数据集则用红色外框标注,从而清晰地展现出数据采集策略日益多样化的发展趋势。可以明显看出,随着自动驾驶领域的不断进步,数据集的数量和类型逐年增加,反映出对高质量数据集日益增长的需求。

总体而言,大多数数据集提供的是来自自动驾驶车辆本体(onboard)上安装的传感器的感知视角,这是因为自动驾驶车辆需要具备高效且精准地感知周围环境的能力。另一方面,由于现实世界数据采集成本较高,一些研究者提出了高影响力的合成数据集,如2016年发布的VirtualKITTI,以缓解对真实数据的依赖。在模拟器技术的有效推动下,近年来也涌现出许多新颖的合成数据集。

在时间轴中,我们还可以看到V2X数据集(如DAIR-V2X和TUMTraf系列)展现出向协同驾驶系统发展的趋势。此外,得益于无人机所提供的非遮挡视角,基于无人机的数据集(例如2018年发布的UAVDT)在推动感知系统发展方面也占据着重要地位。

(三)数据分布情况

我们在下图中展示了这些数据集中每帧物体数量的概览。值得注意的是,Waymo 数据集在帧数量少于 50 个物体的区间内占据了极大比例,同时又广泛分布于整个图表中,说明它涵盖了从低密度到高密度场景的广泛场景分布。相比之下,KITTI 数据集的分布更为集中,且数据规模有限。Argoverse 2 数据集包含大量物体数量较多的帧,其峰值出现在约 70 个物体附近,说明其整体场景较为复杂。对于 ONCE 数据集,其物体密度在支持的感知范围内分布较为均匀。

在这里插入图片描述

像 nuScenes 和 ZOD 这样的数据集展示了类似的曲线:快速上升后缓慢下降,表明其场景复杂度适中,且每帧物体数量的变化范围较大。

除了每帧的物体数量之外,根据物体与自车距离进行的分布分析也是揭示数据集多样性和差异性的关键因素,如图15所示。Waymo 数据集标注了大量近距和中距离的物体;相比之下,Argoverse 2 和 ZOD 展示了更广泛的探测范围,有些帧甚至包含超过 200 米之外的边界框。

nuScenes 数据集的曲线表明它在近距离场景中物体丰富,这与城市驾驶场景的特点一致。但随着距离增加,其标注物体数量迅速下降。ONCE 数据集在不同距离上物体分布更为平均,而 KITTI 数据集则更多集中于近距离目标。

(四)不利环境条件的影响

我们进一步研究了对抗性环境条件(如低照度和下雨)对自动驾驶系统中 3D 目标检测器性能的影响。实验结果如下表所示。我们使用了 nuScenes 数据集,并选择了三种当前最先进的方法:VoxelNext、UTVR 和 Transfusion。为了公平比较,我们直接使用了各自开源库中提供的预训练模型。在 nuScenes 验证集中,我们手动筛选出了雨天和夜间的子集用于实验。

在这里插入图片描述

这三种方法在不同环境条件下表现出相似的趋势。具体而言,与在完整验证集上的评估结果相比,在低照度条件下的检测精度显著下降。此外,在 nuScenes 记录的非强降雨天气条件下,所有模型的性能也都有轻微下滑。而在更严重的降雨条件下,检测器在真实环境中的可靠性可能会更加恶化。

因此,在摄像头或传感器融合的方法中,考虑图像增强或还原处理是应对这些挑战的一种有前景的方向。

总之,增加在各种类型与强度天气条件下采集的数据量,对于训练一个鲁棒且可靠的自动驾驶系统至关重要。

六、数据分析讨论与未来工作

随着技术的快速发展、强大的计算资源以及卓越的人工智能算法,下一代自动驾驶数据集呈现出许多新的发展趋势,同时也带来了新的挑战和需求。

端到端驾驶数据集:相比于模块化设计的自动驾驶流程,端到端架构简化了整体设计过程,减少了系统集成的复杂性。UniAD 的成功验证了端到端模型的潜在能力。然而,现有专门面向端到端自动驾驶的数据集数量仍较少。因此,构建专注于端到端驾驶的数据集对推动自动驾驶发展至关重要。另一方面,在数据引擎中实现自动标注流程将显著促进端到端驾驶框架和数据的开发。

自动驾驶数据集的潜在应用:未来的自动驾驶数据集应提供丰富的真实世界环境和交通数据,支持自车及车辆与基础设施协作之外的更广泛应用。例如,自动驾驶车辆与智能基础设施之间的交互数据可以引导物联网设备(如智能交通灯)的发展。此外,不同时间和条件下的交通模式、拥堵情况和车辆行为的深入分析将有助于城市规划、交通流优化以及整体交通管理策略的提升。

在自动驾驶数据集中引入语言信息:近年来,视觉语言模型(VLM)在多个领域取得显著进展。它在视觉任务中引入语言信息的优势,使得自动驾驶系统更加可解释和可信。相关研究指出,多模态大语言模型在感知、运动规划和运动控制等自动驾驶任务中发挥了重要作用。当前已有部分自动驾驶数据集包含语言标注。整体而言,将语言纳入自动驾驶数据集已成为未来的重要发展方向。

通过 VLM 生成数据:VLM 的强大能力也可用于数据生成。例如,DriveGAN 可在无监督条件下解耦各个组成部分生成高质量自动驾驶数据。借助世界模型对驾驶环境的理解,一些研究使用世界模型生成高质量驾驶视频,如 DriveDreamer 基于真实世界场景提出,克服了传统游戏或仿真环境的局限。最新的文本生成视频技术,如 Sora,可以根据简单描述生成逼真的自动驾驶场景数据,显著增强了数据增强能力,尤其适用于交通事故等稀有事件的数据扩展。这将有力推动自动驾驶系统的训练与评估,提升其安全性与可靠性。

领域自适应问题:领域自适应是自动驾驶发展中的关键挑战,指模型在一个数据集(源域)上训练后能否在另一个数据集(目标域)上稳定运行。这一挑战体现在多方面,如驾驶条件多样性、传感器设置差异,或从合成到真实数据的迁移。因此,下一代数据集应更多融合异质数据源。首先,数据集应涵盖多种环境条件(如不同天气、昼夜变化)及地理区域。其次,融合多种传感器数据类型对于解决领域自适应问题也至关重要。此外,平衡使用高质量合成数据与真实数据,也是提升模型泛化能力的一种解决方案。

自动驾驶中的不确定性问题:在机器学习领域,不确定性通常以概率方式建模,包括:a)源自数据的随机性(即“不可避免的不确定性”);b)因对最佳模型缺乏了解而产生的认知不确定性。自动驾驶中的主要不确定性来源于训练数据的不足。数据无法完整覆盖驾驶环境,导致自动驾驶车辆在稀有场景下表现不稳定。因此,提升数据集的多样性、涵盖稀有事件和边界情况,有助于模型更好理解和量化不确定性,从而安全应对突发情况。

数据创建的标准化问题:数据创建的标准化对新数据集开发至关重要,直接影响模型的准确性、效率与可靠性。数据标准化包括数据属性、术语结构与数据存储三个方面。统一不同传感器类型与源域之间的数据格式有助于集成处理与分析。制定全面的标注指南可保障数据标注的一致性和高质量,从而增强模型在多数据集上的训练效果与稳定性。同时,建立标准化的数据存储与访问协议,支持不同来源数据集的共享与整合,促进研究社区之间的协作与发展。

数据隐私问题:自动驾驶的发展依赖于大量数据以保障行车安全,但数据越多,越容易引发隐私泄露的担忧。早期的数据集如 KITTI,并未进行图像匿名处理,存在泄露私人信息的风险。随着各国相关法规的引入与完善,越来越多新数据集开始采用数据匿名化处理。但即便去除了个人信息和车牌号,专业机构仍可通过分析车辆类型、行人穿着等信息,间接推断出数据采集地点的基础设施、城市建设等特征。因此,隐私保护仍需持续关注。

开放数据生态(ODE):自动驾驶领域的开放数据生态旨在促进创新、提升透明度,并推动政府、企业与研究社区的协作。这通过数据集的自由交换,打破了传统的数据访问壁垒,使更多创新者参与其中,构建多元化与包容性的创新生态。此外,ODE 建立了动态反馈机制,用户可报告问题、提出改进建议、参与数据集优化。但完全开放的数据访问也带来安全与隐私风险。因此,构建并不断完善相应的法律框架,保障敏感信息安全的同时,推动 ODE 的健康发展,成为关键所在。

七、总结

在本文中,我们对现有的 265 个自动驾驶数据集进行了全面而系统的回顾。我们首先从传感器类型与模态、感知域以及与自动驾驶相关的任务出发,梳理了数据集的基本构成。我们引入了一种名为“影响力分数(impact score)”的新型评估指标,用于衡量感知类数据集的影响力与重要性。我们深入分析了在感知、预测、规划、控制以及端到端自动驾驶任务中具有代表性的数据集的属性与价值。

此外,我们探讨了数据集的标注方式及影响标注质量的关键因素,并从时间轴与地理分布两个维度分析了数据集的发展趋势。我们还通过实验验证了在复杂环境条件下多样化数据的重要性,并从数据分布角度提供了理解不同数据集差异性的独特视角。

我们的研究结果强调了多样性和高质量数据集在塑造自动驾驶未来中的关键作用。展望未来,我们提出了自动驾驶数据集面临的主要挑战与发展方向,包括引入视觉语言模型(VLM)、解决领域自适应问题、应对不确定性挑战、推动数据创建的标准化、加强数据隐私保护,以及构建开放数据生态。

这些方向不仅为未来研究提供了明确路径,也对推动自动驾驶技术的发展至关重要,为这一快速演进的领域注入更多创新动力。

参考文献

  1. A Survey of Autonomous Driving from a Deep Learning Perspective
  2. End-to-End Autonomous Driving: Challenges and Frontiers
  3. Autonomous driving system: A comprehensive survey
  4. Recent Advancements in End-to-End Autonomous Driving using Deep Learning: A Survey
  5. A Survey of Autonomous Driving: Common Practices and Emerging Technologies
  6. A Survey on Autonomous Driving Datasets_Statistics, Annotation Quality, and a Future Outlook
  7. https://github.com/HaoranZhuExplorer/World-Models-Autonomous-Driving-Latest-Survey?tab=readme-ov-file
http://www.dtcms.com/a/272044.html

相关文章:

  • 一句话理解 ——【单点登录】
  • 【性能测试】jmeter+Linux环境部署和分布式压测,一篇打通...
  • 阿里云错题集分享
  • 在IDEA中无缝接入DeepSeek:智能编程助手指南
  • 如何把Arduino IDE中ESP32程序bin文件通过乐鑫flsah_download_tool工具软件下载到ESP32中
  • 探索Alibaba-NLP/WebAgent:迈向智能信息搜索新时代
  • Android 如何阻止应用自升级
  • Kafka的无消息丢失配置怎么实现
  • 快速将照片从三星手机传输到电脑
  • 第1讲:C语言常见概念
  • 修改eslint.config.mjs允许使用any
  • 等保测评、密评与信息系统监理服务的集中委托模式分析
  • 智慧监所:科技赋能监狱管理新变革
  • 「Java EE开发指南」如何用MyEclipse将Java项目转换为Web项目?
  • QT解析文本框数据——概述
  • NW710NW713美光固态闪存NW719NW720
  • Three.js+Shader实现三维波动粒子幕特效
  • 当前,AI只是能力放大器
  • 爬虫-正则使用
  • Java 大视界 -- Java 大数据在智能交通智能停车诱导与车位共享中的应用(341)
  • pycharm无法识别pip安装的包
  • C++之string类的实现代码及其详解(下)
  • 多模态大语言模型arxiv论文略读(155)
  • 处理Web请求路径参数
  • 基于odoo17的设计模式详解---访问模式
  • 构建分布式光伏“四可”能力:支撑新型电力系统安全稳定运行的关键路径
  • 如何在 Ubuntu 上安装 Linux 杀毒软件 ClamAV,排除系统已经感染木马或病毒
  • 设计模式 - 教程
  • 自动驾驶控制系统
  • 低频低压减载装置