智能交通顶刊TITS论文分享|一种可以提高车辆轨迹预测精度和稳定性的稀疏时空Transformer模型
本推文介绍了智能交通领域顶级期刊IEEE Transactions on Intelligent Transportation Systems(简称为TITS)的一篇论文《Interaction-Aware Trajectory Prediction Method Based on Sparse Spatial-Temporal Transformer for Internet of Vehicles》。该论文提出了一种稀疏时空Transformer(SSTT)模型,旨在解决车联网环境下因感知范围扩大而导致的时空交互冗余问题。SSTT通过集成可学习的稀疏空间Transformer和局部-全局时序Transformer,有效提升了在密集交互交通场景中的预测精度与稳定性。该模型首先利用注意力机制构建车辆间的交互,随后通过一个创新的稀疏化模块自动过滤非关键交互,使模型聚焦于对目标车辆轨迹有实质影响的邻居车辆。为了高效捕捉时序依赖,模型采用局部时间窗口来提取局部相关性,并通过层叠结构逐步融合全局信息。实验结果表明,SSTT在NGSIM、HighD和RoundD等多个真实世界数据集上的性能显著优于现有方法,尤其值得注意的是,仅使用15%的训练数据时其表现仍可超越多数基线模型,展现了卓越的效能与泛化能力。此外,该模型经过优化后可高效部署,为车联网中的实时、高精度轨迹预测提供了轻量且强大的解决方案。
本推文由龚裕涛撰写,审核为王一鸣和黄忠祥
原文链接:https://xplorestaging.ieee.org/document/10964067
期刊介绍
IEEE Transactions on Intelligent Transportation Systems(TITS)是智能交通领域顶级期刊之一,涵盖了现代交通系统所有科学和技术方面的基础和应用研究,包括但不限于智能交通系统的传感、通信、控制、规划、设计和实施。它涵盖了交通系统的理论、方法、建模和模拟、实验和评估,包括多式联运、地面运输交通、协调的多辆车、基础设施和其他道路使用者(行人、骑自行车者等)及其相互作用。
一、研究背景和主要贡献
随着人工智能与自动驾驶技术的快速发展,车联网环境下的车辆轨迹预测成为提升交通系统智能化水平与通信安全的关键技术。如图1,通过车辆间实时数据共享,系统能够扩展感知范围并支持分布式处理,但同时也对数据传输效率与用户隐私保护提出了更高要求。当前,基于深度学习的轨迹预测方法,尤其是采用注意力机制的Transformer模型,虽在捕捉时空依赖关系方面展现出潜力,却普遍存在冗余交互问题,即难以有效过滤非关键车辆的影响,导致注意力分散、预测稳定性下降,且模型计算成本高、依赖大量数据,制约了其在真实场景中的部署效果。因此,需要一种能够精准聚焦关键交互、兼顾效率与精度的轻量化预测方法,以支撑车联网在复杂动态交通环境中的实际应用。
该论文为解决冗余交互问题,论文提出一种稀疏时空Transformer(SSTT),通过引入可学习的稀疏模块,优化注意力权重分布,使模型聚焦于关键交互车辆,提升预测精度与收敛效率。同时,设计局部-全局时序Transformer,在降低计算复杂度的前提下捕捉长短期时间依赖关系。

论文主要贡献:
1、提出稀疏时空Transformer(SSTT)框架
论文创新性地提出了一种面向车联网的稀疏时空Transformer框架SSTT,旨在有效解决多车交互场景中存在的时空注意力冗余问题。该框架通过稀疏空间交互建模与局部-全局时序特征提取,显著提升了轨迹预测的准确性与模型收敛效率。
2、可学习的稀疏空间交互模块
设计了一个可嵌入多头注意力机制中的可训练稀疏化模块,通过设定动态阈值自动过滤非关键车辆间的交互权重,使模型能够聚焦于真正影响目标车辆的关键邻居,从而在复杂交通场景中实现更精准的交互感知。
3、局部-全局时序Transformer模块
提出了一种局部-全局时序建模方法,通过定义局部时间窗口来捕捉短期时序特征,并利用层次化Transformer结构逐步扩大感受野以融合长期依赖。该模块在不过度增加计算复杂度的前提下,有效增强了对车辆运动连续性的建模能力。
4、多模态轨迹预测与驾驶意图识别
采用并行分支结构,将提取的稀疏时空特征分别输入至多层感知机(MLP)和LSTM解码器,同步预测车辆的横向/纵向驾驶意图以及多模态的未来轨迹分布,增强了模型在复杂动态场景中的行为覆盖能力和解释性。
5、实验验证与性能表现
在NGSIM、HighD和RoundD三个真实世界数据集上的实验表明,SSTT在各项指标(上均优于现有主流方法,尤其在长时预测上提升显著。消融实验进一步证实了稀疏学习与局部-全局模块的关键作用,并且仅使用15%的训练数据即可达到SOTA性能,展现出极强的数据效率与泛化能力。
二、研究方法
2.1 框架概览
如图2,SSTT框架是一个专为车联网多车交互场景设计的车辆轨迹预测模型。其核心创新在于通过稀疏化处理解决传统注意力机制中的交互冗余问题。该框架采用端到端的结构,首先通过全连接层和LSTM对目标车辆及周围邻居车辆的历史轨迹进行运动特征编码;随后利用稀疏空间Transformer模块提取关键的空间交互特征,其中可学习的稀疏化模块能自动过滤非关键车辆的干扰;接着通过局部-全局时序Transformer模块,采用局部时间窗口和层次化结构来有效捕捉长短时序依赖关系;最后将提取的稀疏时空特征进行融合,通过并行分支结构同步预测驾驶意图和多模态未来轨迹分布。整个框架通过聚焦关键交互信息,在保证预测精度的同时显著提升了模型的效率和泛化能力。

2.2 可学习的稀疏空间交互模块(SST)
该模块旨在精准筛选出对目标车辆有实质影响的邻居车辆。它在标准的多头注意力机制后,增加了一个可训练的稀疏化层。该层会计算一个动态阈值,将注意力权重图中代表微弱或冗余交互的权重置零,从而生成一个“稀疏”的注意力图谱。这使得模型能够排除无关车辆的干扰,将计算资源集中在对预测至关重要的关键交互上,显著提升了空间交互感知的准确性。如图3,左侧(传统Transformer),注意力权重在所有邻车中均匀分配,无法突出关键交互;右侧(SST),通过稀疏模块过滤低权重冗余交互,仅保留高权重的关键邻车影响。

2.3 局部-全局时序Transformer模块
该模块旨在高效捕捉车辆轨迹的时序依赖性。它采用了一种由局部到全局的策略:如图4,首先,将整个时间序列划分为多个局部窗口,在窗口内部使用自注意力来提取精细的短期动态特征;然后,通过堆叠多层Transformer块,逐步融合不同窗口的信息,从而将感知野扩展到整个序列以理解长期趋势。这种设计避免了直接计算全局注意力带来的高昂计算成本,在保证效率的同时实现了对车辆运动连续性的有效建模。

2.4 多模态轨迹预测与驾驶意图识别
该模块负责生成最终预测,以应对未来轨迹的不确定性。如图5,它采用并行分支结构:一个分支通过MLP和Softmax层分类输出车辆的横向(如左转、保持、右转)和纵向(如加速、减速、保持)驾驶意图;另一个分支则将意图信息与时空特征融合,通过LSTM解码器生成符合未来多种可能性的多模态轨迹分布(通常用高斯混合模型表示)。这种设计不仅提高了预测精度,也增强了模型对复杂场景中不同驾驶行为的覆盖能力和决策的可解释性。

三、实验结果
3.1 实验设置
1.数据集
该论文采用三个广泛使用的真实世界车辆轨迹数据集进行综合性能评估:
(1)NGSIM:包含美国US-101和I-80高速公路的车辆轨迹数据,采样频率为10Hz,是轨迹预测领域的经典基准数据集。其交通密度高,交互复杂,主要用于验证模型在密集交通场景下的核心性能。
(2)HighD:通过无人机在德国高速公路上采集的大规模数据集,采样频率为25Hz,包含超过11万辆车、总里程达4.5万公里的轨迹。其数据量远超NGSIM,以其高精度和大规模特性,用于验证模型在数据充分时的潜力和可扩展性。
(3)RoundD:在德国环形交叉路口采集的数据集,记录了车辆在非结构化、复杂交互场景下的轨迹。该数据集用于严格测试模型在城市道路场景(如环岛)中的泛化能力和适应性。
实验设计上,除了在整个测试集上进行评估,论文还特意将NGSIM数据集按交通密度划分为轻、中、重三个子集,以深入分析模型在不同拥堵程度下的鲁棒性。
2.评价指标
论文采用轨迹预测领域公认的三个核心指标进行全面评估:
(1)RMSE(均方根误差):核心指标,计算预测点与真实点之间的欧氏距离,对较大误差更为敏感。报告在1秒至5秒多个预测时间点上的结果,以全面衡量短期到长期的预测精度。
(2)ADE(平均位移误差):计算整个预测轨迹序列与真实轨迹序列的平均点对点误差,反映整体轨迹的预测准确性。
(3)FDE(最终位移误差):专门衡量预测时间终点(如第5秒)时预测位置与真实位置的偏差,是评估长期预测意图准确性的关键指标。
3.2 对比实验
如表1,在NGSIM和HighD这两个主要数据集上,SSTT在所有预测时间点(1-5秒)的RMSE指标上均取得了最佳结果(表中加粗部分),尤其是在更困难、更重要的长期预测(3-5秒)上,优势极为显著。这表明SSTT预测的轨迹远比其他方法更接近真实轨迹。在NGSIM数据集上,SSTT将5秒预测的RMSE从之前最佳方法(HLTP)的2.93米降低到2.58米,相对提升约12%。在HighD数据集上,提升更为惊人,将5秒预测的RMSE从0.59-0.62米大幅降低到0.25米,提升幅度超过50%。在RoundD环形交叉路口数据集(复杂城市场景)上,SSTT在短期和中期预测(1-3秒)上保持领先,虽然在4秒预测时略低于BAT方法,但其平均RMSE仍为最优。这证明了SSTT能够有效地从高速公路场景泛化到结构迥异的复杂城市场景。与CS-LSTM等传统方法相比,SSTT的性能提升是代际级别的,如NGSIM上5秒预测误差从4.37米降至2.58米,充分显示了Transformer架构结合稀疏设计的强大优势。
表1 模型与现有最优方法(SOTA)的定量结果对比
与表1主要展示RMSE不同,表2采用了指标ADE和FDE。ADE衡量的是整条预测轨迹与真实轨迹之间的平均偏差,数值越低说明整个预测路径越准确。FDE衡量的是在预测终点(第5秒)的偏差,数值越低说明模型对车辆最终位置的预测越准,这对自动驾驶的最终决策至关重要。如表所示,SSTT在ADE和FDE两个指标上均取得了最佳成绩,显著低于其他对比模型。这说明了SSTT的预测优势是全面的,更准确的整条路径(ADE从1.56降至1.32),表明SSTT生成的未来轨迹序列在整体形状和路线上更贴近真实情况。表明SSTT能更好地判断车辆的长期意图(如最终要进入哪个车道),这对于自动驾驶车辆提前规划至关重要。表2的对比模型(如STDAN、HLTP)大多依赖于全局交互,而SSTT通过稀疏化过滤了冗余交互。其ADE和FDE的显著降低,直接证明了“聚焦关键交互”的策略比“全盘接收所有交互”的策略更有效,能够学习到更鲁棒和更具因果性的运动模式。总结而言,表2是对表1结果的重要补充和强化。它从“整体轨迹精度”和“终点预测精度”两个维度,共同证实了SSTT模型不仅在各时间点的瞬时误差(RMSE)上领先,其预测的整个轨迹路径和最终意图也更为准确可靠,进一步验证了其核心创新点的有效性。
表2 在NGSIM数据集上基于ADE和FDE指标与现有最优(SOTA)基线方法的对比
3.3消融实验
如表3,定量验证了SSTT框架中各核心组件的必要性。实验结果表明,当使用标准Transformer替换稀疏空间Transformer(Model A)或局部-全局时序Transformer(Model B)时,ADE和FDE指标均出现显著下降,证明这两个模块是提升性能的关键。进一步地,在保留局部-全局结构但移除其时序稀疏学习模块后(Model C),性能仍优于基线但低于完整模型,说明稀疏化策略在时空维度均具有普适有效性。最终,集成所有模块的完整SSTT模型取得了最佳性能,证实了稀疏空间交互建模与局部-全局时序提取的协同作用,共同通过聚焦关键信息显著提升了轨迹预测的准确性。
表3 SSTT各组件的消融实验
四、总结
本文针对车联网环境中车辆轨迹预测的关键挑战:时空交互冗余问题,提出了一种新颖的稀疏时空Transformer(SSTT)框架。论文的核心创新在于将“稀疏化”思想引入轨迹预测模型。通过设计可学习的稀疏空间Transformer,模型能够自动过滤非关键车辆产生的噪声交互,精准聚焦于对目标车辆有实质影响的邻居;同时,通过局部-全局时序Transformer,以高效的方式捕捉车辆运动的短期动态与长期依赖。大量实验表明,SSTT在NGSIM、HighD和RoundD等多个真实世界数据集上显著超越了现有主流方法,尤其在长期预测精度上提升显著。该模型还展现出卓越的数据效率,仅需15%的训练数据即可达到业界领先水平,并成功部署于嵌入式系统,实现了高精度与实时性的平衡。