CVPR 2025端到端自动驾驶新进展:截断扩散模型+历史轨迹预测实现精准规划
关注gongzhonghao【CVPR顶会精选】
端到端自动驾驶通过一条流水线将感知、预测与规划无缝衔接,实现从传感器输入到控制输出的整体建模。利用DiffusionDrive和历史预测技术,可在三个月内快速搭建验证流程,聚焦关键创新点,高效产出CVPR论文,掌握前沿自动驾驶研究方法。
今天小图给大家精选3篇CVPR有关自动驾驶方向的论文,请供大家参考和借鉴。
论文一:DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
方法:
作者首先将多传感器感知与车况等信息编码到紧凑的潜空间,在该空间内由扩散模型生成高质量的候选规划轨迹与控制先验,从源头避免原始空间建模带来的冗余与噪声放大。随后引入截断扩散策略,并通过合适的步长/噪声调度与暖启动初始化维持采样稳定性与多样性,从而在延迟与质量之间取得优雅的平衡。最后以轻量高效的解码器将潜在采样结果映射为可执行的车辆控制与时序轨迹,端到端联合优化分类/回归与规划一致性损失,实现闭环下的流畅驾驶与显著超越基线的综合指标表现。
创新点:
截断扩散策略:在不牺牲采样稳定性的前提下裁剪去噪步数,并配合合理调度,显著降低延迟、提升实时性。
高效解码器设计:以轻量结构将潜在表示快速映射到轨迹与控制信号,最大化保留扩散生成的细节并减少信息损失。
端到端可训练闭环:将感知—规划—控制纳入统一可微框架,兼顾精度、稳定性与执行效率,整体性能优于现有基线。
论文链接:
https://arxiv.org/html/2411.15139v3
图灵学术论文辅导
论文二:Bridging Past and Future: End-to-End Autonomous Driving with Historical Prediction and Planning.
方法:
作者首先构建时序特征库,将多帧传感信息编码为紧凑表征,使当前时刻的感知节点具备对动态体与场景变化的长期记忆。接着,模型在共享解码器中联合执行历史预测与未来规划,利用跨注意力将历史语义与运动先验注入候选目标与自车轨迹的估计过程,从而在定位、交互理解与可行轨迹生成之间形成闭环耦合。最后,端到端训练以检测/预测损失和规划一致性损失共同驱动,使网络在多样驾驶场景中学会权衡安全与效率,并在闭环评测中展现更平滑、更稳健的驾驶行为。
创新点:
提出基于多步查询的时序信息聚合机制,显著缓解短时视野带来的决策偏差。
在统一框架下将历史预测与运动规划共享表示并联合优化,让“看懂过去的世界”直接服务于“驶向未来的轨迹”。
通过跨时刻对齐与一致性约束稳住特征演化,降低噪声与遮挡对下游决策的干扰,提升闭环执行的可靠性。
论文链接:
https://arxiv.org/abs/2503.14182
图灵学术论文辅导
论文三:DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving
方法:
系统将多视角图像与自车状态编码为多模态token,经投影层对齐后喂入LLM主干,保证信息在统一语义空间内高效融合与推理。LLM以指令式提示聚合时空上下文与驾驶规则,生成结构化的未来意图与控制草案,保持连贯且可解释的推理链条。轻量控制头把草案映射为连续低级控制,训练时联合示教监督、闭环稳定性与速度正则,并用高效解码与调度策略降低端到端延迟。
创新点:
将图像与车辆状态统一到可被大模型消费的语义空间,使模型能直接输出可执行的细粒度控制信号
轻量控制解码头:在LLM上方增设小型解码模块,将隐表示高效转译为转向/油门/制动等低级命令,实现低延迟闭环。
快速推理与闭环监督:通过压缩推理路径与闭环训练目标联合约束,兼顾速度、稳定性与安全性,显著优于基线模型。
论文链接:
https://chatpaper.com/zh-CN/chatpaper/paper/155202
本文选自gongzhonghao【CVPR顶会精选】