当前位置: 首页 > news >正文

CVPR 2025论文分享|一种融合世界模型的4D驾驶场景重建框架DriveDreamer4D

本推文介绍了图像处理领域顶级会议CVPR 2025的一篇论文《DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation》。该论文提出DriveDreamer4D框架,该框架通过融合世界模型的先验知识,提升4D驾驶场景表征能力。具体而言,该论文将世界模型用作数据生成工具,合成新轨迹视频,其中显式利用结构化条件来控制交通元素的时空一致性。此外,文中还提出同源数据训练策略(CDTS),以促进真实数据与合成数据的融合,从而优化4DGS模型。DriveDreamer4D是首个将视频生成模型用于改进驾驶场景下4D重建效果的框架。实验结果表明,DriveDreamer4D显著提升了新轨迹视角下的生成质量:与PVG、S3Gaussian和Deformable-GS相比,FID指标相对提升分别为32.1%、46.4%和16.3%。此外,DriveDreamer4D大幅增强了驾驶智能体(如车辆、行人)的时空一致性,这一点通过全面的用户研究以及新轨迹智能体交并比(NTA-IoU)指标分别提升22.6%、43.5%和15.6%得到验证。

本推文由邓镝撰写,审核为韩煦。

原文链接:https://arxiv.org/abs/2410.13571 

项目链接:https://drivedreamer4d.github.io/

演示视频:

演示视频 1 基线方法PVG与DriveDreamer4D的生成效果比较

演示视频 2 基线方法S3Gaussian与DriveDreamer4D的生成效果比较

演示视频 3 基线方法Deformable-GS与DriveDreamer4D的生成效果比较

一、研究方法研究背景与主要贡献

端到端规划(即将传感器输入直接映射为控制信号)是自动驾驶领域中最关键且最具前景的任务之一。然而,当前的开环评估无法准确评估端到端规划算法,因此需要更优的评估方法。一种引人注目的解决方案是在真实场景中进行闭环评估,这需要从任意指定视角获取传感器数据。这就要求构建能够重建复杂动态驾驶环境的4D驾驶场景表征模型。驾驶环境中的闭环仿真主要依赖于场景重建技术,如神经辐射场和3D高斯泼溅(3DGS),但这些技术本质上受限于输入数据的密度,在复杂机动动作中难以实现准确渲染。为缓解这一局限性,SGD和GGS等方法利用生成模型扩展训练视角范围,但这些方法主要补充稀疏图像数据或静态背景元素,无法对动态交互驾驶场景的细节进行建模。近年来,自动驾驶世界模型已经能够生成多样化、且与指令对齐的视频视角,这一进展为自动驾驶闭环仿真带来新的可能。然而,这些模型仍局限于2D视频生成,缺乏准确建模复杂驾驶场景所需的时空一致性。

该论文提出DriveDreamer4D框架,通过融合自动驾驶世界模型的先验知识,改进4D驾驶场景表征。该研究将自动驾驶世界模型用作生成引擎,合成新轨迹视频数据,以丰富真实驾驶数据集,从而提升训练效果。论文中提出的新轨迹生成模块(Novel Trajectory Genera-

tion Module,NTGM),用于生成多样化的结构化交通条件;DriveDreamer4D利用这些条件,独立调控复杂驾驶环境中前景与背景元素的运动动态。这些条件会与车辆机动动作同步进行视角投影,确保合成数据符合时空约束。随后,文中还提出同源数据训练策略(Cousin Data Training Strategy,CDTS),将时间对齐的真实数据与合成数据融合,用于训练4DGS模型。在CDTS中,进一步引入正则化损失,以确保感知一致性。

文的主要贡献如下:

(1)提出DriveDreamer4D框架,这是首个融合世界模型先验知识以推进自动驾驶4D场景重建的框架;

(2)提出新轨迹生成模块,实现结构化条件的自动生成,使DriveDreamer4D能够生成包含复杂机动动作的新颖轨迹视频,同时保证时空一致性;此外,提出同源数据训练策略,将时间对齐的真实数据与合成数据融合用于4DGS训练,并通过正则化损失维持感知一致性;

(3)通过全面实验验证,DriveDreamer4D 显著提升了新颖轨迹视角下的生成质量,以及驾驶场景元素的时空一致性。

二、研究方法

DriveDreamer4D的整体流程如图2所示。在上半部分,提出的新轨迹生成模块通过调整驾驶动作(如转向角、速度)生成新轨迹。这些新轨迹为提取3D边界框、高清地图等结构化信息提供新视角。随后,可控视频扩散模型根据这些更新后的视角合成视频,并融入与修改后轨迹相关的特定先验知识。在下半部分,提出的同源数据训练策略将时间对齐的真实数据与生成数据融合,用于优化4DGS模型,并通过计算正则化损失确保感知一致性。下文将详细阐述新颖轨迹视频生成和4D重建的CDTS策略。

1 DriveDreamer4D的整体框架。首先,通过改变原始轨迹的动作(如转向角、速度),可得到新轨迹。以第一帧图像以及新轨迹中的结构化信息(3D边界框、高清地图)为条件,生成新轨迹视频。随后,将时间对齐的同源数据对(原始轨迹视频与新颖轨迹视频)进行融合,用于优化4D高斯泼溅模型;在此过程中,会计算正则化损失以确保感知一致性。

2.1 新轨迹视频生成

如前所述,传统4DGS方法在渲染复杂机动动作时存在局限性,这在很大程度上是因为训练数据以简单驾驶场景为主。为解决这一问题,DriveDreamer4D利用世界模型的先验知识生成多样化视角数据,提升4D场景表征能力。NTGM模块生成的新轨迹作为世界模型的输入,从而实现复杂机动动作数据的自动生成。

NTGM包含两个核心组件:(1)新颖轨迹生成;(2)轨迹安全性评估。在新颖轨迹生成阶段,可采用从文本到轨迹的方法自动生成多样化的复杂轨迹;此外,还可根据特定需求自定义轨迹,实现定制化数据生成。

为生成新轨迹,首先将原始轨迹通过计算转换到第一帧的自车坐标系中。在自车坐标系中,车辆航向与x轴正方向对齐,y轴指向车辆左侧,z轴垂直向上(与车辆平面垂直)。因此,可通过调整x轴和y轴方向的数值,分别表示车辆速度和方向的变化。对新生成的轨迹点需进行安全性评估,包括:验证车辆轨迹是否位于可行驶区域内,以及确保与行人或其他车辆无碰撞。一旦生成符合交通规则的新轨迹,即可将道路结构和3D边界框从新轨迹的视角投影到相机视图中,生成与更新后轨迹相关的结构化信息。将这些结构化信息与初始帧、文本信息一同输入世界模型,即可生成符合新轨迹的视频。

2.2 同源数据训练策略

为更好地融合生成数据用于4DGS训练,文中提出CDTS策略。具体而言,构建时间对齐的同源数据对作为最小训练批次。通过数据处理器BatchStack将时间对齐的真实轨迹视频帧和新轨迹视频帧堆叠为训练批次。通过利用每个时间步对齐的真实数据与合成数据,CDTS缓解了4DGS训练中的数据缺口,提升模型学习真实与合成数据一致表征的能力。在优化4DGS时,每个梯度优化步骤前均输入时间对齐的同源数据对。值得注意的是,在使用生成数据集优化4DGS时,不将深度图作为约束,这是因为激光雷达点云数据仅针对原始轨迹采集,当这些点云投影到新轨迹时,无法为新视角生成完整的深度图(新轨迹中可见的物体可能在原始视角中被遮挡),因此融入此类深度图不利于4DGS模型优化。

三、实验

3.1 实验设置

(1)数据集

实验采用Waymo数据集,该数据集包含丰富的真实驾驶日志,但多数日志记录的场景动态性较简单,缺乏密集复杂的车辆交互场景。为弥补这一缺口,文中专门选择8个具有高动态交互特性的场景,这些场景包含大量车辆,且车辆相对位置多样、驾驶轨迹复杂。

(2)实现细节

为验证DriveDreamer4D的通用性和鲁棒性,文中将多种4DGS基线方法集成到框架中,包括Deformable-GS、S3Gaussian和PVG。为保证对比公平性,为Deformable-GS引入激光雷达监督。训练时,将场景分割为多个片段,每个片段包含40帧(与生成模型的输出长度一致)。仅使用前视相机数据,并将所有方法的分辨率统一为640×960。模型采用Adam优化器训练,学习率调度遵循3D高斯泼溅的设置。超参数设置与各基线方法保持一致,训练策略除集成CDTS外无其他差异。

(3)评估指标

传统3D重建任务通常采用峰值信噪比(PSNR)和结构相似性(SSIM)作为评估指标,且验证集与训练数据分布高度匹配(即从视频序列中均匀采样帧作为验证集,其余作为训练集)。然而,在驾驶闭环仿真中,评估重点转向模型在新颖轨迹下的渲染性能,此时无对应的传感器数据,因此PSNR和SSIM等指标不再适用。为此,文中提出“新轨迹智能体交并比(NTA-IoU)”和“新轨迹车道交并比(NTL-IoU)”,用于评估新颖轨迹视角下前景和背景交通组件的时空一致性。

对于NTA-IoU:使用YOLO11检测新轨迹渲染图像中的车辆,得到2D边界框;同时,对原始3D边界框进行几何变换,投影到新视角中,生成对应的2D边界框。对于每个投影的2D边界框,找到距离最近的检测2D边界框,计算二者的交并比(IoU)。

对于NTL-IoU:使用TwinLiteNet从渲染图像中提取2D车道线;同时,将真实车道线投影到2D图像平面;计算渲染车道线与真实投影车道线的平均交并比(mIoU)。

此外,在变道场景中,相对位置不准确以及“飞点”“重影”等伪影频繁出现,这些问题显著降低图像质量。为评估这一现象,采用FID指标,该指标量化新颖轨迹渲染图像与原始轨迹图像的特征分布差异,能有效反映视觉质量,且对“飞点”“重影”等伪影敏感,为复杂场景下的图像保真度提供可靠度量。

最后,通过用户研究评估渲染质量:参与者需在三种新颖轨迹下,将每种基线方法的渲染结果与其对应的DriveDreamer4D增强结果进行对比,评估标准聚焦于整体视频质量(尤其关注车辆等前景物体),并选择更优结果。

3.2 与不同4DGS基线方法的对比

(1)定量结果

如表1所示,将DriveDreamer4D与不同4DGS算法集成后,在变道、加速、减速等多种复杂机动动作中,NTA-IoU和NTL-IoU得分均持续优于基线方法。具体而言,DriveDreamer4D使三种基线方法(PVG、S3Gaussian、Deformable-GS)的平均NTA-IoU分别相对提升22.6%、43.5%和15.6%,凸显了提升前景智能体时空一致性的能力;同时,三种基线方法的平均NTL-IoU分别相对提升1.8%、3.7%和1.6%,显著增强了驾驶场景4D渲染中背景车道线的时空一致性。

1 不同新颖轨迹视角(变道、加速、减速)下NTA-IoU和NTL-IoU得分对比

除验证新颖轨迹渲染的时空一致性外,文中还利用FID指标评估新颖轨迹下的渲染质量。由于加速和减速场景的渲染视角与真实分布相似度较高,FID对算法的区分能力有限,因此FID对比仅聚焦于变道场景。如表2所示,DriveDreamer4D显著优于三种基线方法,FID相对提升分别为32.1%、46.4%和16.3%,证明其提升新颖轨迹视角生成质量的能力。

2 Waymo数据集上新轨迹(变道)视图合成的FID得分对比(数值越低越好)

最后,通过用户研究评估不同方法在新轨迹下的渲染质量(重点关注前景智能体)。对于每种方法,在Waymo数据集的8个场景中,生成三种新颖轨迹(变道、加速、减速)的视图;参与者需在每次对比中选择视觉效果更优的渲染结果。如表3所示,DriveDreamer4D的优选率显著高于基线方法。

3 不同新颖轨迹视图合成中DriveDreamer4D的优选率

(2)定性结果

除定量对比外,还对新轨迹视图渲染进行定性分析。如图3所示,展示了变道场景下的新轨迹视图合成结果:基线算法渲染的图像中,前景车辆随相机运动同步错误变道,部分车辆渲染不完整,背景存在“斑点”和“重影”;尤其在图3最右侧列,基线算法常出现前景车辆模糊重影、天空背景斑点以及车道线模糊等问题。相比之下,DriveDreamer4D显著提升了渲染质量(橙色框标注部分):车辆轮廓更清晰,背景伪影大幅减少。

2 变道场景下新颖轨迹渲染结果的定性对比。橙色框突出显示:在多种基线方法上,DriveDreamer4D均显著提升了渲染质量。

四、总结

该论文提出DriveDreamer4D框架,通过融合世界模型的先验知识,推进4D驾驶场景表征研究。针对当前传感器仿真方法的关键局限性:依赖直行驾驶训练数据分布、无法建模复杂机动动作,DriveDreamer4D利用世界模型生成新颖轨迹视频,补充真实驾驶数据;通过显式利用结构化条件,该框架维持了交通元素的时空一致性,确保生成数据符合真实驾驶场景的动态特性。实验表明,DriveDreamer4D在生成多样化仿真视角方面实现了更优质量,显著提升了渲染保真度和场景组件的时空一致性。这些结果证明,DriveDreamer4D有望成为闭环仿真的基础,为动态驾驶场景的高保真重建提供支持。

http://www.dtcms.com/a/578725.html

相关文章:

  • 咸阳网站建设公司电话wap免费
  • 昆明响应式网站制作建站网址大全
  • 营销型网站建设的认识视频模板免费制作
  • 付费软件免费拿佛山网站优化包年
  • 关于Ai问答的ET7.2框架协程锁解读记录
  • 项目设计文档【示例】
  • Linux应用开发-11-消息队列
  • 基于遗传算法与非线性规划的混合优化算法在电力系统最优潮流中的实现
  • 高动态范围(HDR)图像文件格式OpenEXRLinux开发库介绍
  • 在门户网站做产品seowordpress主题英文改中文版
  • 百度助手手机下载网站链接优化
  • 商标注册查询官网网站wordpress怎么截图直接粘贴
  • 网站建设价格与方案如何让百度口碑收录自己的网站
  • 大模型原理之深度学习与神经网络入门
  • 学习前端记录(二)21-40
  • 电源完整性08-电容网络配置方法
  • 可以做防盗水印的网站山东手机版建站系统信息
  • 专门做音箱的网站浙江信息网查询系统
  • 论需求分析方法及应用
  • 网站顶部菜单下拉固定宜宾市珙县住房城乡建设网站
  • 青少年机器人技术等级考试理论综合试卷(一级)2018年9月
  • Windows状态栏时间显示到秒的设置方法
  • 企业做网站推广产品需要多少钱标志设计公司成都
  • 网站的建设与应用上海企业网站建设服务
  • Chrome Edge 最新DNS泄露检测方法+指纹解析步骤(含工具)
  • 网站平台建设公司网站下拉菜单代码
  • stack、queue和priority_queue(容器适配器、仿函数的使用)
  • 鄂州网站seo意见反馈的网站怎么做
  • 四元数 (Quaternion)中的扰动知识(6)
  • 代刷网站建设青海省建设厅官方网站建设云