当前位置: 首页 > news >正文

论文阅读笔记——ReconDreamer

ReconDreamer 论文

在 DriveDreamer4D 的基础上,通过渐进式数据更新,解决大范围机动(多车道连续变道、紧急避障)的问题。同时 DriveDreamer4D生成轨迹后直接渲染,而 ReconDreamer 会实时通过 DriveRestorer 检测渲染结果与物理规则的冲突,并反向调整高斯参数。

在这里插入图片描述

总结来看,ReconDreamer 是 DriveDreamer4D 的增强版,核心创新在于将「静态世界模型调用」升级为「动态渐进式知识融合」,从而解决大机动场景的渲染难题。

DriveRestorer
先利用原始数据训练一遍重建模型,然后沿原始轨迹生成渲染视频 V o r i ^ = G ( τ o r i ) \hat{V_{ori}}=\mathcal{G}(\tau_{ori}) Vori^=G(τori)
由于重建模型的欠拟合,会产生重影伪影,从不同训练阶段采样渲染视频,构成数据集 { V ^ o r i k , V o r i } \{\hat{V}_{ori}^k,V_{ori}\} {V^orik,Vori} 其中 V ^ o r i k \hat{V}_{ori}^k V^orik 表示第 k 训练阶段采样的渲染视频。(模仿 DriveDreamer4D)对 V ^ o r i k \hat{V}_{ori}^k V^orik 施加 mask,重点修复远景和天空等易失真的区域,通过 ϵ ( V ^ m a s k ) = ϵ ( V ^ o r i ⨀ M ) \epsilon(\hat{V}_{mask})=\epsilon(\hat{V}_ori\bigodot M) ϵ(V^mask)=ϵ(V^oriM) 基于扩散模型的渐进式优化:
L R = E z , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ t − ϵ θ ( z t , t , c ) ∥ 2 2 ] \mathcal{L}_{\mathcal{R}}=\mathbb{E}_{\boldsymbol{z},\epsilon\sim\mathcal{N}(0,1),t}\left[\left\|\epsilon_t-\epsilon_\theta\left(\boldsymbol{z}_t,t,\boldsymbol{c}\right)\right\|_2^2\right] LR=Ez,ϵN(0,1),t[ϵtϵθ(zt,t,c)22]
控制条件 c 为 V ^ m a s k \hat{V}_{mask} V^mask,3D 边界框与高清地图。
推理时,冻住 DriveRestorer 参数用于新轨迹渲染修复:
V n o v e l = R ( V ^ n o v e l , P ( s , T n o v e l k ) ) , V_{\mathrm{novel}}=\mathcal{R}(\hat{V}_{\mathrm{novel}},\mathcal{P}(s,\mathcal{T}_{\mathrm{novel}}^k)), Vnovel=R(V^novel,P(s,Tnovelk)),
其中 s 为 3D 边界框和高清地图, P ( ⋅ ) \mathcal{P}(·) P() 表示将 s 对齐到 τ n o v e l k \tau_{novel}^k τnovelk 的投影变换。’
在这里插入图片描述

  • 轨迹扩展:第k次更新时,新轨迹 τ n o v e l \tau_{novel} τnovel 扩展 y = k Δ y y=k\Delta y y=kΔy 米( Δ y \Delta y Δy 为预设值,从 1.5m 开始,逐步生成 3m,6m)
  • 数据生成:通过重建模型 G \mathcal{G} G 渲染扩展轨迹视频 V ^ n o v e l \hat{V}_{novel} V^novel​,经 DriveRestorer 修复得 V n o v e l V_{novel} Vnovel
  • 加权更新:按采样概率 w = k ∑ j = 1 k j w=\frac{k}{\sum_{j=1}^kj} w=j=1kjk​ 更新数据集:高伪影区域:70%修复数据+30%原始数据;低伪影区域:30%修复数据+70%原始数据。通过 KL 散度监控,保证数据分布不发生漂移。 D n o v e l = ( 1 − w ) ⋅ D n o v e l ∪ w ⋅ V n o v e l D_{\mathrm{novel}}=(1-w)\cdot D_{\mathrm{novel}}\cup w\cdot V_{\mathrm{novel}} Dnovel=(1w)DnovelwVnovel
    原始数据: L o r i ( ϕ ) = λ 1 L o r i R G B + λ 2 L o r i D e p t h + λ 3 L o r i S S I M \mathcal{L}_{\mathrm{ori}}(\phi)=\lambda_{1}\mathcal{L}_{\mathrm{ori}}^{\mathrm{RGB}}+\lambda_{2}\mathcal{L}_{\mathrm{ori}}^{\mathrm{Depth}}+\lambda_{3}\mathcal{L}_{\mathrm{ori}}^{\mathrm{SSIM}} Lori(ϕ)=λ1LoriRGB+λ2LoriDepth+λ3LoriSSIM
    新数据: L n o v e l ( ϕ ) = λ 1 L n o v e l R G B + λ 3 L n o v e l S S I M \mathcal{L}_{\mathrm{novel}}(\phi)=\lambda_1\mathcal{L}_{\mathrm{novel}}^{\mathrm{RGB}}+\lambda_3\mathcal{L}_{\mathrm{novel}}^{\mathrm{SSIM}} Lnovel(ϕ)=λ1LnovelRGB+λ3LnovelSSIM
    联合训练: L ( ϕ ) = L o r i + L n o v e l . \mathcal{L}(\phi)=\mathcal{L}_{\mathrm{ori}}+\mathcal{L}_{\mathrm{novel}}. L(ϕ)=Lori+Lnovel.
http://www.dtcms.com/a/99380.html

相关文章:

  • 【YOLOv11】目标检测任务-实操过程
  • Tof 深度相机原理
  • kubernetes Calico(CNI) NetworkPolicy 流量管理 设置networkpolicy 策略 下集
  • 【Go】Go Prometheus 快速入门
  • C语言笔记数据结构(链表)
  • Jenkins + CICD流程一键自动部署Vue前端项目(保姆级)
  • 输入模块(TM1638函数的使用)
  • 驱动开发系列49 - 搭建 Vulkan 驱动调试环境(编译 mesa 3D)- Ubuntu24.04
  • postman测试文件上传接口详解
  • 鸿蒙原生开发之状态管理V2
  • 白盒测试/接口测试/自动化测试
  • python 如何打包成exe文件
  • 嵌入式系统安全架构白皮书
  • PH热榜 | 2025-03-29
  • 【C语言】一文掌握 C 语言用法(C 备忘清单)
  • 数据湖的数据存储与管理策略:构建高效的数据管理框架
  • Web自动化测试:Unittest单元测试框架
  • 如果从一个系统向另一个系统推送2000条数据,java中使用什么技术合理
  • 【AI速读】CNN图像处理单元的形式化验证方法
  • 简单程序语言理论与编译技术·18 语法制导翻译SDT
  • 【文本张量表示】
  • docker部署mongodb数据库
  • 【Python NetworkX】图结构 图绘制
  • 如何下载主流网站的视频和音频?(支持100+网站视频下载)
  • CAN 介绍
  • C语言 - 变量修饰关键字
  • 软件测试之接口测试
  • 【Git “reflog“ 命令详解】
  • Vue2 项目将网页内容转换为图片并保存到本地
  • 基于74LS192的十进制两位数正向计时器(proteus仿真)