当前位置: 首页 > news >正文

BEV-VAE

论文提出目标

为训练端到端驾驶模型特别是NVS提供数据增强手段。

现有方法特点

  • 主流的都是基于微调的Stable Diffusion模型
  • 多视角图像生成视为带有相邻视角一致性约束的二维合成任务
  • 只能一定程度的保证空间一致性
  • 依赖于图像空间中视角相关的交叉注意力机制来隐式建模3D结构,缺乏统一的结构化表征
  • 难以支持任意相机位姿的新视角合成,也无法直接基于3D布局进行可控生成
  • 3D bbox的二维投影导致深度丢失,不同物体的投影在图像空间中overlap,引入遮挡歧义
  • 生成模型必须同时学习生成跨视角空间一致的图像
  • 夸视角具有歧义的二维条件对齐很难,训练过程复杂且几何基础薄弱

BEV-VAE的特点

  • 统一3D场景表征的多视角图像生成
  • 编码阶段显式构建空间对齐的BEV潜在空间
  • BEV空间中直接实现基于扩散模型的生成方案
  • 跨视角对齐实现高保真重建
  • BEV潜在空间支持通过操控相机位姿实现新视角合成,支持任意相机位姿进行NVS
  • 允许基于3D物体布局(如改变物体数量、位置或类别)的可控生成
  • 生成全部7V 环视图像的方法,证明了鲁棒性和实用性

实现思路与框架

图1:多视角图像生成两种范式的对比。(a) 图像潜在空间生成依赖3D物体的2D投影指导图像合成,通过跨视角注意力机制强制实现空间一致性;(b) BEV潜在空间生成以3D OCC为条件产生统一表征,从中解码出所有视角,天然保持空间一致性,并可通过调整相机位姿实现新视角合成。

链接

GitHub - Czm369/bev-vae: BEV-VAE: Multi-view Image Generation with Spatial Consistency for Autonomous Driving

http://www.dtcms.com/a/359100.html

相关文章:

  • 3000. 对角线最长的矩形的面积
  • 配置vsc可用的C语言环境
  • Linux系统统计用户登录和注销时间的工具之ac
  • Dify的搭建
  • Glato - AI 驱动的广告视频创作平台
  • [光学原理与应用-329]:ZEMAX - 主要用途与主要功能
  • Python爬虫实战:研究统计学方法,构建电商平台数据分析系统
  • Windows驱动开发与双机调试环境[驱动开发环境配置高阶]
  • [创业之路-582]:评估难易程度、重要程度,站在不同的角度有不同的答案
  • 第09章 t检验:两独立样本t检验
  • 【MCP系列教程】 Python 实现 FastMCP StreamableHTTP MCP:在通义灵码 IDE 开发并部署至阿里云百炼
  • 49.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--集成网关--Refit跨服务调用
  • java中的VO、DAO、BO、PO、DO、DTO
  • 操作系统-虚拟内存篇
  • 数据结构(顺序表力扣刷题)
  • 使用 Visio Viewer 查看 Visio 绘图文件
  • GEE中上传研究区域范围
  • 个性化导航新体验:cpolar让Dashy支持语音控制
  • 仓颉基于http调用DeepSeek
  • 【MySQL数据库】索引 - 结构 学习记录
  • Linux之Shell编程(三)流程控制
  • 知网文献高级检索方法
  • 防护墙技术(一):NAT
  • 如何调整Linux系统下单个文件的最大大小?
  • 2025年09月计算机二级Java选择题每日一练——第十二期
  • 介绍分布式事务之Seata
  • NV032NV037美光固态闪存NV043NV045
  • C++世界的大门——基础知识总结
  • 银河麒麟系统无法打开360浏览器的解决办法以及安装initramfs-tools报错解决方案
  • “HEU-AUTO”无线上网使用指南