当前位置: 首页 > news >正文

自动驾驶感知范式迁移:从BEV/向量化到高斯建模

从BEV到向量化到高斯建模

  • 1 基于信息提炼/压缩的方法
    • 1.1 BEV方案
    • 1.2 向量化方案
  • 2 基于重建/拟合的方法

1 基于信息提炼/压缩的方法

1.1 BEV方案

  • 核心思想: 建立一个统一的、上帝视角的二维网格(BEV Grid),作为多传感器信息和下游任务的“中央总线”。

  • 信息处理方式:

    • 提炼 (Distill): 使用图像编码器(如ResNet, ViT)从多视角2D图像中提取出大量的特征,这就像从原材料中“榨取”精华。
    • 转换与填充 (Transform & Fill): 通过一个精巧的“视图转换”模块(View Transformer),将这些2D特征“投射”并“填充”到预先定义好的BEV网格的每一个单元格中。这个过程就像是把榨好的果汁,小心翼翼地倒入一个有固定格子形状的冰格模具里。
  • 本质: 最终的BEV特征图是一个对世界的高度抽象和总结。关心在哪个BEV格子里应该填入什么样的特征值。信息被“提炼”并被“格式化”到了这个BEV网格里。

  • 代表方案:BEVFormer,UniAD

1.2 向量化方案

  • 核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的“查询向量”(Object Queries)作为“探针”,主动去图像中寻找并“提炼”与特定物体相关的信息。

  • 信息处理方式:

    • 初始化探针: 随机初始化一组(例如100个)查询向量。每个向量可以看作是一个“我想找到一个物体”的意图。
    • 提炼与查询 (Distill & Query): 这些查询向量通过交叉注意力机制(Cross-Attention)与图像特征进行交互。它们学习如何定位到图像中的特定区域(比如车辆、行人),并从这些区域中“吸取”和“提炼”出有用的信息(位置、类别、朝向等)。这就像是派出100个训练有素的侦察兵,让他们去战场(图像特征)上各自寻找目标并带回情报。
  • 本质: 这是一种更有针对性的提炼。它同样不关心重建整个世界,而是只提炼出“我感兴趣的N个物体”的信息。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。

  • 代表方案:DETR3D,PETR

2 基于重建/拟合的方法

  • 核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。

  • 信息处理方式:

    • 初始化基元: 在3D空间中“撒”上一批初始的3D高斯体。它们一开始可能杂乱无章。
    • 迭代拟合 (Iterative Fitting): 这是核心。模型进入一个优化循环:
    • 渲染: 将当前的3D高斯体集合通过可微渲染器,“画”出从各个相机角度看到的2D图像。
    • 比较: 将渲染出的图像与真实的输入图像进行比较,计算它们之间的差异(例如L1损失、SSIM损失)。
    • 优化/调整: 根据这个差异,反向传播梯度,去微调每一个3D高斯体的所有参数(位置、形状、旋转、颜色、不透明度、语义特征等),目标是让渲染出来的图像与真实图像无限接近。
  • 本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”(高斯体)来雕刻一个与现实一模一样的模型。艺术家不断地对照着真实场景(输入图像),调整每一个粘土球的位置、形状和颜色,直到他的雕塑在任何角度看都跟真的一样。这个过程就是拟合——用模型(高斯体集合)去逼近真实数据(图像)。

http://www.dtcms.com/a/357054.html

相关文章:

  • Vue中的事件修饰符
  • uni-app 常用钩子函数:从场景到实战,掌握开发核心
  • MySQL 深分页:性能优化
  • 每周AI看 | 微软开源VibeVoice-1.5B、OpenAI历史性交棒、网易云商出席AICon全球人工智能开发与应用大会
  • MCP Java Sdk 添加key认证
  • CMake构建学习笔记22-libxml2库的构建
  • 【链表 - LeetCode】146. LRU 缓存
  • Prometheus+Grafana入门教程:从零搭建云原生服务器监控系统
  • 如何管理跨境电商多语种素材?数字资产本地化指南
  • nacos单机部署并开启鉴权
  • #医疗AI时代的生物医学Go编程:高性能计算与精准医疗的案例分析(五)
  • 机器学习 - Kaggle项目实践(5)Quora Question Pairs 文本相似
  • OpenCV轮廓近似与Python命令行参数解析
  • 玳瑁的嵌入式日记D29-0829(进程间通信)
  • ZooKeeper 安装配置
  • idea2025.2中maven编译中文乱码
  • Altium Designer 22使用笔记(10)---PCB铺铜相关操作
  • c++ const 关键字
  • 聊聊Prompt Engineering (提示词工程)
  • 【工具类】得到多个数组中的相同元素
  • 考研数据结构Part3——二叉树知识点总结
  • Vue学习Ⅳ
  • 二手车估值查询-二手车估值api接口
  • el-table实现双击编辑-el-select选择框+输入框限制非负两位小数
  • HunyuanVideo-Foley视频音效生成模型介绍与部署
  • 非标设计 机架模板 misumi 设计组合案例
  • 浏览器自动化工具怎么选?MCP 控制浏览器 vs Selenium 深度对比
  • 预测模型及超参数:3.集成学习:[1]LightGBM
  • LangChain实战(三):深入理解Model I/O - Prompts模板
  • 顶会顶刊图像分类的云服务器训练方法