当前位置: 首页 > news >正文

单目3d detection算法记录

1、centernet object as points

这篇文章的核心单目3d检测主要是利用中心点直接回归出3d模型的所有属性,head共享整个backbone,其中3d属性包括:2d目标中心点、2dw和h、2d offsets、3doffsets、3d dimmession、rot还有depth。

其中对应的depth是根据kitti中的外参矩阵来进行计算得到的,同时推理的也是全局角度,如下所示:

KITTI 数据集 参数—— tracking devkit中的rotation_y和alpha角_hacker_G的博客-CSDN博客_kitti数据集参数这篇文章详细的地解释了kitti的角度参数的计算和使用,后续可以从自己的pad上面将对应的理解进行补齐。depth参数我记得没记错的用的是相机坐标系的z坐标直接进行gt然后回归。注意centernet用的是sigmod的一个函数计算来作为回归方式。

 最难以理解的其实是角度的回归方式,实际方法是先将角度按照左右手坐标系分为正负角,然后将【-180, 180】划分为4个bin,然后将同时回归出4个bin的中心角的差值,具体的向量是[0,0,0,0,delta, delta, delta, delta],即先softmax是认为哪个bin里面,然后在计算这个角度中心值的差值,这样当然如果bin值越仔细则回归的回归越准确。计算损失函数则也是计算softmax和回归的cos值损失。

这是第一篇以点回归3d的目标的paper,缺点也很明显,①3d detection使用的是2d center ②角度回归依旧不准确

2、SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation。

paper:https://arxiv.org/pdf/2002.10111.pdf

参考文章:单目3d检测-smoke解析 - 知乎

核心思想:

    干掉centernet中的2d模块,认为2d模块是与3d模块会有抑制作用的,因此只保留了3d模块,然后基于3d centerpoint直接回归其他的3d属性,然后基于解耦的loss来进行训练,得到3d的结果

 

 然后学习的目标也是用8维的delta来预测减小学习的难度,最终目标是(x,y,z,l,w,h,θ),预测目标是

 前面的delta_z是距离即depth的偏移量,从数据集中统计出平均值,

 

smoke的角度可以在后续的推导中慢慢再理清,此处不细说了。 

loss:

直接计算Lcls+3个尺寸的回归loss

知乎的这篇文章写的很好,建议参考。

 3、monodle:Delving into Localization Errors for Monocular 3D Object Detection

 核心思想:1、2d与3d的center point确实存在不可忽略的差异,应该使用3d的投影点;2、现有的技术远处的gt估计不准,丢掉太远的目标。3、提出一个whl优化的3d iou loss,使其不受定位精度的影响。

idea来源:通过使用gt来逐步替换预测值,用来判断到底是哪个模块存在问题:

 1、使用gt替换location(xyz)后,性能直接逼近lidar,因此发现location是影响单目3d的主要因素

2、使用gt替换depth,性能与gt替换location相差接近40,

相关文章:

  • 24集《不负美食不负卿》联合出品制作签约仪式成功举行
  • 【运维自动化-标准运维】如何实现一个最简单的流程编排
  • 【Redis】Redis的数据删除(过期)策略,数据淘汰策略。
  • [Nowruz 1404] 2025 Crypto/PWN部分
  • 三月九次前端面试复盘:当场景题成为通关密钥
  • 使用 EchoAPI 实现 API 断言的全面指南
  • vulhub/Billu_b0x靶机----练习攻略
  • c盘清理宝藏小工具
  • 使用Trainer传入自定义的compute_metrics函数时,oom报错
  • Diffusion Transformers (DiTs) - 用Transformer革新Diffusion模型
  • 构建高可靠NFS存储:自动化挂载保障机制的设计与优势
  • 【Vuex:在带命名空间的模块内访问全局内容】
  • Docker运行postgreSQL,由于异常启动或者退出后,提示could not locate a valid checkpoint record
  • JS—事件委托:3分钟掌握事件委托
  • vlan初学的总结
  • NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN
  • Visual Studio2022 中的键盘注释快捷方式
  • 多线程(四)----线程安全
  • 力扣刷题994. 腐烂的橘子
  • 比特币牛市还在不在
  • 王毅同印度国家安全顾问多瓦尔通电话
  • 体验中国传统文化、采购非遗文创,波兰游客走进上海市群艺馆
  • 马上评丨学术不容“近亲繁殖”
  • 印度军方否认S-400防空系统被摧毁
  • 屈晓华履新四川省社科联党组书记,此前担任省国动办主任
  • 七方面118项任务,2025年知识产权强国建设推进计划印发