当前位置：首页 > news >正文

目标检测 LW-DETR（2024）详细解读

news 2025/11/1 15:26:21

文章目录

- 整体架构

LW-DETR全称Light-Weight DETR，是百度团队提出的第二代面向实时检测算法，比yolo v8的速度和精度更好

整体架构

LW-DETR 由一个ViT编码器（Vision Transformer Encoder）、一个投影器（Projector）和一个DETR解码器（DETR Decoder）组成。

（知乎观点）LW-DETR之所以这么用ViT，灵感是来源于kaiming团队的ViTDet，但是，ViT的结构显然是同质的，每一层之间的特征的关联性是很大的，即浅层的特征在深层特征中能够得到很好的保留，那么多层特征拼接的做法除了符合某种“思维惯性”，看不出来什么必要性。

另外，考虑到检测任务的图像尺寸一般是大于分类的，此时ViT中的全局自注意力操作便会是显著的计算瓶颈，为了解决这一问题，作者团队便采用了窗口注意力机制，同时，为了保证窗口之间的交互，窗口注意力之后又添加了其他可进去全局关联的模块，这一设计也是借鉴了ViTDet。

编码器

Encoder 采用ViT 作为检测编码器。原始的ViT包含一个分块层和Transformer编码层。Transformer编码层在最初的ViT中包含一个对所有token（patch）的全局自注意力层和一个FFN层。全局自注意力计算成本较高，其时间复杂度与token（patch）数量的平方成正比。通过在Transformer编码层使用窗口自注意力来降低计算复杂度。作者提出将多级特征图、编码器中间层和最终特征图进行聚合，形成更强的编码特征图。

投影器（连接编解码器）

在ViT之后，又接了一个YOLOv8的C2f模块将ViT输出的特征图做一次映射。需要说明的是，LW-DETR的ViT会输出多层特征，如下图所示，将多层特征沿着通道拼接，再由C2f模块来做一次映射之后，进入decoder。

解码器

解码器和rt-detr一样，由Transform的decoder层组成，只不过由原来的6层减少到了3层，缩短了一半的时间。

采用混合查询选择策略（和rt-detr类似）来形成对象查询，它是内容查询和空间查询的组合。内容查询是可学习的嵌入，类似于DETR。空间查询基于两阶段方法：首先从Projector的最后一层中选择前K个特征，然后预测边界框，并将相应的框转换为嵌入作为空间查询。

http://www.dtcms.com/a/204760.html

相关文章：

【单片机】如何产生负电压?

深度图转换为点云文件脚本

MFC 捕捉桌面存成jpg案例代码

DDR中Geardown Mode理解/2N模式理解

windows安装python环境

项目执行中缺乏问题记录和总结，如何改进？

【Java高阶面经：数据库篇】12. MySQL锁机制全解：从行锁到死锁优化的深度指南

网络流量分析工具ntopng的安装与基本使用

现代计算机图形学Games101入门笔记(十九)

制造业ERP系统选型与实施避坑探讨

OneDrive登录，账号跳转问题

leetcode hot100刷题日记——8.合并区间

Java泛型详解 —— 出参入参绑定技巧

唯创安全优化纸业车间安全环境：门口盲区预警报警器的应用与成效

Mariadb cpu 93% 问题

SpringBoot Web 入门

线上问题排查

年度工作计划总结述职报告PPT模版一组分享

第19天-Python自动化生成PPT图文教程（基于python-pptx）

5-码蹄集600题基础python篇

人工智能解析：技术革命下的认知重构

C语言—Linux环境下CMake设置库（动态/静态）

前端面经-WebGL/threeJS

【Java高阶面经：微服务篇】9.微服务高可用全攻略：从架构设计到自动容灾

Java 实现四种单例（都是线程安全）

工程优化大纲

高并发架构设计之限流

Linux查 ssh端口号和服务状态

通过 curl 精准定位问题

什么是实时流数据？核心概念与应用场景解析