当前位置: 首页 > news >正文

蒙帕视角丨图像高效端到端目标检测

图像高效端到端目标检测

一、引言

针对遮挡和小目标两方面的挑战,复旦大学最近提出UAV-DETR框架。该框架包括具有频率增强模块的多尺度特征融合,该模块在不同尺度上捕获空间和频率信息。此外,提出了一种频率聚焦下采样模块,以在下采样期间保留关键的空间细节。开发了语义对齐和校准模块来对齐和融合来自不同融合路径的特征。实验结果证明了该方法在不同图像数据集上的有效性和推广性。在VisDrone数据集上,方法将AP提高了3.1%美国联合通讯社(Associated Press)50超出基线4.2%。在UAVVaste数据集上也观察到了类似的增强。

二、核心创新点

如下图所示,此是基于RT-DERT架构的UAV-DETR模型。通过三个组件增强了该模型,即带频率增强的多尺度特征融合、以频率为重点的下采样以及语义对齐与校准。此外,引入内部Scylla交并集 (Inner-SIoU) 来取代广义交并集 (GIoU)。

(1)多尺度特征融合 + 频率增强

(2)频域信号提取:

傅里叶变换(FFT):将输入特征图转换到频域,分离高频(边缘、纹理)与低频(背景、主体)成分。

频域增强:通过全局平均池化(GAP)和卷积层,动态放大高频信号(如垃圾边缘、车轮纹理)。

逆傅里叶变换(IFFT):将增强后的频域特征转换回空间域,生成细节更丰富的特征图。

(3)多尺度卷积组合:

并行卷积核:使用1x1、3x3、5x5三种卷积核,分别捕获局部细节、中程关联和长程依赖(如密集车流中的遮挡车辆)。

动态权重融合:通过可学习参数α、β,平衡不同尺度特征的贡献,公式如下:

(其中,Xsc为多尺度卷积输出,F为傅里叶变换)

残差连接:保留原始特征,避免梯度消失,加速模型收敛。

(4)双分支处理:

分支1(空间保留):使用3x3卷积(步长2)压缩特征图,保留空间结构。

分支2(频域增强):

频域聚焦(FF模块):对特征图进行频域滤波,强化小目标细节。

最大池化:压缩特征图尺寸,减少计算量。

(5)特征融合策略:

拼接与压缩:将两分支输出拼接后,通过1x1卷积压缩通道数,减少75%计算量。

动态选择机制:根据输入特征自动调整分支权重,优先保留高频信息。

(6)语义对齐与校准(SAC模块)

决多尺度特征图的空间错位问题(如检测框偏移)。

(7)动态网格采样(GridSample):

偏移量学习:通过卷积层预测2D偏移量Δ₁、Δ₂,调整特征图坐标。

双线性插值:根据偏移量动态重采样特征,实现像素级对齐(公式如下):

(8)注意力权重融合:

门控机制:生成空间注意力图G(x),加权融合对齐后的特征:

噪声抑制:通过权重分配,抑制背景干扰(如树木阴影误检为垃圾)。

三、实验

在VisDrone-2019上进行测试并与主要方法进行对比,指标如下:

热力图对比:

与基线模型相比,UAV-DETR 的小物体定位能力显著提升。在模型的热图中,小物体的热度值更高,这表明该模型能够更有效地捕捉这些小物体的特征。此外,可以观察到 UAVDETR 更加关注小物体的周围信息,这表明该模型在检测过程中能够更好地利用上下文信息。因此,UAV-DETR 在遮挡物体定位方面也表现良好。UAV-DETR 不会严重降低基线模型的实时性能。

总结,UAV-DETR通过空间-频域双域融合、动态特征对齐与高效计算设计。这种方法能够为检测任务更好地利用频率信息提供参考,显著提升图像中小目标检测精度并兼顾实时性。

http://www.dtcms.com/a/512010.html

相关文章:

  • 孟村网站建设虚拟资源站码支付wordpress
  • xv6 源码精读(二)开启MMU、一致性映射页表
  • 珠海网站建设尚古道策略长沙口碑好网站建设公司
  • =word插入公式后行距变大怎么办?-笔记
  • Android 接入 Google 和 Facebook 第三方登录指南(初始版)
  • Aspose.words关于builder.CellFormat.Width、row.Cells[0].CellFormat.Width的设置单元格宽度区别
  • 罗湖网站建设的公司哪家好阳泉做网站公司
  • 口碑好的共晶贴片机公司
  • 挑战概率直觉:蒙提霍尔问题的解密与应用
  • 网站域名哪些后缀更好给自己公司做个网站
  • 算法笔记 07
  • Steps + Input.TextArea + InfiniteScroll 联调优化
  • /dev/mem 原理及使用
  • 机关网站建设 方案泰安新闻完整版
  • Endpoint
  • 阿里巴巴双11微服务智能监控体系:从全链路追踪到AI自愈的技术实践
  • 在ros2 humble版本上安装D455相机并获取图像和深度信息
  • C++DirectX9坐标系与基本图元之渲染状态(RenderState)_0304
  • 网站建设app长春seo技术
  • 【C++】力扣hot100错误总结
  • C++中的vector讲解
  • 笔记【字符串,转义字符,注释】
  • visual studio安装本地帮助手册
  • 北京市基础建设质量监督局网站wordpress 插件怎么看
  • 大模型技术分析与演进逻辑
  • 苏州模板网站建站长沙网站建设推广
  • 从零起步学习MySQL || 第六章:MySQL数据库中的一条数据是如何存储的?(结合源码深度解析)
  • 微信小程序页面配置,基本语法,页面切换,tabbar全局配置
  • 数据结构 07
  • 18.基本的ACL