在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模块的技术报告
在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模块的技术报告
1. 引言
1.1 项目背景
目标检测是计算机视觉领域的核心任务之一,而YOLO(You Only Look Once)系列算法因其出色的速度和精度平衡而广受欢迎。YOLO-World是YOLO系列的最新发展,专注于开放词汇目标检测,能够检测训练集中未出现的类别。为了进一步提升YOLO-World的性能,本报告将探讨如何在其架构中集成三种先进的模块:可变形卷积(Deformable Convolution, DeformConv)、卷积块注意力模块(Convolutional Block Attention Module, CBAM)和跨模态注意力(Cross-Modal Attention)。
1.2 模块概述
Deformable Convolution (DeformConv): 传统卷积操作在固定网格位置进行采样,而DeformConv通过学习偏移量使采样位置能够自适应于目标形状,从而更好地处理几何形变。
Convolutional Block Attention Module (CBAM): CBAM是一种轻量级的注意力模块,依次应用通道注意力和空间