DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架
模型架构 | 模态 | 精度 P | 召回率 R | mAP50 | mAP50-95 | 模型大小(MB) | 计算量(GFLOPs) |
---|---|---|---|---|---|---|---|
yolov8n (baseline) | RGB | 0.888 | 0.829 | 0.891 | 0.500 | 6.2 | 8.1 |
yolo-fuse-中期特征融合 | RGB+IR | 0.951 | 0.881 | 0.947 | 0.601 | 2.61 | 3.2 |
yolo-fuse-早期特征融合 | RGB+IR | 0.950 | 0.896 | 0.955 | 0.623 | 5.2 | 6.7 |
yolo-fuse-决策级融合 | RGB+IR | 0.956 | 0.905 | 0.955 | 0.612 | 8.8 | 10.7 |
yolo-fuse-极简融合 | RGB+IR | 0.899 | 0.865 | 0.939 | 0.62 | 7.83 | 8.5 |
DEYOLO | RGB+IR | 0.943 | 0.895 | 0.952 | 0.615 | 11.85 | 16.6 |
论文地址:https://arxiv.org/abs/2412.04931
DEYOLO
代码地址: https://github.com/chips96/DEYOLO
YOLOFuse
项目地址:https://github.com/WangQvQ/YOLOFuse
引言
在弱光、雾霾等复杂环境下,单纯依靠可见光图像进行目标检测往往效果不佳;而红外图像能提供清晰的轮廓信息,却缺乏纹理细节。将两者融合,能够互补优势,但如何在 检测任务 导向下有效融合、并减少模态间的相互干扰,是目前的挑战。针对这一问题,本文提出了一种基于 YOLOv8 的 双增强跨模态目标检测网络 DEYOLO,通过 双语义增强通道权重分配(DECA)、双空间增强像素权重分配(DEPA) 与 双向解耦 Focus 模块,在特征层面实现“检测驱动”的跨模态信息互补与干扰抑制,并在 M3FD、LLVIP 等数据集上取得了明显优于 SOTA 的性能提升 。
背景与动机
-
单模态检测局限
- 传统可见光目标检测(如 YOLO、DETR、Swin Transformer)在纹理细节丰富时表现优秀,但对弱光或遮挡场景不鲁棒。
- 红外小目标检测网络(如 ALCNet、ISTDU-Net、IRSTD-GAN)虽能在低光条件下检测,但单独红外缺乏色彩和细节信息,难以支持复杂场景的检测需求 。
-
现有跨模态融合不足
- 常见方法要么将 RGB-IR 拼四通道输入,要么在特征下游简单拼接,两者缺乏深度交互。
- “融合-检测”策略通常先做图像融合再检测,既不以检测为中心,也没有解决融合过程中模态间的互相干扰问题 。
正是在这样的背景下,DEYOLO 从特征层面入手,设计“检测导向”的双增强机制,以期在保持两种模态各自优势的同时,最大化互补效果并抑制相互干扰。
DEYOLO 方法概览
DEYOLO 在 YOLOv8 的骨干与检测头之间,引入了两大跨模态增强模块(DECA、DEPA),并在骨干前期插入 双向解耦 Focus,如图所示:
1. 双语义增强通道权重分配模块(DECA)
-
目标:在通道维度上,利用单模态与跨模态融合信息,分别 增强融合特征 与 反向提升单模态特征 的语义表达能力。
-
流程:
-
跨模态融合提取:将来自骨干的 RGB/IR 特征拼接后通过卷积得到混合特征 F M i x 0 F_{Mix}^0 FMix0。
-
通道权重编码:对 F M i x 0 F_{Mix}^0 FMix0 进行跨模态权重抽取(CMWE),得权重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同时分别对 RGB、IR 特征通过 SE 结构提取单模态通道权重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0,WIR0。
-
双重增强:
-
第一增强:
W V e n = W V 0 ⊗ s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ⊗ s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen=WV0⊗softmax(WMix0),WIRen=WIR0⊗softmax(WMix0)
-
第二增强:
F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1=FIR0⊙WVen,FV1=FV0⊙WIRen
-
-
通过上述步骤,DECA 能在通道层面 重分配注意力,兼顾单模态与融合特征的语义重要性 。
2. 双空间增强像素权重分配模块(DEPA)
-
目标:在空间(像素)维度上,模拟 DECA 的双增强机制,用于 位置敏感 的特征融合。
-
流程:
-
对 DECA 输出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1,FIR1 分别进行不同尺度的卷积提取临时权重,再形变后相乘得到跨模态空间权重 W M i x 1 W^1_{Mix} WMix1。
-
分别使用 3×3 和 5×5 卷积获得两种尺度下的单模态像素权重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1,WIR1,再通过软最大化与 W M i x 1 W^1_{Mix} WMix1 结合。
-
双重增强:
F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR=FIR1⊙WVen,FV=FV1⊙WIRen
-
最终将二者相加,送入检测头。
-
DEPA 强调了空间位置上的互补信息,进一步丰富了跨模态特征的结构表达 。
3. 双向解耦 Focus
- 灵感:YOLOv5 的 Focus 模块可无损下采样;DEYOLO 通过水平/垂直两种解耦采样方式,增强骨干对不同方向上下文的感受野。
- 结构:将浅层特征按像素间隔分组,在横向与纵向分别采样,再进行深度可分离卷积,最后与原特征拼接,扩大感受野且保留细节 。
实验与结果
数据集与评价指标
- 数据集:M3FD(4,200 对 RGB-IR)、LLVIP(16,836 对)、KAIST(清洗后 7,601/2,252) 。
- 指标:mAP@0.5、mAP@0.5:0.95(mAP50−95)、Log Average Miss Rate (LAMR)。
消融实验
-
模块贡献(Table 1):
- 单独 DECA 或 DEPA,在 M3FD 上分别提升 mAP50 +4.2%/+3.6%,mAP50−95 +4.4%/+3.5%。
- DECA+DEPA 联合 +4.4%/+4.6%,三者(含 Focus)则达 +5.8%/+5.3% 。
-
核大小与层数:
- DEPA 在 3×3 卷积核时效果最佳(Table 2)。
- DECA 使用 3 层深度可分离卷积效果优于普通卷积(Table 3)。
与 SOTA 比较
-
单模态 vs DEYOLO:
- 可见光单模态最高 mAP50≈88.3%,红外≈78.3%;DEYOLO-n 达 86.6%、DEYOLO-l 达 91.2%(M3FD),均超越多种 ViT/RCNN、YOLOv7/8 等 。
-
融合-检测方法:
- 与 IRFS、U2Fusion、SeAFusion 等融合算法比较,DEYOLO-n 在 M3FD 上至少领先 5.4% mAP50,DEYOLO-l 领先超过 10% 。
-
泛化能力:在 KAIST 数据集上,虽然未夺魁,但仍优于多数 RGB-T 检测方法,说明跨光谱特征增强具有广泛适用性。
讨论与展望
-
优势:
- 检测导向:直接在特征层面交互融合,以检测性能为优化目标;
- 双增强机制:通道与空间维度的互补增强,有效抑制模态间噪声干扰;
- 轻量可插拔:DECA/DEPA 与双向 Focus 可插入其它骨干网络。
-
局限与未来:
- 对齐要求较高的数据对;
- 如何在更大尺度、更多模态(如深度/SAR)中扩展?
- 实时性与资源消耗的权衡值得深入探索。
结语
DEYOLO 通过 双语义 与 双空间 的“检测驱动”跨模态特征增强,结合 双向解耦 Focus,在弱光与复杂场景下显著提升了目标检测性能,为可见光与红外融合检测提供了新思路。其模块化设计也为后续多模态检测模型的构建和应用奠定了基础。未来,可在更加多样化的场景与模态上,继续探索双增强策略的广泛适用性与即时性优化。