当前位置：首页 > news >正文

DEYOLO 全面复现，将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架

news 2025/10/11 1:48:25

模型架构	模态	精度 P	召回率 R	mAP50	mAP50-95	模型大小(MB)	计算量(GFLOPs)
yolov8n (baseline)	RGB	0.888	0.829	0.891	0.500	6.2	8.1
yolo-fuse-中期特征融合	RGB+IR	0.951	0.881	0.947	0.601	2.61	3.2
yolo-fuse-早期特征融合	RGB+IR	0.950	0.896	0.955	0.623	5.2	6.7
yolo-fuse-决策级融合	RGB+IR	0.956	0.905	0.955	0.612	8.8	10.7
yolo-fuse-极简融合	RGB+IR	0.899	0.865	0.939	0.62	7.83	8.5
DEYOLO	RGB+IR	0.943	0.895	0.952	0.615	11.85	16.6

在这里插入图片描述

论文地址：https://arxiv.org/abs/2412.04931
DEYOLO代码地址: https://github.com/chips96/DEYOLO
YOLOFuse项目地址：https://github.com/WangQvQ/YOLOFuse

引言

在弱光、雾霾等复杂环境下，单纯依靠可见光图像进行目标检测往往效果不佳；而红外图像能提供清晰的轮廓信息，却缺乏纹理细节。将两者融合，能够互补优势，但如何在 检测任务 导向下有效融合、并减少模态间的相互干扰，是目前的挑战。针对这一问题，本文提出了一种基于 YOLOv8 的 双增强跨模态目标检测网络 DEYOLO，通过 双语义增强通道权重分配（DECA）、双空间增强像素权重分配（DEPA） 与 双向解耦 Focus 模块，在特征层面实现“检测驱动”的跨模态信息互补与干扰抑制，并在 M3FD、LLVIP 等数据集上取得了明显优于 SOTA 的性能提升。

背景与动机

单模态检测局限
- 传统可见光目标检测（如 YOLO、DETR、Swin Transformer）在纹理细节丰富时表现优秀，但对弱光或遮挡场景不鲁棒。
- 红外小目标检测网络（如 ALCNet、ISTDU-Net、IRSTD-GAN）虽能在低光条件下检测，但单独红外缺乏色彩和细节信息，难以支持复杂场景的检测需求。
现有跨模态融合不足
- 常见方法要么将 RGB-IR 拼四通道输入，要么在特征下游简单拼接，两者缺乏深度交互。
- “融合-检测”策略通常先做图像融合再检测，既不以检测为中心，也没有解决融合过程中模态间的互相干扰问题。

正是在这样的背景下，DEYOLO 从特征层面入手，设计“检测导向”的双增强机制，以期在保持两种模态各自优势的同时，最大化互补效果并抑制相互干扰。

DEYOLO 方法概览

在这里插入图片描述

DEYOLO 在 YOLOv8 的骨干与检测头之间，引入了两大跨模态增强模块（DECA、DEPA），并在骨干前期插入 双向解耦 Focus，如图所示：

1. 双语义增强通道权重分配模块（DECA）

在这里插入图片描述

目标：在通道维度上，利用单模态与跨模态融合信息，分别 增强融合特征 与 反向提升单模态特征 的语义表达能力。
流程：
1. 跨模态融合提取：将来自骨干的 RGB/IR 特征拼接后通过卷积得到混合特征 $F_{Mix}^0$ 。
2. 通道权重编码：对 $F_{Mix}^0$ 进行跨模态权重抽取（CMWE），得权重 $W\_{Mix}^0$ ；同时分别对 RGB、IR 特征通过 SE 结构提取单模态通道权重 $W_V^0, W_{IR}^0$ 。
3. 双重增强：
  - 第一增强：
    
    $W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix})$
  - 第二增强：
    
    $F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR}$

通过上述步骤，DECA 能在通道层面 重分配注意力，兼顾单模态与融合特征的语义重要性。

2. 双空间增强像素权重分配模块（DEPA）

目标：在空间（像素）维度上，模拟 DECA 的双增强机制，用于 位置敏感 的特征融合。
流程：
1. 对 DECA 输出的 $F^1_V,F^1_{IR}$ 分别进行不同尺度的卷积提取临时权重，再形变后相乘得到跨模态空间权重 $W^1_{Mix}$ 。
2. 分别使用 3×3 和 5×5 卷积获得两种尺度下的单模态像素权重 $W^1_V,W^1_{IR}$ ，再通过软最大化与 $W^1_{Mix}$ 结合。
3. 双重增强：
  
  $F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR}$
4. 最终将二者相加，送入检测头。

DEPA 强调了空间位置上的互补信息，进一步丰富了跨模态特征的结构表达。

3. 双向解耦 Focus

在这里插入图片描述

灵感：YOLOv5 的 Focus 模块可无损下采样；DEYOLO 通过水平/垂直两种解耦采样方式，增强骨干对不同方向上下文的感受野。
结构：将浅层特征按像素间隔分组，在横向与纵向分别采样，再进行深度可分离卷积，最后与原特征拼接，扩大感受野且保留细节。

实验与结果

数据集与评价指标

数据集：M3FD（4,200 对 RGB-IR）、LLVIP（16,836 对）、KAIST（清洗后 7,601/2,252）。
指标：mAP@0.5、mAP@0.5:0.95（mAP50−95）、Log Average Miss Rate (LAMR)。

消融实验

在这里插入图片描述

模块贡献（Table 1）：
- 单独 DECA 或 DEPA，在 M3FD 上分别提升 mAP50 +4.2%/+3.6%，mAP50−95 +4.4%/+3.5%。
- DECA+DEPA 联合 +4.4%/+4.6%，三者（含 Focus）则达 +5.8%/+5.3% 。
核大小与层数：
- DEPA 在 3×3 卷积核时效果最佳（Table 2）。
- DECA 使用 3 层深度可分离卷积效果优于普通卷积（Table 3）。

与 SOTA 比较

单模态 vs DEYOLO：
- 可见光单模态最高 mAP50≈88.3%，红外≈78.3%；DEYOLO-n 达 86.6%、DEYOLO-l 达 91.2%（M3FD），均超越多种 ViT/RCNN、YOLOv7/8 等。
融合-检测方法：
- 与 IRFS、U2Fusion、SeAFusion 等融合算法比较，DEYOLO-n 在 M3FD 上至少领先 5.4% mAP50，DEYOLO-l 领先超过 10% 。
泛化能力：在 KAIST 数据集上，虽然未夺魁，但仍优于多数 RGB-T 检测方法，说明跨光谱特征增强具有广泛适用性。

讨论与展望

优势：
1. 检测导向：直接在特征层面交互融合，以检测性能为优化目标；
2. 双增强机制：通道与空间维度的互补增强，有效抑制模态间噪声干扰；
3. 轻量可插拔：DECA/DEPA 与双向 Focus 可插入其它骨干网络。
局限与未来：
- 对齐要求较高的数据对；
- 如何在更大尺度、更多模态（如深度/SAR）中扩展？
- 实时性与资源消耗的权衡值得深入探索。

结语

DEYOLO 通过 双语义 与 双空间 的“检测驱动”跨模态特征增强，结合 双向解耦 Focus，在弱光与复杂场景下显著提升了目标检测性能，为可见光与红外融合检测提供了新思路。其模块化设计也为后续多模态检测模型的构建和应用奠定了基础。未来，可在更加多样化的场景与模态上，继续探索双增强策略的广泛适用性与即时性优化。

查看全文

http://www.dtcms.com/a/258547.html