当前位置: 首页 > news >正文

DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架

模型架构模态精度 P召回率 RmAP50mAP50-95模型大小(MB)计算量(GFLOPs)
yolov8n (baseline)RGB0.8880.8290.8910.5006.28.1
yolo-fuse-中期特征融合RGB+IR0.9510.8810.9470.6012.613.2
yolo-fuse-早期特征融合RGB+IR0.9500.8960.9550.6235.26.7
yolo-fuse-决策级融合RGB+IR0.9560.9050.9550.6128.810.7
yolo-fuse-极简融合RGB+IR0.8990.8650.9390.627.838.5
DEYOLORGB+IR0.9430.8950.9520.61511.8516.6

在这里插入图片描述
在这里插入图片描述

论文地址:https://arxiv.org/abs/2412.04931
DEYOLO代码地址: https://github.com/chips96/DEYOLO
YOLOFuse项目地址:https://github.com/WangQvQ/YOLOFuse


引言

在弱光、雾霾等复杂环境下,单纯依靠可见光图像进行目标检测往往效果不佳;而红外图像能提供清晰的轮廓信息,却缺乏纹理细节。将两者融合,能够互补优势,但如何在 检测任务 导向下有效融合、并减少模态间的相互干扰,是目前的挑战。针对这一问题,本文提出了一种基于 YOLOv8 的 双增强跨模态目标检测网络 DEYOLO,通过 双语义增强通道权重分配(DECA)双空间增强像素权重分配(DEPA)双向解耦 Focus 模块,在特征层面实现“检测驱动”的跨模态信息互补与干扰抑制,并在 M3FD、LLVIP 等数据集上取得了明显优于 SOTA 的性能提升 。


背景与动机

  1. 单模态检测局限

    • 传统可见光目标检测(如 YOLO、DETR、Swin Transformer)在纹理细节丰富时表现优秀,但对弱光或遮挡场景不鲁棒。
    • 红外小目标检测网络(如 ALCNet、ISTDU-Net、IRSTD-GAN)虽能在低光条件下检测,但单独红外缺乏色彩和细节信息,难以支持复杂场景的检测需求 。
  2. 现有跨模态融合不足

    • 常见方法要么将 RGB-IR 拼四通道输入,要么在特征下游简单拼接,两者缺乏深度交互。
    • “融合-检测”策略通常先做图像融合再检测,既不以检测为中心,也没有解决融合过程中模态间的互相干扰问题 。

正是在这样的背景下,DEYOLO 从特征层面入手,设计“检测导向”的双增强机制,以期在保持两种模态各自优势的同时,最大化互补效果并抑制相互干扰。


DEYOLO 方法概览

在这里插入图片描述

DEYOLO 在 YOLOv8 的骨干与检测头之间,引入了两大跨模态增强模块(DECA、DEPA),并在骨干前期插入 双向解耦 Focus,如图所示:

Backbone
输入RGB特征
输入IR特征
双向解耦 Focus
浅层特征
DECA
DEPA
融合特征
检测头

1. 双语义增强通道权重分配模块(DECA)

在这里插入图片描述

  • 目标:在通道维度上,利用单模态与跨模态融合信息,分别 增强融合特征反向提升单模态特征 的语义表达能力。

  • 流程

    1. 跨模态融合提取:将来自骨干的 RGB/IR 特征拼接后通过卷积得到混合特征 F M i x 0 F_{Mix}^0 FMix0

    2. 通道权重编码:对 F M i x 0 F_{Mix}^0 FMix0 进行跨模态权重抽取(CMWE),得权重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同时分别对 RGB、IR 特征通过 SE 结构提取单模态通道权重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0,WIR0

    3. 双重增强

      • 第一增强:

        W V e n = W V 0 ⊗ s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ⊗ s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen=WV0softmax(WMix0),WIRen=WIR0softmax(WMix0)

      • 第二增强:

        F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1=FIR0WVen,FV1=FV0WIRen

通过上述步骤,DECA 能在通道层面 重分配注意力,兼顾单模态与融合特征的语义重要性 。

2. 双空间增强像素权重分配模块(DEPA)

  • 目标:在空间(像素)维度上,模拟 DECA 的双增强机制,用于 位置敏感 的特征融合。

  • 流程

    1. 对 DECA 输出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1,FIR1 分别进行不同尺度的卷积提取临时权重,再形变后相乘得到跨模态空间权重 W M i x 1 W^1_{Mix} WMix1

    2. 分别使用 3×3 和 5×5 卷积获得两种尺度下的单模态像素权重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1,WIR1,再通过软最大化与 W M i x 1 W^1_{Mix} WMix1 结合。

    3. 双重增强:

      F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR=FIR1WVen,FV=FV1WIRen

    4. 最终将二者相加,送入检测头。

DEPA 强调了空间位置上的互补信息,进一步丰富了跨模态特征的结构表达 。

3. 双向解耦 Focus

在这里插入图片描述

  • 灵感:YOLOv5 的 Focus 模块可无损下采样;DEYOLO 通过水平/垂直两种解耦采样方式,增强骨干对不同方向上下文的感受野。
  • 结构:将浅层特征按像素间隔分组,在横向与纵向分别采样,再进行深度可分离卷积,最后与原特征拼接,扩大感受野且保留细节 。

实验与结果

数据集与评价指标

  • 数据集:M3FD(4,200 对 RGB-IR)、LLVIP(16,836 对)、KAIST(清洗后 7,601/2,252) 。
  • 指标:mAP@0.5、mAP@0.5:0.95(mAP50−95)、Log Average Miss Rate (LAMR)。

消融实验

在这里插入图片描述

  • 模块贡献(Table 1):

    • 单独 DECA 或 DEPA,在 M3FD 上分别提升 mAP50 +4.2%/+3.6%,mAP50−95 +4.4%/+3.5%。
    • DECA+DEPA 联合 +4.4%/+4.6%,三者(含 Focus)则达 +5.8%/+5.3% 。
  • 核大小与层数

    • DEPA 在 3×3 卷积核时效果最佳(Table 2)。
    • DECA 使用 3 层深度可分离卷积效果优于普通卷积(Table 3)。

与 SOTA 比较

  • 单模态 vs DEYOLO

    • 可见光单模态最高 mAP50≈88.3%,红外≈78.3%;DEYOLO-n 达 86.6%、DEYOLO-l 达 91.2%(M3FD),均超越多种 ViT/RCNN、YOLOv7/8 等 。
  • 融合-检测方法

    • 与 IRFS、U2Fusion、SeAFusion 等融合算法比较,DEYOLO-n 在 M3FD 上至少领先 5.4% mAP50,DEYOLO-l 领先超过 10% 。
  • 泛化能力:在 KAIST 数据集上,虽然未夺魁,但仍优于多数 RGB-T 检测方法,说明跨光谱特征增强具有广泛适用性。


讨论与展望

  • 优势

    1. 检测导向:直接在特征层面交互融合,以检测性能为优化目标;
    2. 双增强机制:通道与空间维度的互补增强,有效抑制模态间噪声干扰;
    3. 轻量可插拔:DECA/DEPA 与双向 Focus 可插入其它骨干网络。
  • 局限与未来

    • 对齐要求较高的数据对;
    • 如何在更大尺度、更多模态(如深度/SAR)中扩展?
    • 实时性与资源消耗的权衡值得深入探索。

结语

DEYOLO 通过 双语义双空间 的“检测驱动”跨模态特征增强,结合 双向解耦 Focus,在弱光与复杂场景下显著提升了目标检测性能,为可见光与红外融合检测提供了新思路。其模块化设计也为后续多模态检测模型的构建和应用奠定了基础。未来,可在更加多样化的场景与模态上,继续探索双增强策略的广泛适用性与即时性优化。

相关文章:

  • 做网站开店b2b关键词排名工具
  • 网站上怎么做通栏的图片关键词优化的最佳方法
  • 美工做网站是怎么做饥饿营销案例
  • 淘宝店铺网站建设长春关键词优化报价
  • 平台网站功能武汉网站设计
  • 温州市城乡建设厅网站首页泸州网站优化推广
  • 微信小程序节点相关总结
  • 入门级STM32F103C8T6无人机(原理图其一)
  • Proteus 8.17下载安装保姆级教程【2025最新版】附安装包
  • Android Navigation 原理解析
  • C++字符串的行输入
  • 华为服务器的选型指南
  • AI + 化学实验:从“黑匣子”到“显微镜”,人工智能如何让化学研究更聪明?
  • TouchDIVER Pro触觉手套:虚拟现实中的多模态交互新选择
  • day41/60
  • OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
  • Springboot项目中使用手机号短信验证码注册登录实现
  • Starrocks 低基数全局字典优化
  • 【stm32】标准库学习——USART串口
  • 攻防世界-MISC-MeowMeowMeow
  • C++面试题(46)------滑动窗口的最大值
  • vue 路由学习
  • Python核心库Pandas详解:数据处理与分析利器
  • 【最新实时目标检测YOLOv13添加PyQt可视化界面】
  • 旁挂式集中转发AC基础配置
  • 对手机屏中断路和短路的单元进行切割或熔接,实现液晶线路激光修复原理