当前位置: 首页 > news >正文

【论文|复现】YOLOFuse:面向多模态目标检测的双流融合框架

目录

■技术特性

■LLVIP基准测试结果

■数据输入规范

■快速部署指南

①环境初始化

②模型训练

③推理验证

④代码

■数据集结构

■扩展

▲常见模态组合与应用场景

▲融合方式



YOLOFuse是基于 Ultralytics YOLO 框架构建的增强型目标检测系统,专为模态感知任务设计。本框架创新性地引入双流处理架构,支持RGB与红外(IR)图像的协同分析与特征融合,显著提升复杂环境(低照度、烟雾遮挡、极端天气等)下的检测鲁棒性。适用于安防监控、灾害救援、工业巡检等关键场景。

github代码:https://github.com/WangQvQ/YOLOFuse

技术特性

异构数据融合:实现RGB与IR图像(可扩展至RGB-D等模态)的端到端联合处理

兼容YOLOv8 API:保留原生接口规范,确保用户迁移成本最小化

可扩展融合模块:提供多层次融合策略,支持:

✅ 数据级融合(Data-level Fusion)

✅ 决策级融合(Decision-level Fusion)

✅ 早期特征融合(Early-level Feature Fusion)

✅ 中期特征融合(Mid-level Feature Fusion)

✅ 极简融合(Easy-level Feature Fusion)

✅ DEYOLO(arxiv)

LLVIP基准测试结果

模型架构

模态

精度 (P)

召回率 (R)

mAP@50

mAP@50:95

模型大小 (MB)

计算量 (GFLOPs)

YOLOv8n (baseline)

RGB

0.888

0.829

0.891

0.500

6.20

8.1

YOLO-Fuse-中期特征融合

RGB+IR

0.951

0.881

0.947

0.601

2.61

3.2

YOLO-Fuse-早期特征融合

RGB+IR

0.950

0.896

0.955

0.623

5.20

6.7

YOLO-Fuse-决策级融合

RGB+IR

0.956

0.905

0.955

0.612

8.80

10.7

YOLO-Fuse-极简融合

RGB+IR

0.899

0.865

0.939

0.620

7.83

8.5

DEYOLO

RGB+IR

0.943

0.895

0.952

0.615

11.85

16.6

数据输入规范

系统通过文件名自动关联异构数据源,需确保文件命名一致性.

数据集目录/

├── images/        # RGB图像

│   └── 120270.jpg

└── imagesIR/      # 红外图像(同级目录)

└── 120270.jpg  # 同名IR文件

标注文件仅需基于RGB图像生成,系统自动复用至IR模态.

快速部署指南

环境初始化

git clone https://github.com/WangQvQ/YOLOFuse.gitcd YOLOFusepip install -e .  # 可编辑模式安装

模型训练

融合配置文件:ultralytics/cfg/models/fuse/

python train_dual.py  # 启动双流训练

推理验证

python infer_dual.py  # 执行融合推理

预训练权重下载

链接:https://pan.quark.cn/s/ec13c6e17b8d 提取码:HETx

④代码

  • infer_dual.py
from ultralytics import YOLOif __name__ == "__main__":model = YOLO("runs/train/RGB-IR/weights/best.pt")model.predict(source="ultralytics/assets/LLVIP/images",save=True,  # 保存预测结果imgsz=640,  # 输入图像的大小,可以是整数或w,hconf=0.25,  # 用于检测的目标置信度阈值(默认为0.25,用于预测,0.001用于验证)iou=0.45,  # 非极大值抑制 (NMS) 的交并比 (IoU) 阈值show=False,  # 如果可能的话,显示结果project="runs/predict",  # 项目名称(可选)name="exp",  # 实验名称,结果保存在'project/name'目录下(可选)save_txt=False,  # 保存结果为 .txt 文件save_conf=True,  # 保存结果和置信度分数save_crop=False,  # 保存裁剪后的图像和结果show_labels=True,  # 在图中显示目标标签show_conf=True,  # 在图中显示目标置信度分数vid_stride=1,  # 视频帧率步长line_width=3,  # 边界框线条粗细(像素)visualize=False,  # 可视化模型特征augment=False,  # 对预测源应用图像增强agnostic_nms=False,  # 类别无关的NMSretina_masks=False,  # 使用高分辨率的分割掩码)
  • train_dual.py
from ultralytics import YOLOif __name__ == "__main__":model = YOLO("ultralytics/cfg/models/fuse/easy-fuse.yaml")model.train(data="ultralytics/cfg/datasets/LLVIP.yaml",ch=6, # 多模态时设置为 6 ,单模态时设置为 3imgsz=640,epochs=100,batch=64,close_mosaic=0,workers=16,device="0",optimizer="SGD",patience=0,amp=False,cache=True, # disk 硬盘,速度稍快精度可复现;ram/True 内存,速度快但精度不可复现project="runs/train",name="easy-fuse",resume=False,fraction=1, # 只用全部数据的 ?% 进行训练 (0.1-1))
  • val_dual.py
from ultralytics import YOLOmodel = YOLO("runs/train/easy-fuse/weights/best.pt")
model.val(data="ultralytics/cfg/datasets/LLVIP.yaml",ch=6,  # 多模态时设置为 6 ,单模态时设置为 3
)

数据集结构

采用标准YOLO格式,目录结构示例如下:

datasets/
├── images/
│   ├── train/    # RGB训练集
│   └── val/      # RGB验证集
├── imagesIR/     # IR图像集(与images目录同级)
│   ├── train/
│   └── val/
└── labels/       # 统一标注文件├── train/└── val/

■扩展

▲常见模态组合与应用场景

  • 可见光图像:擅长捕捉颜色和细节,但在夜间、低光或复杂天气(如雾霾)环境下性能显著下降。
  • 红外热成像:不受光照影响,能感知温度差异,适用于夜间监控、安防等场景,但缺乏颜色信息。
  • 激光雷达(LiDAR):提供精准的三维位置和深度信息,解决遮挡和距离感知问题,广泛应用于自动驾驶和机器人领域。
  • 毫米波雷达:在恶劣天气(如暴雨、大雾)中穿透性强,可与相机融合提升检测可靠性。

常见模态组合:

  • RGB+红外热成像(IR):适用于夜间监控、安防等场景。例如,监控系统白天用RGB摄像头捕捉彩色图像,夜间通过红外热像仪检测人体热辐射,融合后检测精度较单模态有很大提升。
  • RGB+深度(LiDAR):在自动驾驶和机器人领域应用广泛。摄像头识别物体类别,激光雷达提供三维位置和深度信息,解决遮挡和距离感知问题。
  • 其他组合:如毫米波雷达+相机(恶劣天气检测)。

▲融合方式

  • 数据级融合:直接拼接原始数据(如像素级叠加),保留全部细节,需严格空间对齐,适用于硬件配准良好的场景,为下图中的(a)前期融合。
  • 特征级融合:提取各模态特征后整合(如级联、注意力机制),计算效率与精度平衡,是主流方法。早期融合(b)、中-后期融合(c)、后期融合(d)均属于此范畴。
  • 决策级融合:独立检测后合并结果(如加权平均、投票),实时性强且容错性高,适合快速集成现有模型。

至此,本文的内容就结束了。

http://www.dtcms.com/a/296190.html

相关文章:

  • IROS-2025 | OIKG:基于观察-图交互与关键细节引导的视觉语言导航
  • 疯狂星期四第17天运营日记
  • 手写DQN (FrozenLake环境)
  • 飞牛系统安装DataEase自定义Docker包
  • 医疗行业新变革:AR 培训系统助力手术培训精准高效​
  • 大模型回复数据标注优化方案
  • STM32-FSMC
  • 利用Web3加密技术保障您的在线数据安全
  • Java学习----原型模式
  • 草稿未完成!Linux网络系统【文件传输】【I/O 多路复用】
  • docker安装 Elasticsearch、Kibana、IK 分词器
  • 基于SpringBoot+Vue的电脑维修管理系统(WebSocket实时聊天、Echarts图形化分析)
  • 二分查找----5.寻找旋转排序数组中的最小值
  • 【从0开始学习Java | 第3篇】阶段综合练习 - 五子棋制作
  • 「OC」源码学习——属性关键字
  • 基于深度学习的胸部 X 光图像肺炎分类系统(一)
  • STL学习(?map容器)
  • C++性能优化实战‘从毫秒到微秒的底层突围‘
  • C++ 性能优化
  • WPF 控制动画开关
  • 一键修复ipynb,Jupyter Notebook损坏文件
  • redis前期工作:环境搭建-在ubuntu安装redis
  • 基于xxl-job的分片实现分库分表后的扫表
  • Qt WebEngine Widgets的使用
  • MCNN-BiLSTM-Attention分类预测模型等!
  • ChemDraw23软件下载及安装教程|附带软件下载文件|ChemDraw20-23pro版本
  • <<P4116 Qtree3>>
  • 胡良兵Nature Chem Eng:孔隙门控焦耳热精准升级聚乙烯为航油前驱物
  • 中央广播电视总台联合阿里云研究院权威发布《中国人工智能应用发展报告(2025)》:我国依旧需要大力注重人工智能人才的培养
  • Coze工作流-更多图像插件