当前位置：首页 > news >正文

（论文速读）GC-Net：用于钢材表面缺陷检测的全局关注模块和级联融合网络

news 2025/11/13 17:35:06

论文题目：Global attention module and cascade fusion network for steel surface defect detection（用于钢材表面缺陷检测的全局关注模块和级联融合网络）

期刊：Pattern Recognition （计算机科学 Top）

摘要：钢材表面缺陷检测在现代社会中发挥着举足轻重的作用，可以确保建筑和制造的质量和安全，降低生产成本，提高效率，推动技术创新。然而，这项任务遇到了挑战，包括解决非结构化功能、多尺度问题和可用数据稀缺。为了克服这些挑战，本文提出了一种全局关注模块和级联融合网络用于钢材表面缺陷检测，称为GC-Net。在该网络中，提出了全局注意力模块，以增强模型处理非结构化缺陷的能力。随后，设计了级联融合网络进行多尺度特征融合，从而提高了对不同尺度缺陷的检测精度。随后，在后处理阶段采用软非最大值抑制消除冗余检测盒，进一步提高了网络的检测性能。最后，在实验过程中使用了一系列数据增强技术，包括过采样和小对象增强，以缓解数据稀缺的问题。在两个钢材表面缺陷检测数据集上的实验结果表明，该方法在MAP50度量(NEU-DET：0.771，GC10-DET：0.635)方面优于最先进的方法。

该代码在https://github.com/Ghlerrix/GC-Net.上发布

引言

在工业4.0时代,钢材作为现代制造业的基础材料,其质量直接影响到航空航天、汽车制造、建筑工程等关键领域。传统的人工检测方法效率低、成本高且易受主观因素影响。近年来,深度学习技术为钢材表面缺陷检测带来了革命性变革。

今天要介绍的这篇发表在国际顶级期刊Pattern Recognition上的论文,提出了一种名为GC-Net的创新方法,在两个公开数据集上均取得了SOTA(State-of-the-Art)性能。让我们深入了解这项研究的精髓。

一、钢材表面缺陷检测的三大难题

1.1 多尺度挑战

想象一下,你需要在同一张图像中同时检测出:

微小缺陷:仅有几个像素大小的划痕
大型缺陷:占据图像大部分区域的裂纹

这种巨大的尺度差异使得传统检测算法难以兼顾。小目标容易漏检,大目标则可能被误检或定位不准。

1.2 非结构化特性

与检测汽车、行人等结构规则的物体不同,某些钢材表面缺陷呈现出碎片化、不规则的形态。它们可能是:

没有完整边界的斑块
分散分布的点状缺陷
形状不规则的夹杂物

这种非结构化特性使得基于局部特征的CNN方法难以有效捕捉。

1.3 数据稀缺与长尾分布

在实际生产线上:

某些严重缺陷类型出现频率极低
收集大量真实缺陷数据成本高昂
数据呈现明显的长尾分布

这导致模型在少数类样本上容易过拟合或性能不佳。

二、GC-Net的创新架构

2.1 整体框架

GC-Net基于YOLOv8构建,整体架构包含四大核心组件:

输入图像 → 骨干网络(带GAM) → 级联融合网络(CFN) → 检测头 → Soft-NMS后处理

2.2 全局注意力模块(GAM):让模型"看得更远"

核心思想:引入Transformer的自注意力机制,增强全局特征提取能力。

GAM的双重设计

论文巧妙地设计了两种GAM:

① GAM-A(基于轴向注意力)

用于骨干网络的浅层
采用稀疏化的轴向注意力,减少计算冗余
分别在行和列方向进行注意力计算

② GAM-M(基于多头自注意力)

用于骨干网络的深层
利用MSA构建长距离依赖关系
更适合处理高维特征信息

为什么这样设计?

研究表明,浅层特征的注意力矩阵往往是稀疏的,使用全局MSA会引入大量计算冗余。因此在浅层使用轴向注意力,在深层使用多头自注意力,既保证了效果又控制了计算量。

LSAM(局部空间注意力模块)

在GAM的残差分支中加入LSAM,通过以下步骤增强空间注意力:

对输入特征进行1×1卷积降维
分别进行平均池化和最大池化
拼接三个特征图并用Sigmoid归一化
生成空间注意力图

数学表达:

L(F) = σ(f_7×7([f_1×1(F); AvgPool(F); MaxPool(F)]))

2.3 级联融合网络(CFN):多尺度特征的智慧融合

传统的FPN(特征金字塔网络)虽然广泛应用,但融合方式相对简单。CFN通过级联结构实现更深入的特征融合。

CFN的工作流程

Stage 1: 自上而下的上采样融合↓
Stage 2: 卷积下采样获取下一级输入↓
Stage 3: 继续级联融合↓
输出三个不同尺度的特征图

每个级联阶段包含:

自上而下的融合路径:通过上采样和拼接融合不同层特征
C2f模块:YOLOv8提出的特征提取模块,进一步提取特征
下采样结构:高效获取下一级所需输入

CFN的三大优势

灵活性:可通过调整级联层数适应不同任务
高效性:卷积下采样结构保证多级级联时的效率
有效性:实验表明3级级联达到最佳性能平衡

2.4 Soft-NMS:温柔的后处理策略

传统NMS的问题:

直接删除IoU超过阈值的重叠框
阈值设置困难:太低会误删正确框,太高会保留过多冗余框

Soft-NMS的改进:

if IoU(M, b_i) >= threshold:s_i = s_i * (1 - IoU(M, b_i))  # 降低置信度而非直接删除

这种"温柔"的方式能够:

保留部分低置信度但可能有效的检测框
更灵活地处理重叠情况
在实验中带来约2%的mAP提升

三、数据增强:应对数据稀缺的实用策略

3.1 过采样技术

针对少数类样本进行随机重复采样,缓解长尾分布问题。

实验发现:

1倍过采样效果最佳(mAP50从0.615提升到0.634)
过高倍率会导致过拟合(3倍时性能下降到0.579)

3.2 小目标增强

专门针对小尺度缺陷设计的增强技术:

复制小目标并随机放置到图像其他位置
增加小目标的多样性和出现频率

效果验证:

mAP50从0.733提升到0.747
小目标检测性能(mAPs)从0.325提升到0.379

四、实验结果与深度分析

4.1 数据集介绍

NEU-DET数据集

来源:东北大学提供
包含6种缺陷类型:划痕(Sc)、斑块(Pa)、夹杂物(In)、轧入氧化皮(RS)、点蚀表面(PS)、龟裂(Cr)
特点:多样化的工业挑战场景

GC10-DET数据集

来源:真实工业环境采集
包含10种缺陷类型:冲孔(PH)、焊接线(WL)、月牙缝(CG)、水渍(WS)、油渍(OS)、丝斑(SS)、夹杂(In)、辊印(RP)、折痕(Cr)、腰折(WF)
特点:更复杂、更贴近实际应用

4.2 性能对比

NEU-DET数据集结果

方法	mAP	mAP50	mAP75	FPS
Faster R-CNN	0.353	0.736	0.291	30
YOLOv7	0.399	0.737	0.386	39
YOLOv8	0.397	0.733	0.400	51
YOLOv9	0.404	0.735	0.372	47
LFF-YOLO	0.403	0.731	0.393	42
ETDNet	0.360	0.735	0.304	23
GC-Net	0.424	0.771	0.420	40