当前位置：首页 > news >正文

【Advanced Engineering Informatics 1区TOP】ELA-YOLO：一种基于线性注意力的高效钢铁表面缺陷检测方法

news 2025/11/12 9:07:25

文章目录

论文信息
摘要
1. 引言
2. 预备知识
- 2.1. YOLOv8
- 2.2. 线性注意力
3. 提出的方法
- 3.1. 所提方法的工作流程
- 3.2. 图像预处理
- 3.3. 网络架构
- - 3.3.1. 骨干网络
  - 3.3.2. Neck
  - 3.3.3. Head
  - 3.4. 损失函数
4. 实验
- 4.1. 参数配置与实验数据集
- - 4.2. 实验指标
  - 4.3. 实验结果与分析
  - - 4.3.1. 在NEU-DET上与其他方法的对比
    - 4.3.2. 在DAGM上与其他方法的对比
    - 4.3.3. 在GC10-DET上与其他方法的对比
    - 4.3.4. 综合分析
5. 讨论
- 5.1. 模型架构
- 5.2. 我们的方法在不同框架下的有效性
- 5.3. 损失函数的有效性
- 5.4. 预处理的有效性
- 5.5. 特征可视化与分析
- 5.6. 局限性与未来工作
6. 结论
引用

论文信息

论文题目：ELA-YOLO: An efficient method with linear attention for steel surface defect detection during manufacturing
中文题目：ELA-YOLO：一种基于线性注意力的高效钢铁表面缺陷检测方法
发表期刊：Measurement
论文链接：点击跳转
代码链接：/
核心速览：工业生产中钢铁表面缺陷检测对产品质量至关重要，但传统方法效率低、深度学习方法常面临精度与速度难以兼顾的问题。本文提出 ELA-YOLO 方法，通过三方面优化：① 引入线性注意力模块提升特征提取能力，降低计算复杂度；② 设计选择性特征金字塔网络（FPN）增强多尺度特征融合；③ 构建轻量检测头平衡分类与回归性能。同时结合图像预处理（对比度调整、锐化）降低环境干扰。实验验证，该方法在多个数据集上超越现有 YOLO 系列、Faster R-CNN 等模型，实现精度、效率、轻量化的最优平衡，可部署于工厂边缘设备，支撑工业 4.0 智能质检。

摘要

深度学习方法在钢铁表面缺陷检测中的研究显著提升了产品质量和制造效率。然而，实际工业场景面临诸多挑战，包括颜色、光照、反射条件等环境因素的变化，这些因素会影响缺陷的可见性。此外，缺陷在大小和形状上存在差异，有些缺陷非常小或隐蔽，难以准确检测。待检测图像的复杂纹理进一步增加了计算成本，往往为了追求高精度而牺牲了效率。在本文中，我们提出了一种名为ELA-YOLO的新型缺陷检测方法，以YOLOv8作为基础框架。首先，我们在网络中引入线性注意力以提高模型的表示能力，同时控制计算复杂度。其次，我们提出了选择性特征金字塔网络，以增强不同层级之间的特征融合。第三，我们设计了轻量级检测头，以高效输出检测结果。实验结果表明，ELA-YOLO在NEU-DET数据集上实现了最高81.7的mAP，在DAGM2007数据集上实现了99.3的mAP，在GC10-DET数据集上实现了74.3的mAP。此外，它还实现了最低的参数（5.4 M）、计算复杂度（16.5 GFLOPs）以及相对较低的延迟（101.3 FPS）。我们的方法在效率和精度之间达到了最优平衡，在工业钢铁表面缺陷检测中展现出全面的性能。

1. 引言

钢铁是一种在众多行业中广泛使用的关键材料。在钢铁生产中，表面质量是决定其性能的关键因素[1]。诸如裂纹、斑块和夹杂物之类的表面缺陷会严重降低材料性能，往往会导致后续的严重劣化。因此，检测表面缺陷对于确保闭环制造系统内的质量控制至关重要[2]。传统的检测方法主要依赖人工视觉检查，这种方法效率低下且容易出现人为错误，导致不一致性和不准确性。随着工业自动化和智能制造技术的进步，复杂的检测技术已成为取代人工方法的必要手段[3,4]。

在自动化检测任务中，基于机器学习和图像处理的传统方法取得了一定的成功。例如，Yan等人[5]提出了一种使用主成分分析（PCA）对钢板表面缺陷进行分类的方法。同样，

Wang等人[6]采用了增强极限学习机（ELM）用于热轧带钢的板形控制，而Liu等人[7]则使用改进的支持向量机（SVM）作为图像二分任务的分类器。然而，这些方法通常受到精度低、鲁棒性差和泛化能力弱的限制，使其不足以解决现实工业应用中的复杂问题。

近年来，基于深度学习的方法彻底改变了图像分类、目标检测和语义分割等计算机视觉任务。基于深度学习的缺陷检测算法通常可分为两类：单阶段方法和两阶段方法[8,9]。单阶段方法，如YOLO系列[10-19]、SSD[20]和CenterNet[21]，同时预测边界框位置、类别和其他属性。相比之下，两阶段方法，包括Faster R-CNN[22]、Cascade R-CNN[23]和Hybrid Task Cascade[24]，首先生成区域建议，然后再细化对象的分类。这些深度学习技术极大地推动了表面缺陷检测的发展，并

拓宽了计算机视觉在工业场景中实际应用的潜力。例如，Zhang等人[25]引入了具有坐标和通道注意力机制的ELAN-C模块，并将其与YOLOv8集成，用于飞机蒙皮的视觉检查。Ma等人[26]提出了一种分层注意力模块，结合区域建议网络，基于Faster R-CNN检测轴承表面缺陷。

尽管取得了这些进展，工业环境中的表面缺陷检测仍然面临重大挑战：（1）工业产品固有的多样性和复杂性导致缺陷的大小和形状存在很大差异，尤其是对于小缺陷，这使检测过程变得复杂[27,28]。（2）环境条件，再加上材料表面复杂的反射特性，会产生噪声和伪影，从而阻碍缺陷检测[29]。（3）生产线上的检查必须迅速进行，以避免干扰生产效率[30]。这些挑战对检测算法在速度和精度方面都提出了严格的要求，特别是因为检测细微缺陷通常需要高分辨率图像。虽然许多方法试图通过增加模型参数和计算复杂度来提高检测精度，但往往以牺牲效率为代价。因此，在实际约束下实现精度和速度之间的平衡仍然是一个关键的研究重点。

近年来，最初为自然语言处理开发的Transformer[31]已越来越多地应用于计算机视觉任务。Sun等人[32]在Transformer层中提出了一种多尺度可变形注意力模块，以更有效地检测在役航空发动机叶片。Zhou等人[33]将双注意力Transformer引入骨干网络，实现全局上下文学习以提高性能。Zhang等人[34]开发了一个两阶段Transformer框架，该框架结合了小波特征来引导模型关注细粒度的表面细节。Transformer的关键贡献在于其自注意力机制，该机制允许在单个层内进行全局特征提取，避免了卷积神经网络（CNNs）所需的堆叠多个卷积层的需求。这种机制在保留高级空间信息的同时，降低了网络的深度和参数数量[35]。这种能力在涉及细微纹理的任务中对提高精度特别有益，例如小缺陷检测。然而，自注意力的计算复杂性很高，由于查询、键和值之间的点积运算，其复杂度呈二次方增长，再加上Softmax函数的低效性，使得处理全局特征在计算上非常昂贵。作为替代方案，线性注意力[36]已被开发出来以减少计算负载和参数数量，在效率方面具有显著优势。将线性注意力集成到检测网络中可以在保持低参数数量和快速推理时间的同时实现高性能。

基于这些见解，我们提出了ELA-YOLO，这是一种新颖的表面缺陷检测方法，通过有针对性和创新性的设计策略来解决关键问题和挑战。首先，我们引入了一个线性注意力模块来增强特征提取，提供更详细的高级表示，显著提高对复杂纹理和小规模缺陷的检测能力。其次，在预处理阶段应用图像增强技术来优化原始输入图像，减少环境因素的干扰并提高图像质量。最后，为了满足严格的实时性能要求，我们设计了一个优化的轻量级颈部和头部结构，确保高检测性能的同时实现更快的推理速度。本文的主要贡献如下：

基于高效线性注意力的检测框架：我们提出了ELA-YOLO，这是一种新颖的表面缺陷检测框架，集成了线性注意力，以在有限的计算资源和低延迟条件下实现精确的多尺度缺陷检测。通过结合先进的图像预处理技术，该框架增强了模型对复杂纹理的鲁棒性，并能够高效地部署在工厂边缘设备上。
新颖的特征金字塔网络：我们引入了一个特征金字塔网络，该网络选择并融合不同层级的特征图，丰富了网络内的语义信息，同时增强了模型的表示能力和鲁棒性。
轻量级检测头：为了解决传统检测头计算复杂度高的问题，我们提出了一种轻量级检测头，在保持分类准确性和定位精度的同时提高整体性能。

本文的其余部分组织如下。第2节提供了本研究的预备知识。第3节介绍了该方法的细节。然后，在第4节对所提出的方法进行评估。第5节对该方法进行讨论。最后，在第6节得出结论。

2. 预备知识

2.1. YOLOv8

YOLO系列在单阶段目标检测器的发展中具有重要里程碑意义。作为其高级版本，YOLOv8满足了工业表面缺陷检测对效率的需求，具有高度可扩展的性能。尽管YOLOv10已发布，但YOLOv8因其在不同任务和数据集上的出色适应性，仍然是首选。YOLOv8提供了不同规模的模型，包括YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。为了在效率和精度之间取得平衡，本研究选择YOLOv8s作为基准模型。

YOLOv8的结构由三个主要组件组成：骨干网络（backbone）、颈部（neck）和头部（head）。骨干网络负责特征提取和抽象，将原始输入数据转换为一组具有代表性的特征。颈部位于骨干网络和头部之间，进一步处理并整合骨干网络提取的特征。多层级特征的融合增强了网络在各种任务上的泛化能力。最终，检测头部将骨干网络和颈部生成的特征转换为最终输出。

在我们的工作中，我们使用了原始YOLOv8中的CBS和SPPF模块。这两个模块的结构如图4（如下）所示。CBS模块是一个标准的卷积块，由卷积层、批量归一化（BN）层和SiLU激活函数组成。该模块作为上采样和特征提取的基本构建块。SPPF模块是改进的空间金字塔池化（SPP），集成在骨干网络的末端，用于融合同一特征图不同尺度的特征。
在这里插入图片描述

2.2. 线性注意力

自注意力机制允许模型为序列内的不同元素分配不同程度的重要性。这是通过计算每个查询和键的点积来实现的，使模型能够权衡元素之间的关系。自注意力的一般形式可表示为：

$V)_m = \frac{\sum_{n=1}^N sim(Q_m, K_n) V_n}{\sum_{n=1}^N sim(Q_m, K_n)} \tag{1}$

其中， $Q$ 、 $K$ 、 $V$ 分别表示查询、键和值张量。 $N$ 表示输入标记的数量， $s im (., .)$ 表示相似度函数。原始自注意力采用 $sim(Q_m, K_n) = \exp(Q_m K_n^T / \sqrt{d})$ ，即Softmax函数。传统自注意力的计算复杂度是二次方的（ $O(n^2)$ ），因为Softmax函数需要在所有查询和键之间进行成对计算。这使得自注意力在计算上非常昂贵，尤其是在全局特征提取任务中，并且不适用于对效率要求严格的实时应用。
在这里插入图片描述
线性注意力机制作为一种有效的替代方案，可以显著降低计算复杂度。在图1中，我们简要展示了这两种注意力机制之间的差异。考虑到标记数量 $N$ 通常大于维度 $d$ ，线性注意力机制的复杂度从 $O(N^2 d)$ 降低到 $O(N d^2)$ 。这是通过将原始相似度函数替换为线性核函数来实现的，从而实现更高效的计算顺序。线性注意力可表示为：

$sim(Q_m, K_n) = \phi(Q_m) \phi(K_n)^T \tag{2}$

$V)_m = \frac{\sum_{n=1}^N \phi(Q_m) \phi(K_n)^T V_n}{\sum_{n=1}^N \phi(Q_m) \phi(K_n)^T} \tag{3}$

其中， $\phi$ 表示核函数（例如，ReLU、ReLÜ6），用于近似原始相似度函数。通过引入线性核函数，可以改变计算顺序，在保留全局特征提取能力的同时降低复杂度。自注意力机制的重写形式变为：

$V)_m = \frac{\phi(Q_m) \sum_{n=1}^N \phi(K_n)^T V_n}{\phi(Q_m) \sum_{n=1}^N \phi(K_n)^T} \tag{4}$

这种计算形式的重构使线性注意力能够更高效地处理序列，使其非常适用于需要实时性能的任务，例如工业应用中的表面缺陷检测。

3. 提出的方法

我们以YOLOv8为框架，开发了一种基于高效线性注意力的钢铁表面缺陷检测方法ELA-YOLO。首先，介绍所提方法的整体架构和工作流程。接下来，详细说明采集图像的预处理方法。随后，描述检测器组件的结构细节。最后，解释训练过程中使用的损失函数设计。

3.1. 所提方法的工作流程

我们所提方法的工作流程如图2所示。它主要由三个阶段组成。

在这里插入图片描述

(1) 图像采集与预处理。高分辨率相机采集工业生产线上钢铁表面的图像。然后通过计算机处理这些图像，调整其尺寸和对比度，标准化识别过程。该步骤通过减轻环境条件的变化，提高模型的准确性并增强系统的鲁棒性。

(2) 通过网络自动检测。我们基于线性注意力设计的检测器用于预测缺陷的位置和类型，并生成初步推理结果。

(3) 结果分析。使用非极大值抑制（NMS），选择最佳边界框，消除冗余框，并确定预测框的置信度。最后，过滤掉置信度分数低的目标，最终判断钢铁表面是否存在缺陷。

3.2. 图像预处理

考虑到在实际工业场景中，亮度、反射条件和其他环境因素会对图像质量产生很大影响，导致图像存在高噪声、缺陷对比度低、光照不均匀等现象，不利于后续模型的检测。因此，为了解决这些问题，我们根据以下公式通过缩放像素来调整图像对比度。

$\times \log_2(1 + p/255) \tag{5}$

其中， $\in [0, 255]$ 表示RGB格式图像中的像素值。同时，我们对图像进行锐化处理，并将结果与增强后的图像进行alpha混合。具体来说，我们对图像应用内核大小为 $\times 3$ 的卷积。该内核的矩阵可以表示如下。

$\alpha) \begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{bmatrix} + c\alpha \begin{bmatrix} -1 - s & 0 - s & 0 \\ 0 - s & 1 & 0 + s \\ 0 & 0 + s & 1 + s \end{bmatrix} \quad(6)$