当前位置：首页 > news >正文

缺陷检测最新综述：针对现实世界工业缺陷检测的综合调查：挑战、方法与展望

news 2025/8/19 13:59:50

在这里插入图片描述
提交日期：2025 年 7 月 15 日
本文作者：华中科技大学、湖南大学、清华大学以及吉利汽车研究院
论文连接：A Comprehensive Survey for Real-World Industrial Defect Detection: Challenges, Approaches, and Prospects

本文主要亮点：

本文全面综述了工业缺陷检测领域，深入分析了2D和3D模态下的闭集与开集检测策略，并探讨了该领域面临的挑战和未来趋势。
论文详细阐述了从依赖大量标注的闭集检测向识别未知缺陷的开集检测的转变，并系统回顾了2D图像和3D点云数据在无监督、半监督及零/少样本等多种范式下的主要算法。
尽管取得了显著进展，但工业缺陷检测仍面临复杂成像、数据稀缺及实时性等挑战，未来研究将聚焦于构建统一框架、可控缺陷生成、可配置系统、大规模数据集以及提升高分辨率与高语义检测能力。

该综述对真实世界工业缺陷检测 (Industrial Defect Detection, IDD) 进行了全面深入的分析，涵盖了其挑战、方法和前景。文章详细阐述了IDD从传统方法向计算机视觉和深度学习的演变，并特别强调了从封闭集 (closed-set) 到开放集 (open-set) 检测范式的转变，以及2D和3D模态下的发展。

1. 缺陷检测框架 (Defect Detection Scheme)

一个典型的工业缺陷检测系统集成多个关键要素：

检测设备 (Detection Equipment)：根据检测目标和缺陷类型选择成像设备（如RGB相机、多光谱相机、深度相机、LiDAR），调整光照条件（如环形光、条形光）优化对比度，并采用合适的运动配置（如传送带、轨道系统、转盘、机械臂）确保全面覆盖和理想视角。
数据处理与分析系统 (Data Processing and Analysis System)：负责路径和视角规划，协调成像设备和运动系统进行全面空间采样，将采集数据（如RGB图像、点云）编译成结构化数据库（包含无缺陷样本和标注缺陷实例），并应用专业检测算法识别异常和缺陷。
检测结果 (Detection Results)：输出分类或定位结果，用于提升产品质量或优化生产流程。

数据集 (Datasets) 在IDD发展中至关重要。研究焦点已从传统的封闭集（如DAGM）转向更复杂的开放集场景（如MVTec AD、VisA、Real-IAD）。数据模态也从早期图像（2D）发展到3D点云（如Real3D-AD、MiniShift），再到多模态数据（如MVTec 3D、Eyecandies、MulSenAD），利用多种传感器互补能力增强检测鲁棒性。测试数据集设计也趋向真实世界复杂性，例如Real-IAD和RAD考虑视角变化，Eyecandies考虑光照条件，M2AD则同时考虑两者。
在这里插入图片描述

挑战 (Challenges) 主要包括：

复杂工业对象的清晰成像 (Clear Imaging of Complex Industrial Objects)：复杂几何形状和多样表面材料（金属、透明、高反射）在不一致光照和视角下对成像系统造成困难。
跨模态缺陷可见性 (Visibility of Defects Across Modalities)：2D模态（RGB、红外）提供高分辨率纹理，对表面缺陷有效但缺乏深度信息，易受光照视角影响；3D模态（LiDAR、结构光）捕获几何拓扑细节，可识别2D不可见结构缺陷，但受稀疏性、遮挡和噪声影响。
细微、多样和新型缺陷类型 (Subtle, Varied, and Novel Defect Types)：工业缺陷常表现为微小划痕、凹痕、微弱变形，且多样且不可预测。
数据标注挑战 (Challenges in Data Annotation)：标注劳动密集，成本高昂；缺陷样本稀缺和不平衡导致训练数据偏向正常样本。
精度与速度需求 (Demands for Precision and Speed)：需高精度和严格实时性能（如高于20-30 fps）以融入生产线。
鲁棒性和一致性 (Ensuring Robustness and Consistency)：方法须能承受光照波动、传感器噪声、部件定位和制造公差等多样性。

2. 2D 缺陷检测 (2D Defect Detection)

2D IDD从封闭集发展到开放集，开放集又分为无监督、半监督和零/少样本。
在这里插入图片描述

2.1 封闭集 2D 缺陷检测 (Close-Set 2D Defect Detection)

假设所有缺陷类型在训练时已知，采用监督学习。

演进：从早期CNNs (AlexNet) 到Faster R-CNN、YOLO系列，再到Vision Transformers (ViTs) 和基于ViT的基础模型。
粒度：分类、边界框定位、像素级分割。
挑战及应对：
- 细微缺陷 (Subtle Defects)：利用注意力机制 (如通道/空间注意力，BAF-Detector, DWWA-Net) 增强特征提取，或利用结构信息 (Shao et al., Huang et al.)。
- 多尺度缺陷 (Multi-Scale Defects)：采用特征金字塔网络 (FPN)、空洞卷积 (MSC-DNet)、空间金字塔池化和可变形卷积。
- 实时性限制 (Real-Time Constraints)：使用深度可分离卷积、轻量级MobileNet架构、知识蒸馏。
- 数据稀缺 (Data Scarcity)：通过微调预训练网络 (PGA-Net)、粗到细监督 (Bo et al.)、加权损失 (CS-ResNet)、对比学习 (Contrastive Learning, [62, 63])、域适应 (如单次风格迁移) 和增量学习 (incremental learning) 来应对。
- 缺陷生成 (Defect Generation)：利用GANs (DFMGAN)、扩散模型 (AnomalyDiffusion, Defect-Gen, AnoGen, DualAnoDiff, DefectFill) 扩充数据集，生成缺陷模式。

2.2 开放集 2D 缺陷检测 (Open-Set 2D Defect Detection)

旨在识别训练中未见的新型缺陷。从早期模板匹配转向更鲁棒的异常检测方法。

2.2.1 无监督异常检测 (Unsupervised Anomaly Detection)：仅使用大量正常样本训练。
- 特征提取：从手工特征、自监督表示到利用预训练特征（如Dino，Dinomaly），并通过微调缓解域偏移（如EfficientAD、CFA、REB、ReContrast、UniNet）。
- 特征比较：
  - 回归类方法 (Regression-based Methods)：训练网络重建正常特征，异常表现为较大的重建误差。早期为知识蒸馏，后期发展出多网络对、可训练投影头、序列架构（RD4AD）、Transformer-based (UTRAD, UniAD)、扩散模型 (pixel/feature-level, DeCo-Diff) 和状态空间模型 (MambaAD)。
    - 过泛化 (Over-generalization) 缓解：
      - 融入正常模式表示：MemAE (存储原型正常模式)、DMAD (金字塔变形模块)、PMB (分区记忆库)、THFR/TFA-Net (模板引导补偿)、HVQ-Trans (量化存储)、MemKD (并行知识蒸馏)、NDP-Net (正常图像参考)、FOD (双分支自注意力)、PNPT/RLR (自动生成正常提示)、INP-Former (提取内在正常原型)。
      - 集成合成异常：Dual-Siamese、RD++、OmniAL、DeSTSeg、MRKD、CDO/Pull&Push (最小化正常重建误差，最大化合成异常误差)、GeneralAD、ADPS、RealNet (扩散生成细微异常)。
      - 异常特征掩蔽：预测卷积注意力 (Madan et al.)、RIAD (随机掩蔽修复)、MSTAD (特征图随机掩蔽)、MLDFR (掩蔽结合混合架构)、AMINet (自适应掩蔽)、One-for-All (原型引导提议掩蔽)、PSA-VT (令牌子集互预测)。
  - 记忆库类方法 (Memory Bank-Based Methods)：存储正常训练数据的特征记忆库，通过KNN比较测试特征与记忆库（SPADE）。改进方法如GCPF（高斯分布建模）、PatchCore（核心集采样）。后续融入对比学习 (ReConPatch, REB, CFA)、位置特定特征 (PaDiM, PNI)，或回归替代KNN (FastRecon)。
  - 流类方法 (Flow-based Methods)：利用归一化流 (normalizing flows) 将复杂分布映射为简单分布，通过低似然值检测异常。DifferNet是开创性工作。后续发展：CFlow-AD (多尺度特征金字塔)、CSFlow/MSFlow (保留空间上下文)、CARF (交互式交叉注意力流)、PyramidFlow (体积归一化)、THF (掩蔽流)、HGAD (异构聚类结构)。
  - 判别类方法 (Discrimination-based Methods)：训练判别网络直接识别异常特征，通过合成伪异常。早期CutPaste、NSA (Poisson图像编辑)。后期发展为特征级合成 (SimpleNet, PBAS, GLASS)。结合重建 (DRAEM, [162, 163]) 和扩散模型 ([164])。
2.2.2 半监督异常检测 (Semi-supervised Anomaly Detection)：利用少量标注异常数据与大量正常样本共同训练，增强泛化能力。例如DeepSVDD、DevNet、SegAD、SuperSimpleNet、DRA、BiaS、BGAD、PRN、DPDL、AHL、RobustPatch等，多为无监督方法的扩展。
2.2.3 零/少样本异常检测 (Zero/Few-shot Anomaly Detection)：在数据极度稀缺条件下的检测。
- Vanilla Few-Shot：RegAD (空间变换网络)、CAReg (类别特定表示)、GraphCore (几何不变性)、UniVAD (组件级分解)。回归类 (One-to-Normal, DFD)。残差特征类 (InCTRL, ResAD, PCSNet, MetaUAS)。数据增强 (文本引导扩散)。
- Vanilla Zero-Shot：Aota et al. (单图像纹理自比较)、Ardelean et al. (双射映射)、GRNR (自重建回归)、MuSc (多输入批次级比较)。
- 基于视觉语言模型 (VLMs-based Methods)：利用CLIP等预训练VLM的零样本能力和特征提取能力。WinCLIP (手工文本提示)、Tamura (训练前馈网络)、MAYDAY (MAE重建)。现有VLM非专为异常检测设计，故有适配方法：APRIL-GAN (可学习投影层)、CLIP AD (多级特征)、AnomalyGPT (Few-shot)、MVFA (可训练视觉适应层)、CMAD (可迁移视觉原型)。提示学习 (Prompt learning) 是关键方向：AnomalyCLIP (学习对象无关提示)、LTAD (学习伪类别名)、VCP-CLIP (动态精炼)、AdaCLIP (动态提示图像/文本编码器)、Bayes-PFL (提示流模块)、One-for-All/KAG-Prompt (动态提示)、PromptAD/AA-CLIP (增强异常感知)。
- 基于多模态大语言模型 (MLLMs-based Methods)：利用MLLM的零样本推理能力。FADE (生成信息量更大的提示)、LogSAD (集成组件特征、GPT-4语义匹配)、LogiCode (GPT-4自动化编码)。直接应用探索：Anomaly-Instruct-125k (首个大规模视觉指令微调数据集)、Anomaly-OV (零样本异常检测与推理)。
特殊挑战 (Remark)：持续学习 (continual learning) 应对新类别增量适应 (DNE, UCAD, One-for-More)。噪声异常检测 (noisy anomaly detection) 应对正常训练数据污染 (SoftPatch, TailedCore)。以及生成未见异常 (AnomalyAny, AnomalyPainter)。

3. 3D 缺陷检测 (3D Defect Detection)

在这里插入图片描述

点云IDD能捕获3D几何和空间属性，适用于复杂表面和不规则几何。
3.1 封闭集 3D 缺陷检测 (Close-Set 3D Defect Detection)
将DD作为语义分割任务，假设所有缺陷已知且有标注数据。

基于点的方法 (Point-based methods)：直接处理原始点云，学习排列不变、点级特征。
基于MLPs：PointNet (全局特征)、PointNet++ (分层采样，局部结构)、RandLA-Net (大尺度点云)、PointNeXt (可伸缩性)、3P-RNN (长距离上下文)、RepSurf (曲面构建)。
基于点卷积：RSNet (1x1卷积)、PointwiseCNN (3D卷积)、PCCN (MLP参数化卷积核)、PointCNN (X-transformation)。
基于图卷积：LS-GCN (谱图CNN)、DGCNN (EdgeConv动态图)、SPG (超点图)、HDGCN (深度图卷积)、DeepGCNs。
基于Transformer：Point Transformer (自注意力)、Point Transformer V2 (分组向量注意力)、FPTransformer (局部/全局几何)、FastPointTransformer/Stratified-Transformer (计算效率)、Point Transformer V3 (序列化邻居映射)、PointMamba (状态空间模型)。
基于其他格式的方法 (Other-formats-based methods)：将点云转换为结构化格式。
多视图图像：MVCNN (2D CNN处理)、SqueezeSeg/SqueezeSegV2 (范围图像)、RangeViT。
体素化 (Voxelization)：3D ShapeNets、VoxNet、SEGCloud、ScanComplete、OctNet、SS-CNs。
其他：切线图像、晶格 (lattices)。
- 局限性：高度依赖大量高质量标注数据，对新异常泛化能力差。

3.2 开放集 3D 缺陷检测 (Open-Set 3D Defect Detection)：
在这里插入图片描述

特别强调无监督异常检测，提高对未见缺陷类型的适应性。

3.2.1 基于参考的异常检测 (Reference-based Anomaly Detection)：
- 原理：将测试点云与参考数字模型或点云对齐，计算几何距离偏差作为异常分数。
- 核心：高精度点云配准算法，目标是最小化对齐误差 $T∗=arg⁡min⁡T∈SE(3)∥Y−TX∥T^* = \arg \min_{T \in SE(3)} \|Y - TX\|$ 。
- 解决方案：
  - 基于ICP：Iterative Closest Point (ICP)，迭代地建立对应关系并最小化欧氏距离。扩展包括点到平面ICP、平面到平面。为解决局部最优和转换矩阵估计问题，有LM-ICP (误差校正)、TrICP (鲁棒回归)、MVGR (距离方差度量)。
  - 基于概率：将配准视为概率密度估计。CPD、GMMReg (高斯混合模型GMM)。扩展ECMPR (通用协方差矩阵)、JRMPC (多点云联合对齐)、HMM (混合模型)、LCGMM (局部一致性)。
  - 基于分支定界 (Branch and Bound, BnB)：系统性探索解空间以寻找全局最优。Box-and-Ball、BnBMIP (混合整数规划)。Go-ICP、GOGMA结合局部ICP或GMM。效率提升如立体投影、ACM、TR-DE、TEAR。计算成本高。
3.2.2 基于点云的异常检测 (Point Cloud-Based Anomaly Detection)：
- 原理：学习正常几何的紧凑表示，识别形状、拓扑或空间分布偏差。
- Teacher-Student 框架：预训练模型（如PointNet）作为教师，指导未训练的学生模型学习正常模式，通过输出差异检测异常。3D-ST通过自监督学习增强局部几何特征。
- 基于重建的方法 (Reconstruction-Based Methods)：重建正常点云数据，重建误差指示异常。如变分自编码器 (Masuda et al.)、IMRNet (点Transformer、GPS模块、掩蔽策略)、R3D-AD (扩散模型、Patch-Gen模拟异常)、Uni-3DAD (GAN重建)、MC3D-AD (自适应几何感知掩蔽注意力)。
- 基于原型的方法 (Prototype-Based Methods)：提取并存储正常数据特征作为原型，通过距离计算异常分数。如BTF (手工FPFH)、Reg3D-AD (原始坐标+PointMAE)、ISMP (伪2D表示)、Group3AD/GLFM (自监督学习优化特征)、Patch3D (区域特定记忆库)、Simple3D (局部描述符)。
- 多视图方法 (Multi-View Approaches)：将点云转换为多视图图像，利用预训练图像编码器提取特征 (CPMF, MVP-PCLIP, PointAD)。
- 基于VLM的方法 (VLM-based Methods)：利用VLM的多模态特征表示能力进行零样本异常检测 (MVP-PCLIP, PointAD, PLANE)。
- 其他：PO3AD (合成异常，回归模型)、区域生长技术 (局部法线、最近邻)。
3.2.3 多模态异常检测 (Multi-modal-based Anomaly Detection)：
- 原理：融合互补模态（点云、RGB图像、深度图）共同捕获几何和外观特征，提高鲁棒性。
- 多模态特征融合 (Multimodal Feature Fusion)：M3DM (最小化对比损失，记忆库，决策级融合)。Shape-guided (Shape Expert提取点云特征，RGB与3D特征对齐)。AST (非对称教师模型知识蒸馏)。EasyNet (合成多模态异常)。HOANG et al. (增强几何特征重建)。UCF (差异引导融合)。异常合成 (3DSR, 3DRÃĘM) 增强训练鲁棒性。
- 跨模态重建 (Crossmodal Reconstruction)：相互重建2D和3D信息 (CMDIAD, CPIR)。
- Teacher-Student 框架：CRD (多分支蒸馏)、LPFSTNet (无参数注意力)、MMRD (反向蒸馏)、3D-ADNAS (多级特征分割)。
- 丰富多模态空间 (Enriching Multi-Modal Spaces)：引入额外模态（2M3DF、3D-MMFN、MulSen-TripleAD）。
- 其他：应对域偏移 (LSFA)、增量检测 (ITNM)、少样本 (CLIP3D-AD)、零样本 (3DzAL, Zheng et al.)、噪声样本 (M3DM-NR)。
局限性：
- 基于参考：依赖高精度配准，对噪声、遮挡、表面变化和非刚性变形敏感；理想参考模型假设在公差和类内变异下难以维持。
- 基于点云：点绝对坐标对传感器敏感；点云稀疏不规则性导致深度学习骨干难以提取有意义特征；点云特定架构表达能力有限。
- 多模态：继承2D异常检测挑战；模态不匹配（分辨率、质量差异）；随着传感器增加，模态对齐难度增大。

4. 未来方向 (Future Directions)

统一缺陷检测框架 (Towards a Unified Defect Detection Framework)：融合封闭集和开放集方法，适应生产环境动态变化，并整合3D缺陷量化，支持多模态。
可控缺陷生成 (Towards Controllable Defect Generation)：解决缺陷样本稀缺问题，生成已知缺陷并合成新型缺陷，由文本描述引导，确保跨模态（2D和3D）一致性。
可配置缺陷检测系统 (Towards Configurable Defect Detection Systems)：实现成像参数（视角、光照、传感器）自动化调整，提高部署效率，降低成本，标准化协议。
大规模真实世界数据集 (Towards Large-Scale Real-World Datasets)：通过产业、政府、学术界合作，或利用生成模型合成数据，克服现有数据集规模和实验室条件限制。
高分辨率缺陷检测 (Towards High-Resolution Defect Detection)：应对检测微小缺陷需求，开发高效架构以处理高分辨率输入同时整合局部和全局上下文。
高语义缺陷检测 (Towards High-Semantic Defect Detection)：超越结构缺陷，通过ViTs、Mamba和MLLMs增强对组装错误等语义缺陷的理解。
增强可解释性 (Towards Enhanced Explainability)：除了检测，还要量化缺陷并追溯其来源，利用MLLMs进行异常推理，融入领域专业知识以提供可操作的见解。