NeurIPS 2024 | 工业质检缺陷检测相关论文梳理
文章目录
- 生成
- 缺陷生成
- 图像生成
- 异常检测 Anomaly Detection
- 分割
- 目标检测
- 注:什么是In-context Segmentation?
生成
缺陷生成
没找到专门针对缺陷生成的论文,可以参考以下图像生成领域论文
图像生成
通用的整幅图像生成,难以直接用于工业缺陷生成,但其在生成中的改进思路可以作为参考
-
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction - best paper
- Code:https://github.com/FoundationVision/VAR
- 我们提出视觉自回归建模(VAR),这是一种全新的生成范式,将图像自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于传统光栅扫描式的"下一token预测"。这种简单直观的方法论使自回归(AR)Transformer能够快速学习视觉分布并具备良好泛化能力:VAR首次让GPT式自回归模型在图像生成任务上超越扩散Transformer。在ImageNet 256×256基准测试中,VAR显著提升了自回归基线性能,将Fréchet初始距离(FID)从18.65降至1.73,初始分数(IS)从80.4提升至350.2,同时推理速度提升20倍。实验验证表明,VAR在图像质量、推理速度、数据效率和可扩展性等多个维度上均优于扩散Transformer(DiT)。VAR模型的规模扩展呈现出与大型语言模型(LLM)类似的清晰幂律缩放规律,线性相关系数接近−0.998,为这一特性提供了有力证据。VAR还在图像修复、外延生成和编辑等下游任务中展现出零样本泛化能力。这些结果表明VAR已初步具备大型语言模型的两大核心特性:缩放规律和零样本泛化能力。我们已发布所有模型和代码,以推动针对视觉生成和统一学习的AR/VAR模型研究。
-
Guiding a Diffusion Model with a Bad Version of Itself - Best Paper Runner-up
- 图像生成扩散模型关注的主要维度包括图像质量、结果的多样性程度,以及结果与给定条件(如类别标签或文本提示)的对齐程度。流行的无分类器引导方法通过使用无条件模型来引导条件模型,在提升提示对齐效果和图像质量的同时,会以减少多样性为代价。这些效果似乎本质上相互纠缠,因此难以独立控制。我们有一个惊人的发现:通过使用模型本身更小、训练更少的版本而非无条件模型来引导生成过程,能够在不影响多样性的前提下实现对图像质量的解耦控制。这一方法显著提升了ImageNet上的生成效果,利用公开可用的网络,在64×64分辨率下实现了1.01的FID分数、512×512分辨率下实现了1.25的FID分数,创下新纪录。此外,该方法也适用于无条件扩散模型,能大幅提升其生成质量。
- GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing 基于MLLM协调多个工具实现复杂任务的拆解实现
- Code:https://zhenyuw16.github.io/GenArtist_page/
- 尽管现有图像生成和编辑方法取得了一定成功,但当前模型在处理复杂问题时仍面临困难,包括复杂的文本提示,且缺乏验证和自我修正机制使得生成的图像不可靠。同时,单一模型往往专注于特定任务并具备相应能力,不足以满足所有用户需求。我们提出GenArtist,这是一个统一的图像生成和编辑系统,由一个多模态大语言模型(MLLM)智能体进行协调。我们将一系列现有模型整合到工具库中,并利用该智能体进行工具选择和执行。对于复杂问题,MLLM智能体将其分解为更简单的子问题,并构建树形结构,通过逐步验证系统地规划生成、编辑和自我修正的流程。通过自动生成缺失的位置相关输入并纳入位置信息,能够有效利用合适的工具解决每个子问题。实验表明,GenArtist可以执行各种生成和编辑任务,达到了当前最优性能,并超越了现有模型,如SDXL和DALL-E 3,如图1所示。我们将开源代码,以支持未来的研究和应用。
异常检测 Anomaly Detection
-
AR-Pro: Counterfactual Explanations for Anomaly Repair with Formal Properties
- Code:https://github.com/xjiae/arpro
- 异常检测在识别关键错误和可疑行为中应用广泛,但现有方法缺乏可解释性。我们利用现有方法的共同特性和生成模型的最新进展,为异常检测引入反事实解释。给定一个输入,我们通过基于扩散的修复生成其反事实样本,展示非异常版本应有的特征。该方法的一个关键优势在于,它支持与领域无关的可解释性需求的形式化规范,为生成和评估解释提供了统一框架。我们在视觉(MVTec、VisA)和时间序列(SWaT、WADI、HAI)异常数据集上验证了异常可解释框架AR-Pro的有效性。
-
⭐️MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
- Code:https://github.com/gaobb/MetaUAS
- 零镜头和少镜头视觉异常分割依赖于强大的视觉语言模型,该模型使用手动设计的文本提示检测看不见的异常。然而,视觉表示本质上独立于语言。在本文中,我们探索了纯视觉基础模型作为通用视觉异常分割的广泛使用的视觉语言模型的替代方案的潜力。我们提出了一种将异常分割统一到变化分割的新范式。这种范式使我们能够利用来自现有图像数据集的大规模合成图像对,具有对象级和局部区域变化的特征,这些图像对独立于目标异常数据集。我们提出了一个通用异常分割(MetaUAS)的单提示元学习框架,该框架在这个合成数据集上进行训练,然后很好地推广到分割现实世界中任何新的或看不见的视觉异常。为了处理提示和查询图像之间的几何变化,我们提出了一个软特征对齐模块,该模块将成对图像变化感知和单图像语义分割联系起来。这是第一个使用纯视觉模型实现通用异常分割的工作,而不依赖于特殊的异常检测数据集和预训练的视觉语言模型。我们的方法只需一个正常的图像提示即可有效高效地分割任何异常,并且在没有语言指导的情况下享受免训练。我们的MetaUAS显着优于以前的零镜头、少镜头甚至全镜头异常分割方法。
-
⭐️MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection 多类别无监督异常检测 (浙大、腾讯优图)
- Code:https://lewandofskee.github.io/projects/MambaAD/
- 近年来,异常检测领域取得了一些进展,基于卷积神经网络(CNN)和 Transformer 的方法展现出了有效性。然而,CNN 在处理长距离依赖关系时存在困难,而 Transformer 则面临二次计算复杂度的负担。基于 Mamba 的模型凭借其卓越的长距离建模能力和线性计算效率,受到了广泛关注。本研究首次将 Mamba 应用于多类别无监督异常检测,提出了 MambaAD,它由一个预训练编码器和一个具有多尺度局部增强状态空间(LSS)模块的 Mamba 解码器组成。所提出的 LSS 模块集成了并行级联的(混合状态空间)HSS 模块和多核卷积操作,能够有效地捕捉长距离和局部信息。HSS 模块利用(混合扫描)HS 编码器,将特征图编码为五种扫描方法和八个方向,从而通过(状态空间模型)SSM 加强全局连接。希尔伯特扫描和八个方向的使用显著提升了特征序列建模能力。在六个不同的异常检测数据集和七个指标上进行的综合实验证明了该方法达到了当前最优(SoTA)性能,证实了其有效性。
-
ResAD: A Simple Framework for Class Generalizable Anomaly Detection
- Code:https://github.com/xcyao00/ResAD
- 本文探讨了类通用异常检测问题,其目标是训练一个统一的异常检测(AD)模型,该模型能够在无需对目标数据进行任何重新训练或微调的情况下,推广到检测来自不同领域的各种类别的异常。由于不同类别的正常特征表示差异很大,这将导致广泛研究的一对一AD模型在类通用性方面表现不佳(即用于新类别时性能急剧下降)。在这项工作中,我们提出了一个简单而有效的框架(称为ResAD),该框架可以直接应用于检测新类别的异常。我们的主要思路是学习残差特征分布,而不是初始特征分布。通过这种方式,我们可以显著减少特征变化。即使在新类别中,正常残差特征的分布也不会与所学分布有显著偏差。因此,所学模型可以直接应用于新类别。ResAD由三个组件组成:(1)特征转换器,将初始特征转换为残差特征;(2)一个简单且浅层的特征约束器,将正常残差特征约束到一个空间超球体内,以进一步减少特征变化并保持不同类别之间特征尺度的一致性;(3)特征分布估计器,估计正常残差特征分布,异常可以被识别为分布外的数据。尽管ResAD很简单,但当直接用于新类别时,它可以取得显著的异常检测结果。
-
One-to-Normal: Anomaly Personalization for Few-shot Anomaly Detection
- 传统异常检测(AD)方法主要依赖于从大量正常数据中进行无监督学习。随着大型预训练视觉语言模型的出现,近期的异常检测方法得以发展,提升了小样本异常检测能力。然而,这些最新的异常检测方法在精度提升方面仍存在局限。一个影响因素是它们直接将查询图像的特征与小样本正常图像的特征进行对比,这种直接对比往往导致精度损失,并使得这些技术向更复杂领域的扩展变得困难 —— 这一领域尚未以更精细和全面的方式得到充分探索。为解决这些局限,我们引入了异常个性化方法,该方法利用无异常定制生成模型对查询图像进行个性化的 “单样本到正常” 转换,确保其与正常流形紧密对齐。此外,为进一步提升预测结果的稳定性和鲁棒性,我们提出了一种三元组对比异常推理策略,该策略结合了查询数据与生成的无异常数据池以及提示信息之间的全面对比。在三个领域的十一个数据集上的广泛评估表明,我们的模型相较于最新的异常检测方法具有有效性。此外,我们的方法已被证明能够灵活迁移到其他异常检测方法中,生成的图像数据可有效提升其他方法的性能。
-
CableInspect-AD: An Expert-Annotated Anomaly Detection Dataset 电缆异常数据集
- Data:https://drive.google.com/file/d/126i30i7dRkcf4E5k7x8yysay3Snv6NXv/view
- Code:https://github.com/mila-iqia/cableinspect-ad-code
分割
- DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut zero-shot语义分割
- Code:https://diffcut-segmentation.github.io/
- 基础模型已成为跨语言、视觉和多模态任务等各个领域的强大工具。虽然先前的研究已经涉及无监督语义分割,但它们与有监督模型相比仍有显著差距。在本文中,我们使用扩散UNet编码器作为基础视觉编码器,并引入DiffCut,这是一种无监督零样本分割方法,该方法仅利用最终自注意力模块的输出特征。通过大量实验,我们证明在基于图的分割算法中使用这些扩散特征,在零样本分割方面显著优于先前的最先进方法。具体来说,我们利用递归归一化割算法来调整检测到的物体的粒度,并生成定义明确的分割图,精确捕捉复杂的图像细节。我们的研究凸显了扩散UNet编码器中嵌入的极为准确的语义知识,这些知识可作为下游任务的基础视觉编码器。
- A Simple Image Segmentation Framework via In-Context Examples
- Code:https://github.com/aim-uofa/SINE
- 最近,已有研究探索了通用分割模型,这些模型能够在统一的上下文学习框架内有效处理各种图像分割任务。然而,这些方法在上下文分割中的任务歧义问题上仍存在困难,因为并非所有上下文示例都能准确传达任务信息。为解决这一问题,我们提出了SINE,一种利用上下文示例的简单图像分割框架。我们的方法采用Transformer编解码器结构,其中编码器提供高质量的图像表示,解码器旨在生成多个特定任务的输出掩码以有效消除任务歧义。具体而言,我们引入了上下文交互模块来补充上下文信息并生成目标图像与上下文示例之间的关联关系,并设计了匹配Transformer,其利用固定匹配和匈牙利算法消除不同任务间的差异。此外,我们进一步完善了当前上下文图像分割的评估体系,旨在推动对这些模型的全面评估。在多种分割任务上的实验验证了所提方法的有效性。
- A Surprisingly Simple Approach to Generalized Few-Shot Semantic Segmentation 广义few-shot语义分割
- Code:https://github.com/IBM/BCM
- 广义小样本语义分割(GFSS)的目标是通过利用少量带注释的示例以及学习了基类知识的基类模型进行训练,来识别新类物体。与经典小样本语义分割不同,GFSS旨在将像素分类为基类和新类,这意味着它是一种更实际的场景。当前的GFSS方法依赖于多种技术,例如定制模块的组合、精心设计的损失函数、元学习和归纳学习。然而,我们发现简单规则和标准监督学习可显著提升GFSS性能。在本文中,我们提出了一种无需使用上述技术的简单而有效的GFSS方法。我们还从理论上证明,该方法在大多数基类上完美保持了基类模型的分割性能。通过数值实验,我们验证了方法的有效性:在PASCAL-5ⁱ数据集上,单样本场景下新类分割性能提升了6.1%;在PASCAL-101数据集上提升了4.7%;在COCO-202数据集上提升了1.0%。我们的代码已在https://github.com/IBM/BCM公开。
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation few-shot语义分割
- Code:https://github.com/aim-uofa/DiffewS
- 扩散模型不仅在图像生成领域取得了显著成就,还展现出作为一种利用无标签数据的有效预训练方法的潜力。鉴于扩散模型在语义对应和开放词汇分割方面所揭示的巨大潜力,我们的工作着手研究如何将潜在扩散模型应用于少样本语义分割。最近,受大语言模型上下文学习能力的启发,少样本语义分割已演变为上下文分割任务,成为评估通用分割模型的关键要素。在此背景下,我们专注于少样本语义分割,为基于扩散的通用分割模型的未来发展奠定坚实基础。我们首先关注如何促进查询图像与支持图像之间的交互,进而在自注意力框架内提出了一种键值融合方法。随后,我们进一步深入研究如何优化支持掩码信息的注入,并同时重新评估如何从查询掩码提供合理的监督。基于我们的分析,我们建立了一个简单有效的框架,名为DiffewS,它最大限度地保留了原始潜在扩散模型的生成框架,并有效利用了预训练先验。实验结果表明,我们的方法在多种设置下显著优于先前的最优模型。
- Hybrid Mamba for Few-Shot Segmentation few-shot分割
- Code:https://github.com/Sam1224/HMNet
- 许多少样本分割(FSS)方法采用交叉注意力将支持集前景(FG)融合到查询特征中,尽管其复杂度为二次方级别。近期提出的Mamba模型能够有效捕捉序列内依赖关系,且复杂度仅为线性。因此,我们旨在设计一种类似注意力的交叉Mamba机制,以捕捉FSS任务中的序列间依赖关系。一个简单的思路是对支持集特征进行扫描,有选择地将其压缩到隐藏状态中,然后将该隐藏状态作为初始状态依次扫描查询特征。然而,这种方法存在两个问题:(1)支持信息遗忘问题:在扫描查询特征时,查询特征也会逐渐被压缩,导致隐藏状态中的支持集特征不断减少,许多查询像素无法融合足够的支持特征;(2)类内差异问题:查询前景本质上与自身的相似性高于与支持集前景的相似性,即查询特征可能更倾向于融合隐藏状态中的自身特征而非支持集特征,而FSS的成功依赖于对支持信息的有效利用。为解决这些问题,我们设计了一种混合Mamba网络(HMNet),包括:(1)支持集重注入Mamba模块,在扫描查询特征时周期性地重注入支持集特征,使隐藏状态始终包含丰富的支持信息;(2)查询截断Mamba模块,禁止查询像素之间的交互,促使其从隐藏状态中融合更多支持特征。实验结果表明,该方法能够更好地利用支持信息,提升分割性能。我们在两个公开基准数据集上进行了广泛实验,验证了HMNet的优越性。
- Lightweight Frequency Masker for Cross-Domain Few-Shot Semantic Segmentation 跨域few-shot分割
- Code:https://github.com/TungChintao/APM
- **跨域少样本分割(CD-FSS)旨在先在大规模源域数据集上对模型进行预训练,然后将模型迁移到数据稀缺的目标域数据集上进行像素级分割。**源域和目标域数据集之间显著的域差距,导致现有少样本分割(FSS)方法在跨域场景下性能急剧下降。在这项工作中,我们发现了一个有趣的现象:简单地对目标域过滤不同的频率成分,就能显著提升性能,有时平均交并比(mIoU)甚至能提升高达14%。随后,我们深入探究这一现象并进行解释,发现这种性能提升源于特征图中通道间相关性的降低,这使得CD-FSS对域差距具有更强的鲁棒性,并且为分割提供了更大的激活区域。基于此,我们提出了一种轻量级频率掩码器,它通过幅度-相位掩码器(APM)模块和自适应通道相位注意力(ACPA)模块进一步降低通道间相关性。值得注意的是,APM仅引入0.01%的额外参数,但平均性能提升超过10%,而ACPA仅引入2.5%的参数,但性能进一步提升超过1.5%,显著超越了当前最先进的CD-FSS方法。
- AUCSeg: AUC-oriented Pixel-level Long-tail Semantic Segmentation 长尾分布优化
- Code:https://github.com/boyuh/AUCSeg
- AUC是评估实例级长尾学习问题的经典指标。在过去二十年中,诸多AUC优化方法被提出以提升模型在长尾分布下的性能。本文将AUC优化方法拓展至像素级长尾语义分割任务——一个更为复杂的场景。该任务为AUC优化技术带来两大挑战:一方面,像素级任务中的AUC优化涉及损失项间的复杂耦合,包含图像内结构化依赖和图像间成对依赖,这使得理论分析难度加剧;另一方面,我们发现此场景下AUC损失的小批量估计需要更大的批量尺寸,导致难以承受的空间复杂度。针对上述问题,我们提出了像素级AUC损失函数,并通过基于依赖图的理论分析探究算法的泛化能力。此外,设计了尾部类别记忆库(T-Memory Bank)以应对严峻的内存需求。最终,在多个基准数据集上的全面实验验证了所提AUCSeg方法的有效性。
目标检测
- Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection 增量视觉语言目标检测
- Code:https://github.com/JarintotionDin/ZiRaGroundingDINO
- 本文提出了增量视觉语言目标检测(IVLOD)这一全新学习任务,旨在通过增量方式使预训练的视觉语言目标检测模型(VLODMs)适配各种专门领域,同时保留其对通用领域的零样本泛化能力。为应对这一挑战,我们设计了零干扰可重参数化适应方法(ZiRa),该方法引入零干扰损失和重参数化技术,在不显著增加内存消耗的前提下解决IVLOD任务。在COCO和ODinW-13数据集上的全面实验表明,ZiRa能够有效保护VLODMs的零样本泛化能力,同时持续适应新任务。具体而言,在ODinW-13数据集上训练后,ZiRa性能优于CL-DETR和iDETR,零样本泛化能力分别大幅提升13.91和8.74个平均精度(AP)。
注:什么是In-context Segmentation?
新出现的上下文分割(In-context Segmentation)成为少样本分割(Few-shot Semantic Segmentation)的重点研究方向,这里解释下什么是上下文分割:
- 上下文分割要求模型在给定少量支持样本(如 1 个或多个带有标注的支持图像)的情况下,能够直接对查询图像进行语义分割,无需额外的训练或微调。其核心是模型具备 “上下文学习能力”,即通过输入的示例(上下文)快速理解目标类别,并将其泛化到新图像中。
- 上下文分割是少样本语义分割的进化形态。传统少样本分割(如 1-shot、5-shot 分割)关注在少量标注样本下训练模型,而上下文分割进一步要求模型在推理阶段仅通过输入的上下文示例(即支持样本)完成分割,无需额外训练步骤。两者的共同目标是解决 “少量样本下的语义分割”,但上下文分割更强调模型的即插即用能力和通用化泛化。