MMAD论文精读
摘要:在工业检测领域,mllms的能力还没被系统性研究。mmad是一个面向工业异常检测的全谱系mllm基准评测框架。我们定义了mllms在工业检测中涉及的七个关键子任务,并设计了一个新颖的数据构建流程,生成了包含 8,366 张工业图像 和 39,672 个问题 的 MMAD 数据集。借助mmad,我们评测了多种mllms,其中gpt-40平均准确率74.9%。但这表现远未满足工业应用实际需求。我们的分析显示,当前mllms在回答与工业异常与缺陷相关的问题仍有较大提升空间。我们进一步探索了两种无需训练的性能增强策略,以帮助模型在工业场景下提升表现,显示出未来研究的巨大潜力。
引言:以往用于工业异常检测的自动视觉检测ai研究,通常依赖于传统的判别式深度学习模型。这类模型只能完成特定的训练检测任务,无法像质检员一样提供详细的检测报告,此外,一旦产线变更或需求调整,传统方法往往需要重新训练或开发,代价高。mllms为改变现状提供了可能,
核心问题:当前mllms在扮演工业质检员方面表现如何?
mmad涵盖7个关键子任务和38类典型工业对象。实验结果说明模型在物体相关的问题上表现良好,但在处理缺陷相关问题时表现不佳。近期有一些研究开始探索这一问题:通过指令微调机制,有研究利用mllm评估iad案例,但这些工作大多只在少量定型示例上测试,缺乏定量评估结果。另一些研究专门训练mllms去理解传统iad模型的输出,但采用的是传统模型输出评价标准,并不反映mllms本身的能力。同时它们使用的数据和输出格式也不统一,难以与通用模型公平对比。因此我们提出了第一个专门用于iad的mllm定量评测基准mmad,当前公开iad数据集仅包含视觉标注和类别标签,缺乏丰富语义注释,难以直接用于mllm评估。为此我们设计了一个完整流程:
-
1. 使用 GPT-4V 根据已有图像标注与人机对话生成丰富的语义注释;
-
2. 基于这些语义注释,生成问答对与选项,并由人工审核确保其准确性;
-
3. 最终我们从 4 个公开数据集中收集了 38 类工业产品的 8,366 个样本,生成了 39,672 道多选题,涵盖 7 大子任务(如图 1 左所示)。
考虑到现有模型在处理异常和缺陷方面的不足,我们探索了两种无需训练的性能增强方法:
-
RAG(检索增强生成):通过文本扩展增强输入;
-
专家代理(Expert Agent):通过视觉提示增强模型。
这些方法在一定程度上提升了性能,但仍受限于模型的基础能力。总体结论:当前的 MLLMs 仍无法胜任质检员的工作。它们还需进一步增强对 IAD 知识的理解能力,特别是跨图对比与细节分析的能力。
MMAD数据集
数据收集:我们设计的benchmark旨在覆盖多种IAD场景,我们从四个具有不同侧重点的IAD数据集进行采集和抽样,涵盖38个产品类别和244种缺陷类型。
问题定义:四个与异常相关的子任务和两个与物体相关的子任务:异常判别 缺陷分类 缺陷定位 缺陷描述 缺陷分析 物体分类 物体分析
数据生成:由于现有的开源IAD数据集缺乏语义标注,我们无法直接用于mllm评估,为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。该流程利用了gpt-4v的文本生成能力,结合规则程序、语言提示和人工筛选来确保生成内容的可靠性。在原图上用红色高亮显示真值掩码,让模型明确缺陷位置。检索最近的正常图像作为对比模板,使用结构相似性分数和Bhattacharyya距离的颜色直方图相似性度量。语言提示包括物体及缺陷类别标签和图像中缺陷位置的文字描述(采用九宫格描述)通过多种先验知识的组合,避免生成的描述仅仅是简单的照搬输入信息。
RAG:检索增强生成是一种结合了信息检索与文本生成的方法。用于提升语言模型的性能,尤其适用于需要外部知识的任务。本文提出了一个专门针对IAD任务的RAG方法,专家在大模型的辅助下,首先对现有的IAD数据集进行总结。对于每一个类别,他们总结了正常样本的特征,以及每种可能的异常的特征。把所有数据集中总结出来的领域知识,整合成一个可检索的数据库。在测试阶段,通过输入的查询图像去检索与该类别相关的知识,然后讲这些知识整合到文本提示(prompt)中。
------先写这些吧-------