当前位置: 首页 > news >正文

MMAD论文精读

摘要:在工业检测领域,mllms的能力还没被系统性研究。mmad是一个面向工业异常检测的全谱系mllm基准评测框架。我们定义了mllms在工业检测中涉及的七个关键子任务,并设计了一个新颖的数据构建流程,生成了包含 8,366 张工业图像 和 39,672 个问题 的 MMAD 数据集。借助mmad,我们评测了多种mllms,其中gpt-40平均准确率74.9%。但这表现远未满足工业应用实际需求。我们的分析显示,当前mllms在回答与工业异常与缺陷相关的问题仍有较大提升空间。我们进一步探索了两种无需训练的性能增强策略,以帮助模型在工业场景下提升表现,显示出未来研究的巨大潜力。

引言:以往用于工业异常检测的自动视觉检测ai研究,通常依赖于传统的判别式深度学习模型。这类模型只能完成特定的训练检测任务,无法像质检员一样提供详细的检测报告,此外,一旦产线变更或需求调整,传统方法往往需要重新训练或开发,代价高。mllms为改变现状提供了可能,

核心问题:当前mllms在扮演工业质检员方面表现如何?

mmad涵盖7个关键子任务和38类典型工业对象。实验结果说明模型在物体相关的问题上表现良好,但在处理缺陷相关问题时表现不佳。近期有一些研究开始探索这一问题:通过指令微调机制,有研究利用mllm评估iad案例,但这些工作大多只在少量定型示例上测试,缺乏定量评估结果。另一些研究专门训练mllms去理解传统iad模型的输出,但采用的是传统模型输出评价标准,并不反映mllms本身的能力。同时它们使用的数据和输出格式也不统一,难以与通用模型公平对比。因此我们提出了第一个专门用于iad的mllm定量评测基准mmad,当前公开iad数据集仅包含视觉标注和类别标签,缺乏丰富语义注释,难以直接用于mllm评估。为此我们设计了一个完整流程:

  • 1. 使用 GPT-4V 根据已有图像标注与人机对话生成丰富的语义注释

  • 2. 基于这些语义注释,生成问答对与选项,并由人工审核确保其准确性;

  • 3. 最终我们从 4 个公开数据集中收集了 38 类工业产品的 8,366 个样本,生成了 39,672 道多选题,涵盖 7 大子任务(如图 1 左所示)。

考虑到现有模型在处理异常和缺陷方面的不足,我们探索了两种无需训练的性能增强方法:

  • RAG(检索增强生成):通过文本扩展增强输入;

  • 专家代理(Expert Agent):通过视觉提示增强模型。

这些方法在一定程度上提升了性能,但仍受限于模型的基础能力。总体结论:当前的 MLLMs 仍无法胜任质检员的工作。它们还需进一步增强对 IAD 知识的理解能力,特别是跨图对比与细节分析的能力。

MMAD数据集

数据收集:我们设计的benchmark旨在覆盖多种IAD场景,我们从四个具有不同侧重点的IAD数据集进行采集和抽样,涵盖38个产品类别和244种缺陷类型。

问题定义:四个与异常相关的子任务和两个与物体相关的子任务:异常判别 缺陷分类 缺陷定位 缺陷描述 缺陷分析 物体分类 物体分析

数据生成:由于现有的开源IAD数据集缺乏语义标注,我们无法直接用于mllm评估,为此我们设计了一条新的流水线来为每张IAD图像生成评估问题。该流程利用了gpt-4v的文本生成能力,结合规则程序、语言提示和人工筛选来确保生成内容的可靠性。在原图上用红色高亮显示真值掩码,让模型明确缺陷位置。检索最近的正常图像作为对比模板,使用结构相似性分数和Bhattacharyya距离的颜色直方图相似性度量。语言提示包括物体及缺陷类别标签和图像中缺陷位置的文字描述(采用九宫格描述)通过多种先验知识的组合,避免生成的描述仅仅是简单的照搬输入信息。

RAG:检索增强生成是一种结合了信息检索与文本生成的方法。用于提升语言模型的性能,尤其适用于需要外部知识的任务。本文提出了一个专门针对IAD任务的RAG方法,专家在大模型的辅助下,首先对现有的IAD数据集进行总结。对于每一个类别,他们总结了正常样本的特征,以及每种可能的异常的特征。把所有数据集中总结出来的领域知识,整合成一个可检索的数据库。在测试阶段,通过输入的查询图像去检索与该类别相关的知识,然后讲这些知识整合到文本提示(prompt)中。

------先写这些吧-------


文章转载自:

http://6yWU6DxS.xrxzm.cn
http://SzT6LlXZ.xrxzm.cn
http://A3KkDzMg.xrxzm.cn
http://Ghl9ihVU.xrxzm.cn
http://uefdzxWd.xrxzm.cn
http://AFrtUV7c.xrxzm.cn
http://6GJ8wluT.xrxzm.cn
http://A6zRRRPY.xrxzm.cn
http://npRzU8vZ.xrxzm.cn
http://bLGWf1Wp.xrxzm.cn
http://7DIi0jnB.xrxzm.cn
http://xfidKxww.xrxzm.cn
http://toO6Eqk1.xrxzm.cn
http://VH5KLKuK.xrxzm.cn
http://rVJDycQH.xrxzm.cn
http://nINZGjZj.xrxzm.cn
http://kDXjU4A3.xrxzm.cn
http://dYld0FCH.xrxzm.cn
http://ccehTSft.xrxzm.cn
http://eEODtvnf.xrxzm.cn
http://IoBwKBRL.xrxzm.cn
http://O3QtTm0r.xrxzm.cn
http://OOJp4iEc.xrxzm.cn
http://clf19WAg.xrxzm.cn
http://3bQSlHHq.xrxzm.cn
http://ARkEOH32.xrxzm.cn
http://hB880poV.xrxzm.cn
http://DOLNma3v.xrxzm.cn
http://0Wsa9R1U.xrxzm.cn
http://jBhXqu6H.xrxzm.cn
http://www.dtcms.com/a/229493.html

相关文章:

  • 【FAQ】HarmonyOS SDK 闭源开放能力 —Account Kit(5)
  • spring boot应答500问题跟踪
  • Docker基础命令
  • 图片组件|纯血鸿蒙组件库AUI
  • 小白的进阶之路系列之十一----人工智能从初步到精通pytorch综合运用的讲解第四部分
  • JS对数据类型的检测
  • 前端开发处理‘流式数据’与‘非流式数据’,在接收完整与非完整性数据时应该如何渲染和使用
  • 从零开始构建文本统计模型:字符级与多字符片段频率分析实践
  • java30
  • HCIP(BGP综合实验)
  • linux批量创建文件
  • RHEL7安装教程
  • 【QT】自定义QWidget标题栏,可拖拽(拖拽时窗体变为normal大小),可最小/大化、关闭(图文详情)
  • Spring AI之RAG入门
  • SpringBoot3.2新特性:JdbcClient
  • 模块化交互数字人系统:OpenAvatarChat,单台PC即可运行完整功能
  • 【Redis】大key对持久化的影响
  • 定时器时钟来源可以从输入捕获引脚输入
  • Unity ARPG战斗系统 _ RootMotion相关知识点
  • GPTBots在AI大语言模型应用中敏感数据匿名化探索和实践
  • 基于InternLM的情感调节大师FunGPT
  • agent mode 代理模式,整体要求,系统要求, 系统指令
  • 2025年微信小程序开发:AR/VR与电商的最新案例
  • [Python] struct.unpack() 用法详解
  • 深入理解前端DOM:现代Web开发的基石
  • Tauri(2.5.1)+Leptos(0.7.8)开发桌面应用--简单的工作进度管理
  • 法律大语言模型(Legal LLM)技术架构
  • React 项目初始化与搭建指南
  • istringstream
  • RTOS,其基本属性、语法、操作、api