当前位置: 首页 > news >正文

FiLo++的框架图介绍

FiLo++框架图模块详解


在这里插入图片描述

1. 文本生成模块
  • Normal Texts

    • 功能:生成正常样本的文本描述
    • 输入:固定模板(如 A [domain] photo of [state][cls])和可学习模板(如 [v1][v2]...[vm][state][cls])。
    • 输出:融合后的正常文本提示(例如 “A industrial photo of normal metal nut”)。
    • 传递路径:输入到 CLIP Text Encoder,生成正常文本特征((T_n))。
  • Detailed Abnormal Texts

    • 功能:生成细粒度异常描述,包含异常类型和位置信息。
    • 输入:固定模板(如 A [domain] photo of [state][cls] with [anomaly cls] at [pos])和可学习模板(如 [W1][W2]...[W4][state][cls])。
    • 输出:异常文本提示(例如 “A industrial photo of anomalous metal nut with crack at top-right”)。
    • 传递路径:输入到 CLIP Text Encoder,生成异常文本特征((T_a))。

2. 图像处理模块
  • Query Image

    • 功能:待检测的输入图像。
    • 输入:原始图像数据。
    • 输出:图像经过 CLIP Image Encoder 提取多阶段补丁特征((P_1, P_2, P_3, P_4))。
  • Normal Images (Few-shot Only)

    • 功能:少样本场景下的正常参考图像。
    • 输入:少量正常样本图像。
    • 输出:通过 CLIP Image Encoder 提取补丁特征,存入 Memory Bank

3. 文本编码与过滤模块
  • CLIP Text Encoder

    • 功能:将文本提示编码为特征向量。
    • 输入:正常和异常文本提示。
    • 输出:文本特征 (T_n)(正常)和 (T_a)(异常)。
  • Run-time Prompt Filtering

    • 功能:过滤语义重叠的文本特征,提升正常/异常特征区分度。
    • 输入:原始文本特征 (T_n) 和 (T_a)。
    • 输出:过滤后的高区分度特征 (T’_n) 和 (T’_a)。

4. 初步定位模块
  • Grounding DINO
    • 功能:基于文本描述初步定位潜在异常区域。
    • 输入:Query Image 和异常文本描述。
    • 输出:异常区域边界框(Bounding Box),用于后续特征匹配范围约束。

5. 多尺度交互模块
  • Deformable Conv (MDCI)

    • 功能:通过可变形卷积聚合多尺度图像特征,适应不同形状/大小的异常区域。
    • 输入:多阶段补丁特征 (P_1-P_4)。
    • 输出:跨模态对齐后的异常热力图 (M^{vl})。
  • Stage1-Stage4

    • 功能:分层提取图像补丁特征(不同层级的语义信息)。
    • 输入:原始图像。
    • 输出:各阶段的补丁特征 (P_1, P_2, P_3, P_4)(分辨率递减,语义增强)。

6. 特征对齐与融合模块
  • Adapter

    • 功能:调整全局图像特征,增强与文本特征的相似度计算。
    • 输入:CLIP Image Encoder 的全局特征 (G)。
    • 输出:适配后的全局特征 (G’)。
  • Memory Bank (Few-shot Only)

    • 功能:存储少样本正常图像的补丁特征。
    • 输入:正常参考图像的补丁特征。
    • 输出:用于与查询图像的补丁特征进行匹配,生成少样本异常热力图 (M^{few})。

7. 异常分数计算模块
  • Matrix Multiplication

    • 功能:计算图像特征与文本特征的相似度。
    • 输入:适配后的全局特征 (G’) 和过滤后的文本特征 (T’_n, T’_a)。
    • 输出:全局异常分数 (S_{global})(图像级检测结果)。
  • Global Anomaly Score

    • 功能:融合全局分数与局部热力图,生成最终异常分数。
    • 输入:(S_{global}) 和 (M{vl})(跨模态热力图)、(M{few})(少样本热力图)。
    • 输出:图像级和像素级异常检测结果。

核心流程总结

  1. 文本生成:通过固定模板和LLM生成细粒度文本提示。
  2. 特征提取:CLIP编码器分别处理文本和图像,生成多模态特征。
  3. 初步定位:Grounding DINO过滤背景,缩小检测范围。
  4. 多尺度交互:MDCI模块融合多阶段图像特征与文本特征,生成异常热力图。
  5. 少样本融合:Memory Bank存储正常样本特征,通过补丁匹配增强定位精度。
  6. 分数计算:全局与局部特征融合,输出最终检测结果。

创新点

  • 细粒度文本描述(LLM生成异常类型与位置)提升可解释性。
  • 多尺度可变形卷积(MDCI)适应复杂异常形态。
  • 少样本定位增强(Memory Bank + 位置约束)减少误检。

相关文章:

  • Sway初体验
  • SwinTransformer 改进:与PSConv结合的创新设计
  • Go-Spring 全新版本 v1.1.0
  • 代码随想录算法训练营第八天 |【字符串】344.反转字符串、541. 反转字符串II、卡码网:54.替换数字
  • 互联网与无线广播:数字时代与模拟时代的通讯双轨制-优雅草卓伊凡
  • 使用synchronized关键字同步Java线程
  • Vector - VT System - 板卡_VT板卡使用介绍_07
  • BUUCTF Pwn wustctf2020_closed WP
  • Java大师成长计划之第12天:性能调优与GC原理
  • 设计模式每日硬核训练 Day 17:中介者模式(Mediator Pattern)完整讲解与实战应用
  • LeetCode - 91.解码方法
  • 高等数学第三章---微分中值定理与导数的应用(3.3泰勒(Taylor)公式)
  • transfomer网络构建
  • C与指针——输入输出
  • 【学习笔记】深度学习:典型应用
  • LlamaIndex统一管理存储组件的容器--StorageContext
  • ES类的索引轮换
  • 轻量化定时工具!Pt 极简界面 :定时备份 + 循环灵活关机
  • 深度优先搜索(DFS)与广度优先搜索(BFS):图与树遍历的两大利器
  • 分布式系统中的 ActiveMQ:异步解耦与流量削峰(二)
  • 四人自驾游宣恩因酒店爆满无处住宿,求助文旅局后住进局长家
  • 老人误操作免密支付买几百只鸡崽,经济日报:支付要便捷也要安全
  • 9米长林肯车开进安徽“皖南川藏线”致拥堵数小时,车主回应争议称配合调查
  • 准80后遵义市自然资源局局长陈清松任仁怀市委副书记、代市长
  • 德雷克海峡发生7.4级地震,震源深度10千米
  • 5月1日,多位省级党委书记调研旅游市场、假期安全等情况