当前位置: 首页 > news >正文

Vision-Language Dual-Pattern Matching for Out-of-Distribution Detection

1. 动机:

  仍然是利用CLIP来做OOD的检测,但是之前的基于CLIP的方法之利用了单模态的特征,比如MCM(上一篇阅读的论文的方法)利用的就是输入图像和ID的类别的文本特征做相似度计算,然后设置阈值来决定是ID/OOD。这篇工作则是处理利用CLIP的文本编码器,还额外的利用视觉编码器的信息来帮助OOD的检测,从视觉和文本两个双向的角度来实现OOD的检测,提出的方法称为DPM(Dual-Pattern Matching)。DPM存储了ID的每个类别的文本特征,以及融合的ID视觉信息分别作为文本模式和视觉模式。

2. 介绍:

  实际上这个的工作原理包括之前的CLIP的OOD检测的方法都可以简单称为“存储和比较”的过程,存储指的就是将ID的信息保存成某种模式,然后比较就是将输入的样本去和这些存储的信息做对比然后决定是ID/OOD。所以关键点就在于如何计算和存储ID的模式。

  之前的这类的CLIP实现OOD检测的方法只利用了图像和ID文本特征之间的相似度关系,但是忽略了ID图像的视觉特征。本工作发现实际上下游的各种ID数据集的特征空间很狭窄,从而不同的ID类之间的距离很小,使得ID和OOD的分离性很差,为此本工作提出了一种不需要训练的特征增强模块来增强ID类之间的特征的分离性。直接将ID类通过template得到文本经过文本编码器得到的text pattern,然后通过计算ID的图像和文本之间的相似度计算ID的image pa

http://www.dtcms.com/a/152885.html

相关文章:

  • 【国产化之路】VPX-3U :基于D2000 /FT2000的硬件架构到操作系统兼容
  • 鸿蒙-状态管理V1和V2在ForEach循环渲染的表现
  • Linux命令-perf
  • 企业为何要求禁用缺省口令?安全风险及应对措施分析
  • 论文笔记(七十九)STOMP: Stochastic Trajectory Optimization for Motion Planning
  • 如何创建极狐GitLab 议题?
  • 论文阅读笔记——π0.5: a Vision-Language-Action Model with Open-World Generalization
  • SpringBoot 封装统一API返回格式对象 标准化开发 请求封装 统一格式处理
  • 【Yolo精读+实践+魔改系列】Yolov1论文超详细精讲(翻译+笔记)
  • 字典与集合——测试界的黑话宝典与BUG追捕术
  • 系统思考:技术与产品协同
  • SLAM常用地图对比示例
  • nextjs国际化
  • Vue3 + TypeScript,使用provide提供只读的响应式数据的详细分析与解决方法
  • #define STEUER_A_H {PWM_A_ON}
  • C#中用 OxyPlot 在 WinForms 实现波形图可视化(附源码教程)
  • 深度理解spring——BeanFactory的实现
  • 通付盾入选苏州市网络和数据安全免费体验目录,引领企业安全能力跃升
  • ubuntu20.04(ROS noetic版)安装cartographer
  • leetcode28. 找出字符串中第一个匹配项的下标_简单KMP
  • 基于Django的权限管理平台
  • Pgvector+R2R搭建RAG知识库
  • 问道数码兽 怀旧剧情回合手游源码搭建教程(反查重优化版)
  • 前缀和-724.寻找数组的中心下标-力扣(LeetCode)
  • OpenAI图像生成gpt-image-1登场,开启创意新可能
  • GPT-4o最新图像生成完全指南:10大应用场景与提示词模板
  • 【Vue】TypeScript与Vue3集成
  • Java学习手册:JSON 数据格式基础知识
  • 1Panel+Halo快速部署:简化服务器管理与网站搭建流程探索
  • 并发设计模式实战系列(6):读写锁