当前位置: 首页 > news >正文

论文精读:YOLO-UniOW: Efficient Universal Open-World Object Detection

文章目录

  • 前言
  • 1、出发点
  • 2、方法
    • 2.1.符号说明
    • 2.2.Efficient Adaptive Decision Learning
    • 2.3.Open-World Wildcard Learning
  • 3、实验结果
  • 总结


前言

 本文介绍一篇来自Tencent的开放词汇和世界检测结合的论文:Yolo-uniow,开源地址。

1、出发点

 本篇论文相当于开辟了一个新任务,将开放词汇检测世界检测融合到一个任务:在给定一系列text prompt后,除了检测出对应单词的边界框,还要将其余未知的物体检测为"Unknown"。贴一张论文示例图:

在这里插入图片描述
在这里插入图片描述

2、方法

 底下是论文总体结构图,在yolo-world基础上衍生出来的,总体来看结构比较简单,Detector用到的是yolov10,包含两个assign head: one2many和one2one;TextEncoder启用了LoRA微调,然后设计了一个通配符Wildcard Learning策略(其实就是object类别的嵌入向量),来挖掘Unknown物体。下面将逐一介绍。
在这里插入图片描述

2.1.符号说明

在这里插入图片描述

 上述三个标黄的公式其实就是论文要实现功能。其中 c k c_k ck表示已知的文本类别; C u n k C_{unk} Cunk为未知的类别, T w T_w Tw就是通配符wildcard learning;当然,作为开放世界检测模型,需要能够不断从Unknown中迭代出新类别来更新 c k c_k ck,也就是第3个公式中表达意思。

2.2.Efficient Adaptive Decision Learning

 论文创新点之一,但实际上就是 LoRA微调 TextEncoder。

2.3.Open-World Wildcard Learning

 这里主要介绍下通配符学习策略,看模型是如何在train stage筛选Unknown物体的。先说两个子训练stage:

  1. 先训练open-vocabulary-detector,即完成类似yolo-world的训练;
  2. 设置可学习嵌入向量wildcard embedding,代表含义是 object,监督信息是所有box;
  3. 在完成上述训练后,需要将两个部分结合起来,将wildcard embedding发现所有物体的能力迁移到open-vocabulary部分:但结合时候会出现问题,因为通配符检测结果跟open-vocabulary的一部分检测框是重叠的,需要过滤掉。而将未过滤的则是 Unkonwn 物体,将其交给可学习嵌入向量Unkonwn Wildcard。

 而具体筛选策略就是通过底下公式:
在这里插入图片描述
也可以按照下图示例说明:当迭代发现新的类别即CurrentKnown时,跟绿色的GTbox做监督训练。而Well-tuned Wildcard检测出 0.0001和0.2和0.8的虚线框,其中0.001因阈值太低过滤掉,而0.2去分配给Unkonwn Wildcard,而0.8因跟GTbox交并比过大也被过滤掉了
在这里插入图片描述

3、实验结果

在这里插入图片描述
 比yolo-world高。
在这里插入图片描述
 LoRA微调TextEncoder涨点儿明显。

总结

 总体来说结合起来挺有意思,从另一个角度来解决open-world问题。

相关文章:

  • MES管理系统构建智能制造时代下的全面质量管理体系
  • Spring事务失效的全面剖析
  • windows c++ (9) 程序内注册服务并修改登录账户
  • web 自动化之 yaml 数据/日志/截图
  • 关于github使用总结
  • GNU Screen 曝多漏洞:本地提权与终端劫持风险浮现
  • 集合-进阶
  • 生产排产系统正从传统计划工具向智能化、协同化方向演进
  • 安科瑞能量管理系统在徐州某电池厂新能源储能柜的应用
  • TDengine 做为 Spark 数据源
  • spark-local模式
  • Linux513 rsync本地传输 跨设备传输 一
  • openFeign远程调用
  • 中国版Cursor:基于CodeBuddy与EdgeOne Pages的在线键盘测试工具开发方案
  • 【C++】多线程和多进程
  • 【实战】基于 ABP vNext 构建高可用 S7 协议采集平台(西门子 PLC 通信全流程)
  • VR和眼动控制集群机器人的方法
  • Flannel Host-gw模式的优缺点
  • 生成式图像水印研究综述
  • 一键转换上百文件 Word 批量转 PDF 软件批量工具
  • 线下哪些商家支持无理由退货?查询方法公布
  • 事关心脏健康安全,经导管植入式人工心脏瓣膜国家标准发布
  • 男子发寻母视频被警方批评教育,律师:发寻亲信息是正当行为
  • 文学花边|对话《借命而生》原著作者石一枫:我给剧打90分
  • 第12届警博会在即:一批便民利企装备亮相,规模创历史新高
  • 我国7名优秀护理工作者荣获第50届南丁格尔奖