当前位置: 首页 > news >正文

OV-DINO:基于语言感知选择性融合的统一开放词汇检测

一、研究背景与挑战

开放词汇检测(OVD) 旨在通过类别名称检测任意物体(包括训练中未见的类别)。传统方法(如GLIP、G-DINO)采用两阶段范式:

  1. 预训练:在大规模检测/定位数据上训练模型
  2. 伪标注:为图像-文本数据生成伪标签
    核心挑战
  • 数据噪声:有限类别预训练模型生成的伪标签存在噪声(图1a红圈示例)
  • 模态对齐:物体特征与类别描述的跨模态融合效率低(图2对比G-DINO融合缺陷)
二、OV-DINO框架创新
1. 统一数据集成(UniDI)
  • 方法:将三类数据统一为检测中心格式
    • 检测数据:直接使用边界框+类别名
    • 定位数据:将定位短语视为类别
    • 图像-文本数据:创新性转换为检测格式
      • 标题文本 ⇒ 唯一类别名
      • 全图边界框 ⇒ 图像级标注框
  • 优势
    • 消除伪标签生成需求
    • 支持端到端训练
    • 扩展词汇覆盖(如CC1M数据集引入百万级新概念)
2. 语言感知选择性融合(LASF)
  • 模块构成
    • 查询选择(LAQS):计算图像/文本嵌入相似度,选择Top-K相关对象嵌入(公式1)
    • 查询融合(LAQF):动态融合对象嵌入与内容查询(公式2)
  • 技术演进:对比G-DINO的跨模态融合(图2d),LASF通过:
    • 门控交叉注意力(Tanh(a)*Attn
    • 门控前馈网络(Tanh(b)*FFW
    • 实现精准区域-文本对齐(图2案例:网球拍检测准确率93% vs 55%)
3. 检测中心预训练
  • 训练流程
    • 文本提示统一化:检测/定位数据添加模板(e.g. “a photo of {类别}”)
    • 多尺度特征提取:4尺度(8x-64x)图像嵌入
    • 损失函数:分类对齐损失(Sigmoid Focal)+回归损失(L1+GIoU)+去噪损失
  • 效率优势:24训练周期达SOTA(G-DINO需50周期)
三、实验结果
1. 零样本检测性能
基准测试OV-DINO (AP)对比SOTA提升
COCO50.6%+2.5% (vs G-DINO)
LVIS40.1%+12.7% (vs G-DINO)
2. 微调性能
  • COCO微调后达58.4% AP,超越同骨干网络的所有方法
3. 消融实验关键结论
  • UniDI贡献:单独使用提升AP 1.4%(表VI)
  • LASF最优结构:Later-LASF效果最佳(表VII)
  • 数据过滤必要性:Top相似度CC1M数据比随机采样高1.2% AP(表IX)
四、创新价值与局限
  • 突破性贡献
    • 首个端到端统一OVD框架
    • 语言感知融合机制解决跨模态混淆
  • 局限
    • 预训练计算成本高
    • 图像文本数据可能降低COCO性能(类别冗余)

  • 代码开源:https://github.com/wanghao9610/OV-DINO
  • 行业影响:为开放世界视觉系统提供新范式(自动驾驶/机器人感知)

https://mp.weixin.qq.com/s/V2RQZ2aDInMxwCHiMPnBLQ

http://www.dtcms.com/a/278994.html

相关文章:

  • 深入解析ThreadLocal:线程隔离利器
  • C#自定义控件
  • c# 深度解析:实现一个通用配置管理功能,打造高并发、可扩展的配置管理神器
  • Typecho加密文章HTML结构自定义完全指南
  • 在 Windows 主机和 VMware 虚拟机中的 Ubuntu 系统之间实现复制粘贴,
  • Spring IoC 容器实战:从解耦到集成的 6 大核心应用场景
  • 【PTA数据结构 | C语言版】字符串插入操作(不限长)
  • 微前端框架深度对决:qiankun、micro-app、wujie 技术内幕与架构选型指南
  • Ubuntu-25.04 Wayland桌面环境安装Anaconda3之后无法启动anaconda-navigator问题解决
  • 如何降低AIGC的查重率?精选六个AIGC降重让论文更出色
  • Spring Boot项目结构解析:构建高效、清晰的代码框架
  • 【Python进阶】深度复制——deepcopy
  • STM32F1_Hal库学习EXTI
  • 苍穹外卖学习指南(java的一个项目)(老师能运行,但你不行,看这里!!)
  • 最近要上Android 15的高通平台,按照之前Android14的高通平台的裁剪APP的方法修改,发现一改编译之后就不能进系统
  • LLaMA.cpp HTTP 服务参数: --pooling 嵌入模型 池化类型详解
  • 笔试——Day7
  • Datawhale AI夏令营大模型 task2.1
  • QML 常用控件(二)
  • Qt小组件 - 3 imageLabel
  • 【CV综合实战】基于深度学习的工业压力表智能检测与读数系统【3】使用OpenCV读取分割后的压力表读数
  • 《C++内存泄漏8大战场:Qt/MFC实战详解 + 面试高频陷阱破解》
  • 机器学习中的朴素贝叶斯(Naive Bayes)模型
  • AI日报 - 2025年07月14日
  • 认识下计算机视觉中的人脸识别
  • 网络准入控制系统的作用解析,2025年保障企业入网安全第一道防线
  • 【邀请函】网易灵动露天矿山具身智能技术发布会,7月26日上海见
  • 【笔记】chrome 无法打开特定协议或访问特定协议时卡死
  • AI香烟检测实战:YOLO11模型训练全过程解析
  • 多尺度频率辅助类 Mamba 线性注意力模块(MFM),融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力