当前位置：首页 > news >正文

OV-DINO：基于语言感知选择性融合的统一开放词汇检测

news 2025/7/15 7:38:14

一、研究背景与挑战

开放词汇检测（OVD） 旨在通过类别名称检测任意物体（包括训练中未见的类别）。传统方法（如GLIP、G-DINO）采用两阶段范式：

预训练：在大规模检测/定位数据上训练模型
伪标注：为图像-文本数据生成伪标签
核心挑战：

数据噪声：有限类别预训练模型生成的伪标签存在噪声（图1a红圈示例）
模态对齐：物体特征与类别描述的跨模态融合效率低（图2对比G-DINO融合缺陷）

二、OV-DINO框架创新

1. 统一数据集成（UniDI）

方法：将三类数据统一为检测中心格式
- 检测数据：直接使用边界框+类别名
- 定位数据：将定位短语视为类别
- 图像-文本数据：创新性转换为检测格式
  - 标题文本 ⇒ 唯一类别名
  - 全图边界框 ⇒ 图像级标注框
优势：
- 消除伪标签生成需求
- 支持端到端训练
- 扩展词汇覆盖（如CC1M数据集引入百万级新概念）

2. 语言感知选择性融合（LASF）

模块构成：
- 查询选择（LAQS）：计算图像/文本嵌入相似度，选择Top-K相关对象嵌入（公式1）
- 查询融合（LAQF）：动态融合对象嵌入与内容查询（公式2）
技术演进：对比G-DINO的跨模态融合（图2d），LASF通过：
- 门控交叉注意力（Tanh(a)*Attn）
- 门控前馈网络（Tanh(b)*FFW）
- 实现精准区域-文本对齐（图2案例：网球拍检测准确率93% vs 55%）

3. 检测中心预训练

训练流程：
- 文本提示统一化：检测/定位数据添加模板（e.g. “a photo of {类别}”）
- 多尺度特征提取：4尺度（8x-64x）图像嵌入
- 损失函数：分类对齐损失（Sigmoid Focal）+回归损失（L1+GIoU）+去噪损失
效率优势：24训练周期达SOTA（G-DINO需50周期）

三、实验结果

1. 零样本检测性能

基准测试	OV-DINO (AP)	对比SOTA提升
COCO	50.6%	+2.5% (vs G-DINO)
LVIS	40.1%	+12.7% (vs G-DINO)

2. 微调性能

COCO微调后达58.4% AP，超越同骨干网络的所有方法

3. 消融实验关键结论

UniDI贡献：单独使用提升AP 1.4%（表VI）
LASF最优结构：Later-LASF效果最佳（表VII）
数据过滤必要性：Top相似度CC1M数据比随机采样高1.2% AP（表IX）

四、创新价值与局限

突破性贡献：
- 首个端到端统一OVD框架
- 语言感知融合机制解决跨模态混淆
局限：
- 预训练计算成本高
- 图像文本数据可能降低COCO性能（类别冗余）

代码开源：https://github.com/wanghao9610/OV-DINO
行业影响：为开放世界视觉系统提供新范式（自动驾驶/机器人感知）

https://mp.weixin.qq.com/s/V2RQZ2aDInMxwCHiMPnBLQ

http://www.dtcms.com/a/278994.html

相关文章：

深入解析ThreadLocal：线程隔离利器

C#自定义控件

c# 深度解析：实现一个通用配置管理功能，打造高并发、可扩展的配置管理神器

Typecho加密文章HTML结构自定义完全指南

在 Windows 主机和 VMware 虚拟机中的 Ubuntu 系统之间实现复制粘贴，

Spring IoC 容器实战：从解耦到集成的 6 大核心应用场景

【PTA数据结构 | C语言版】字符串插入操作（不限长）

微前端框架深度对决：qiankun、micro-app、wujie 技术内幕与架构选型指南

Ubuntu-25.04 Wayland桌面环境安装Anaconda3之后无法启动anaconda-navigator问题解决

如何降低AIGC的查重率？精选六个AIGC降重让论文更出色

Spring Boot项目结构解析：构建高效、清晰的代码框架

【Python进阶】深度复制——deepcopy

STM32F1_Hal库学习EXTI

苍穹外卖学习指南（java的一个项目）（老师能运行，但你不行，看这里！！）

最近要上Android 15的高通平台，按照之前Android14的高通平台的裁剪APP的方法修改，发现一改编译之后就不能进系统

LLaMA.cpp HTTP 服务参数: --pooling 嵌入模型池化类型详解

笔试——Day7

Datawhale AI夏令营大模型 task2.1

QML 常用控件（二）

Qt小组件 - 3 imageLabel

【CV综合实战】基于深度学习的工业压力表智能检测与读数系统【3】使用OpenCV读取分割后的压力表读数

《C++内存泄漏8大战场：Qt/MFC实战详解 + 面试高频陷阱破解》

机器学习中的朴素贝叶斯（Naive Bayes）模型

AI日报 - 2025年07月14日

认识下计算机视觉中的人脸识别

网络准入控制系统的作用解析，2025年保障企业入网安全第一道防线

【邀请函】网易灵动露天矿山具身智能技术发布会，7月26日上海见

【笔记】chrome 无法打开特定协议或访问特定协议时卡死

AI香烟检测实战：YOLO11模型训练全过程解析

多尺度频率辅助类 Mamba 线性注意力模块（MFM），融合频域和空域特征，提升多尺度、复杂场景下的目标检测能力