OV-DINO:基于语言感知选择性融合的统一开放词汇检测
一、研究背景与挑战
开放词汇检测(OVD) 旨在通过类别名称检测任意物体(包括训练中未见的类别)。传统方法(如GLIP、G-DINO)采用两阶段范式:
- 预训练:在大规模检测/定位数据上训练模型
- 伪标注:为图像-文本数据生成伪标签
核心挑战:
- 数据噪声:有限类别预训练模型生成的伪标签存在噪声(图1a红圈示例)
- 模态对齐:物体特征与类别描述的跨模态融合效率低(图2对比G-DINO融合缺陷)
二、OV-DINO框架创新
1. 统一数据集成(UniDI)
- 方法:将三类数据统一为检测中心格式
- 检测数据:直接使用边界框+类别名
- 定位数据:将定位短语视为类别
- 图像-文本数据:创新性转换为检测格式
- 标题文本 ⇒ 唯一类别名
- 全图边界框 ⇒ 图像级标注框
- 优势:
- 消除伪标签生成需求
- 支持端到端训练
- 扩展词汇覆盖(如CC1M数据集引入百万级新概念)
2. 语言感知选择性融合(LASF)
- 模块构成:
- 查询选择(LAQS):计算图像/文本嵌入相似度,选择Top-K相关对象嵌入(公式1)
- 查询融合(LAQF):动态融合对象嵌入与内容查询(公式2)
- 技术演进:对比G-DINO的跨模态融合(图2d),LASF通过:
- 门控交叉注意力(
Tanh(a)*Attn
) - 门控前馈网络(
Tanh(b)*FFW
) - 实现精准区域-文本对齐(图2案例:网球拍检测准确率93% vs 55%)
- 门控交叉注意力(
3. 检测中心预训练
- 训练流程:
- 文本提示统一化:检测/定位数据添加模板(e.g. “a photo of {类别}”)
- 多尺度特征提取:4尺度(8x-64x)图像嵌入
- 损失函数:分类对齐损失(Sigmoid Focal)+回归损失(L1+GIoU)+去噪损失
- 效率优势:24训练周期达SOTA(G-DINO需50周期)
三、实验结果
1. 零样本检测性能
基准测试 | OV-DINO (AP) | 对比SOTA提升 |
---|---|---|
COCO | 50.6% | +2.5% (vs G-DINO) |
LVIS | 40.1% | +12.7% (vs G-DINO) |
2. 微调性能
- COCO微调后达58.4% AP,超越同骨干网络的所有方法
3. 消融实验关键结论
- UniDI贡献:单独使用提升AP 1.4%(表VI)
- LASF最优结构:Later-LASF效果最佳(表VII)
- 数据过滤必要性:Top相似度CC1M数据比随机采样高1.2% AP(表IX)
四、创新价值与局限
- 突破性贡献:
- 首个端到端统一OVD框架
- 语言感知融合机制解决跨模态混淆
- 局限:
- 预训练计算成本高
- 图像文本数据可能降低COCO性能(类别冗余)
- 代码开源:https://github.com/wanghao9610/OV-DINO
- 行业影响:为开放世界视觉系统提供新范式(自动驾驶/机器人感知)
https://mp.weixin.qq.com/s/V2RQZ2aDInMxwCHiMPnBLQ