让视觉基础模型(VFMs)像大语言模型(LLMs)一样“会思考”
视觉检测器的演进:从 DETR 到 Grounding-DINO
DINO-R1 的基础是 Grounding-DINO,而 Grounding-DINO 本身是一系列视觉检测器演进的结果。理解这个发展过程对掌握 DINO-R1 的核心技术至关重要。
DETR:用 Transformer 革新目标检测
在 DETR(DEtection TRansformer)出现之前,主流的目标检测模型(如 Faster R-CNN)大多依赖于复杂的手工设计组件,例如:
- 锚框(Anchor Boxes):预设一堆不同大小和比例的候选框。
- 非极大值抑制(NMS):用来过滤掉高度重叠的预测框。
DETR 彻底改变了这一框架。它首次将 Transformer 架构引入目标检测,并将任务重新定义为一个 “集合预测” 问题。
核心思想:
- 使用一组可学习的 “物体查询(Object Queries)”。
- 每个查询就像一个“空的槽位”,通过 Transformer 的自注意力和交叉注意力机制,直接去图像中“寻找”并“填写”一个物体的完整信息(类别 + 边界框)。
优势:
- 端到端架构摆脱了对 NMS 和锚框的依赖,流程大大简化。
- DINO-R1 中的 “查询(Query)” 概念正是源于此。
DINO:DETR 的强力升级版
虽然 DETR 的思想很优雅,但存在训练收敛慢、对小物体检测效果不佳等问题。
DINO(DETR with Improved Denoising Anchor Boxes) 通过引入 对比去噪训练(Contrastive Denoising Training) 等技巧,极大地改善了这些问题。
核心改进:
- 在训练时,除了预测真实物体外,还要求模型学会从“加了噪声的真实边界框”中恢复出原始的、干净的边界框。
- 这种方式让查询的学习更稳定、更高效。
成果:
- DINO 成为了当时性能最强的目标检测器之一。
Grounding-DINO:让检测器听懂人话
传统检测器只能识别训练数据集中预先定义好的类别(如 COCO 数据集的 80 类)。
Grounding-DINO 实现了突破性的 “开放词汇检测(Open-Vocabulary Detection)”。
核心创新:
- 巧妙地将一个强大的视觉检测器(如 DINO)与一个预训练的语言模型融合。
- 不仅学习图像特征,还学习文字特征,并在一个统一的跨模态解码器中进行对齐。
能力:
- 可以理解自由文本输入。
- 你可以输入如:“穿红色连衣裙的女孩”或“左边第二辆蓝色汽车”,模型就能检测出对应的物体,即使这些描述从未在训练集中作为标签出现过。
VIS-G-DINO 正是基于这个能力,将文本提示扩展到了 视觉提示。
对齐的艺术:语言模型中的强化学习(RLHF & GRPO)
DINO-R1 的“激励式”学习思想,直接借鉴自大型语言模型(LLM)用于解决“对齐”问题的强化学习方法。
RLHF:让 AI 更符合人类期望
RLHF(Reinforcement Learning from Human Feedback) 是 ChatGPT 等模型输出既有用又安全的关键技术。
核心步骤包括:
- 监督微调(SFT):在少量高质量示范数据上微调语言模型,使其学会遵循指令。
- 训练奖励模型(RM):让人类对同一提示的多个模型输出进行排序,然后训练一个奖励模型,让它学会给输出打分。
- 强化学习优化:使用奖励模型作为“虚拟裁判”,通过 PPO 等算法进一步优化 SFT 模型,目标是生成获得高分的回答。
DINO-R1 的 GRQO 借鉴了这一思路:
- 它没有人工标注,而是巧妙地用 “与真实答案的匹配代价” 作为奖励信号。
- 自动为每个“查询”预测进行打分和优化。
GRPO:更稳定的强化学习策略
GRPO(Group Relative Policy Optimization) 是对 RLHF 的一种改进。
- 传统 RLHF 的奖励只基于单个输出的绝对好坏。
- GRPO 认为 “相对的好坏” 更重要。
- 它会一次性生成多个候选输出,并根据每个输出相对于这组输出的平均表现来计算奖励。
效果:
- 训练信号更稳定、鲁棒。
DINO-R1 的 “相对优势(relative advantage)” 计算方法,正是 GRPO 思想在视觉领域的直接应用。
新的交互范式:视觉提示(Visual Prompting)
“提示(Prompting)”是与现代 AI 模型交互的核心方式。当我们将这一概念从语言延伸到视觉,就产生了 视觉提示。
什么是视觉提示?
视觉提示是一种 “以例示教(learning by example)” 的交互模式。
用户不是用文字描述,而是直接在图像上提供一个视觉示例,让模型去理解这个示例背后的概念,并在其他地方或图片中找到相似的实例。
这个示例可以是一个物体的截图,或是一个精确的边界框。
为什么它很重要?
视觉提示在许多场景下比文本提示更直观、更有效,尤其是在难以用语言准确描述物体时:
- 精细识别:你想找的不是“一只鸟”,而是“图片里这只特定品种、特定姿态的鸟”。
- 自动化标注:在卫星图上,你只需框出一栋“特定风格的建筑”,模型就能自动标出所有同类建筑,极大提升效率。
- 工业质检:工人只需标出一个“合格零件”或“有瑕疵的零件”的示例,系统就能自动进行分拣。
DINO-R1 正是专为优化这种极具应用潜力但又充满挑战的交互模式而设计的。它通过 GRQO 让模型在面对千变万化的视觉提示时,能做出更鲁棒、更准确的推理。
LLMs 的成功秘诀
GPT 等模型在数学、代码上的强大,不仅靠海量数据和预训练,更关键的是 RLHF(基于人类反馈的强化学习) 这类技术。它让模型通过"比较"不同输出的优劣(哪个回答更符合人类期望、质量更高),学会"主动思考"如何做得更好,而不仅仅是模仿训练数据。GRPO 是 RLHF 的一种高效变体。
VFMs 的痛点
传统的视觉模型(如目标检测器)训练主要依赖 监督微调(SFT)。这就像老师(标注数据)告诉学生(模型)标准答案(物体在哪,是什么)。学生死记硬背,碰到没见过、模糊不清、变化多端(高方差)的情况就容易懵,缺乏"举一反三"的推理和泛化能力。
DINO-R1 的雄心
能否把 LLMs 里成功的"激励式学习"(通过比较和相对奖励驱动模型自我优化)引入视觉领域,让视觉模型也学会"主动思考"图像内容,提升其视觉推理能力?特别是在 视觉提示(Visual Prompting) 这种极具挑战性又实用的场景下。
深入痛点:视觉提示为什么这么难?
视觉提示是指:用户直接在参考图像上框出几个物体(如不同形态的狗),要求模型在目标图像中找出所有类似的物体(所有狗)。
挑战 1:视觉特征的"千变万化"(高方差)
同一个物体(狗),在不同图片中可能呈现完全不同的姿态、颜色、大小、光照、遮挡、背景。模型必须从用户提供的几个"例子"中,抽象出"狗"的本质视觉概念,而不是记住具体的像素。
类比: 老师给你看几张不同品种、不同姿势的狗照片(视觉提示),然后让你在公园照片里找出所有的狗。你需要理解"狗"的核心特征(四条腿、尾巴、毛茸茸、狗脸),而不是只认金毛或坐姿。
挑战 2:泛化到"未知世界"
模型不仅要能检测训练时见过的"狗",更要能泛化到从未在训练数据中出现过的物体类别(比如训练时没见过的"蜜獾"),只要用户提供了视觉提示。
类比: 老师给你看了几张蜜獾的照片(新类别),你就要能在新照片里认出蜜獾。模型需要强大的零样本/少样本泛化能力。
挑战 3:精确的"视觉对齐"
模型找到的物体边界框(Bounding Box)必须与用户提供的视觉提示在语义上精确对齐。不能漏掉该找的,也不能把不该找的框进来。
类比: 你找出来的狗,框的位置要准,不能把猫框成狗,也不能漏掉远处的小狗。
SFT 的局限
传统的监督微调在面对这些挑战时:
- 监督信号稀疏: 只关注"正确答案"对应的预测(通过匈牙利匹配),忽略了模型内部产生的其他"候选预测"的价值和潜力。
- 缺乏"比较"学习: 只告诉模型"这个预测是对的/错的",没有引导它去比较"为什么这个预测比那个更好?如何改进那个差的预测?"
- 容易"学偏"或"遗忘": 面对高方差的视觉提示,模型可能过度拟合当前提示的细节,丢失对通用视觉概念的理解(灾难性遗忘),导致泛化能力下降。
DINO-R1 的破局之道:GRQO - 分组相对查询优化
DINO-R1 的核心创新在于其训练策略 GRQO (Group Relative Query Optimization)。它巧妙地将 LLM 中 RLHF/GRPO 的"激励式学习"思想,适配到了基于 Transformer 的视觉检测模型(特别是 DETR 架构的 Grounding-DINO)上。
基石:理解 DETR 架构的"查询"(Queries)
DETR 及其变体(如 DINO, Grounding-DINO)是当前最先进的检测架构。它们摒弃了传统的锚框(Anchor)和非极大值抑制(NMS)。
核心是引入一组可学习的 “查询”(Queries)。你可以把每个 Query 想象成模型派出去探索图像的 “小侦探” 或 “提问”。
每个 Query 会:
- 关注(Attend to) 图像的不同区域(通过自注意力/交叉注意力机制)
- 预测 一个潜在的物体:包括它的类别和边界框位置
最终,模型会输出所有 Query 的预测结果。通过匈牙利算法,将预测结果与真实标注(GT)进行最优匹配,只有匹配上的预测才会受到 SFT 的监督(分类损失+定位损失)。
GRQO 的精髓:让每个"小侦探"都参与竞争与学习
GRQO 的核心思想是:不再只奖励匹配成功的"小侦探",而是给图像内所有"小侦探"的表现打分、排名,激励它们都努力变得比"小组平均水平"更好!
这包含两大核心机制:
机制 1:查询级别的相对奖励(Query-Level Relative Reward)
目标
为每一个 Query 的预测结果计算一个奖励信号,无论它是否匹配到 GT。
步骤
Step 1: 计算原始匹配代价(Raw Matching Cost)
对于 每一个 Query 的预测(一个边界框 + 类别概率),计算它与 图像中所有 GT 对象 的匹配代价。这个代价综合了:
- 分类代价: 预测类别与 GT 类别的不一致程度(如 Focal Loss)
- 定位代价: 预测框与 GT 框的位置差异(如 L1 Loss + GIoU Loss)
Step 2: 计算原始奖励(Raw Reward)
对于每个 Query,取它与所有 GT 的匹配代价中的最小值。这个最小值代表了该 Query 预测结果与 GT 的最佳可能匹配程度。代价越低,匹配越好。
因此,原始奖励 R_raw = - (最小匹配代价)
或 1 / (最小匹配代价 + ε)
。
R_raw
越高,表示这个 Query 的预测质量越好(最接近某个 GT)。
Step 3: 分组(Grouping)
将处理同一张图像的所有 Queries 视为一个 “组”(Group)。这个组代表了模型在当前图像上产生的所有"候选检测假设"。
Step 4: 计算相对优势(Relative Advantage - RA)
这是 GRQO 最核心的创新点!
- 计算该组内所有 Queries 的
R_raw
的均值(μ)
和标准差(σ)
- 对于组内的 每一个 Query,计算其 相对优势
RA = (R_raw - μ) / σ
RA 的直观意义
它衡量了该 Query 的原始奖励 R_raw
偏离组内平均奖励 μ
多少个标准差。
RA > 0
表示该 Query 的表现优于组内平均水平RA < 0
表示劣于平均水平RA
的绝对值越大,偏离程度越大
为什么有效?
密集监督
每一个 Query 都获得了反馈 (RA),不再只有匹配上的少数 Query 被监督。模型内部的所有"小侦探"都被调动起来参与学习。
“比较中学习”
RA 迫使模型关注 Query 之间的相对优劣。模型学习的目标变成了:最大化每个 Query 的 RA,即让每个"小侦探"都努力表现得比组内同伴更好。
内部竞争与协作
这相当于在模型内部创造了一个"竞争环境"。好的 Query 获得高 RA(正奖励),差的 Query 获得低 RA(负奖励或惩罚)。这种竞争激励所有 Query 都向更准确、更相关的预测进化,从而整体提升了模型的"侦探能力"(查询的表达能力和推理能力)。
鲁棒性
使用 RA 而非 R_raw 作为奖励,使得学习信号对 R_raw 的绝对尺度不敏感,更关注组内的相对表现,提高了训练的稳定性。模型学会的是"如何做得比平均水平好",而不是追求一个难以定义的绝对高分。
机制 2:KL 散度正则化(防止"学疯"和"忘本")
问题
视觉提示的高方差特性,加上 GRQO 强烈的优化驱动,可能导致模型在训练过程中发生 “分布漂移”。模型可能过度关注当前 batch 中特定视觉提示的细节,而遗忘了在预训练或早期训练中学到的通用视觉知识(如基本物体结构、常见特征),或者学习动态变得极不稳定(震荡)。
解决方案
引入 KL 散度正则化项。
作用对象
模型的 "物体性"概率分布 (Objectness Probability Distribution)。在基于视觉提示的检测中,这通常表示模型预测的图像中每个位置(或特征点)与当前视觉提示所代表的概念(如"狗")相关联的置信度。
如何做
-
在训练过程中,维护一个 参考模型 (Reference Model)。这个参考模型通常是当前模型在训练早期(如某个 checkpoint)的一个冻结(参数不更新) 副本。它代表了模型在开始接触多样化视觉提示之前所具备的、相对稳定的通用知识。
-
对于同一张输入图像和视觉提示,分别用 当前模型 和 参考模型 计算它们的物体性概率分布
(P_current 和 P_ref)
。 -
计算
P_current
和P_ref
之间的 KL 散度 (Kullback-Leibler Divergence):KL(P_current || P_ref)
。KL 散度衡量两个概率分布之间的差异程度。 -
将
KL(P_current || P_ref)
作为一个正则化项加入到最终的损失函数中,并乘以一个系数β
来控制其强度。
为什么有效?
知识锚点
KL 项强制要求当前模型的预测分布 P_current
不能偏离参考模型的分布 P_ref
太远。参考模型充当了一个"知识锚点"或"稳定器"。
防止灾难性遗忘
它确保模型在积极学习新视觉提示(通过 GRQO 优化)的同时,保留了基础的、通用的视觉理解能力,避免遗忘。
稳定训练
约束了模型更新的"步伐",防止优化过程过于激进导致震荡或不收敛,让学习过程更平滑、更可控。
促进泛化
通过保留通用知识,模型在面对全新的、未见过的视觉提示时,能更好地利用这些知识进行泛化推理。
DINO-R1 的完整训练目标
DINO-R1 的最终损失函数 L_total
是多个部分的加权和:
1. GRQO 驱动项
L_GRQO = - (1/N) * Σ(RA_i)
目标是最大化平均相对优势 RA(损失函数里是负号,最小化损失等价于最大化 RA)。这是核心的"激励"信号。
2. KL 正则化项
L_KL = β * KL(P_current || P_ref)
约束模型更新,防止漂移和遗忘。
3. 基础检测损失
传统的 SFT 损失,通常只作用于匹配上的 Query(通过匈牙利匹配):
L_cls
: 分类损失(如 Focal Loss)L_box
: 定位损失(如 L1 Loss + GIoU Loss)
4. (可选)对比损失
在 Grounding-DINO 架构中,常包含一个对比损失 L_contrast
,用于对齐视觉特征(图像区域)和语言/概念特征(文本或视觉提示编码)。这有助于模型理解视觉提示的语义。
最终损失函数
L_total = λ1 × L_GRQO + λ2 × L_KL + λ3 × (L_cls + L_box) + λ4 × L_contrast
DINO-R1 究竟"强"在哪?性能变革的根源
1. 显著提升的零样本/少样本泛化能力
根源
GRQO 的密集监督和"比较学习"机制,极大地增强了模型从有限视觉提示中抽象本质概念的能力。KL 正则化防止过拟合特定提示,保留了泛化所需的通用知识。
证据
在 LVIS(包含大量稀有类别)和 ODinW(包含多个不同领域的真实数据集)上的零样本和微调性能显著超越 SFT 基线。这意味着 DINO-R1 能更好地处理新类别和新场景。
2. 卓越的视觉提示鲁棒性
根源
面对视觉提示的高方差:
- GRQO 的相对奖励 (RA) 关注组内相对表现,对提示本身的绝对变化不敏感
- KL 正则化稳定学习,防止模型被极端或噪声提示"带偏"
证据
定性结果(如图 3)显示,DINO-R1 在处理困难、模糊或多样化的视觉提示时,比 SFT 基线漏检更少、误检更少,检测框更准确、更完整。
3. 更强大的"视觉推理"能力
根源
查询能力的进化: GRQO 激励所有 Query 都变得"更聪明"。每个 Query 都学会了更有效地关注图像相关区域、更精准地表达物体语义信息。更强大的 Query 是视觉推理的基础。
"比较"即推理: 计算 RA 的过程,本身就隐含了模型需要评估不同 Query 预测结果的优劣。这要求模型深入理解视觉提示的语义、图像内容以及它们之间的关系,才能做出相对判断。这种机制内在地嵌入了推理过程。
学习"如何学习": GRQO 让模型学会了如何根据视觉提示动态调整其"侦探策略",而不仅仅是应用固定的模式。
证据
在需要理解复杂场景、处理模糊对象、依据提示进行细粒度区分的任务上表现更好。模型不仅知道"是什么",更能理解"根据这个提示,应该找什么,怎么找更好"。
4. 更高效的学习与更稳定的训练
根源
- 密集信号利用: 所有 Query 都贡献学习信号,大大提高了训练数据的利用效率
- 相对奖励的稳定性: RA 对奖励的绝对尺度不敏感,缓解了奖励稀疏和难定义的问题
- KL 正则化的稳定作用: 有效防止训练崩溃和性能回退
证据
消融实验表明,移除 GRQO 或 KL 项都会导致性能显著下降,两者结合效果最佳。训练曲线可能更平滑。
总结:DINO-R1 的变革性意义
DINO-R1 不仅仅是一个性能更好的检测模型。它的核心价值在于:
1. 开创性地将 LLM 的"激励式学习"范式成功迁移到视觉领域
证明了 GRQO(分组相对查询优化)是提升视觉基础模型(尤其是处理视觉提示时)推理能力和泛化能力的有效途径。
2. 重新定义了视觉模型的"学习目标"
从传统的"模仿标准答案"(SFT),转变为"在内部竞争中追求卓越"(最大化相对优势 RA),同时不忘根本(KL 正则化)。这是一种更接近人类学习本质的范式。
3. 为构建更通用、更鲁棒、更"智能"的视觉系统铺路
DINO-R1 展示的机制(密集相对奖励 + 分布约束)具有普适性,未来可以扩展到更复杂的视觉任务,如指代表达理解(Referring Expression Comprehension)、视觉问答(VQA)、具身智能(Embodied AI)中的视觉推理等。
简言之,DINO-R1 的"强",强在它通过 GRQO 机制,让模型内部的"小侦探们"(Queries)学会了在竞争中合作、在比较中学习、在约束下创新,从而具备了更接近人类水平的视觉理解和推理能力,特别是在依据视觉提示进行开放世界感知这一关键任务上。
这是视觉基础模型迈向"会思考"的重要一步。