当前位置：首页 > news >正文

让视觉基础模型（VFMs）像大语言模型（LLMs）一样“会思考”

news 2025/8/29 22:23:22

视觉检测器的演进：从 DETR 到 Grounding-DINO

DINO-R1 的基础是 Grounding-DINO，而 Grounding-DINO 本身是一系列视觉检测器演进的结果。理解这个发展过程对掌握 DINO-R1 的核心技术至关重要。

DETR：用 Transformer 革新目标检测

在 DETR（DEtection TRansformer）出现之前，主流的目标检测模型（如 Faster R-CNN）大多依赖于复杂的手工设计组件，例如：

锚框（Anchor Boxes）：预设一堆不同大小和比例的候选框。
非极大值抑制（NMS）：用来过滤掉高度重叠的预测框。

DETR 彻底改变了这一框架。它首次将 Transformer 架构引入目标检测，并将任务重新定义为一个 “集合预测” 问题。

核心思想：

使用一组可学习的 “物体查询（Object Queries）”。
每个查询就像一个“空的槽位”，通过 Transformer 的自注意力和交叉注意力机制，直接去图像中“寻找”并“填写”一个物体的完整信息（类别 + 边界框）。

优势：

端到端架构摆脱了对 NMS 和锚框的依赖，流程大大简化。
DINO-R1 中的 “查询（Query）” 概念正是源于此。

DINO：DETR 的强力升级版

虽然 DETR 的思想很优雅，但存在训练收敛慢、对小物体检测效果不佳等问题。

DINO（DETR with Improved Denoising Anchor Boxes） 通过引入 对比去噪训练（Contrastive Denoising Training） 等技巧，极大地改善了这些问题。

核心改进：

在训练时，除了预测真实物体外，还要求模型学会从“加了噪声的真实边界框”中恢复出原始的、干净的边界框。
这种方式让查询的学习更稳定、更高效。

成果：

DINO 成为了当时性能最强的目标检测器之一。

Grounding-DINO：让检测器听懂人话

传统检测器只能识别训练数据集中预先定义好的类别（如 COCO 数据集的 80 类）。

Grounding-DINO 实现了突破性的 “开放词汇检测（Open-Vocabulary Detection）”。

核心创新：

巧妙地将一个强大的视觉检测器（如 DINO）与一个预训练的语言模型融合。
不仅学习图像特征，还学习文字特征，并在一个统一的跨模态解码器中进行对齐。

能力：

可以理解自由文本输入。
你可以输入如：“穿红色连衣裙的女孩”或“左边第二辆蓝色汽车”，模型就能检测出对应的物体，即使这些描述从未在训练集中作为标签出现过。

VIS-G-DINO 正是基于这个能力，将文本提示扩展到了 视觉提示。

对齐的艺术：语言模型中的强化学习（RLHF & GRPO）

DINO-R1 的“激励式”学习思想，直接借鉴自大型语言模型（LLM）用于解决“对齐”问题的强化学习方法。

RLHF：让 AI 更符合人类期望

RLHF（Reinforcement Learning from Human Feedback） 是 ChatGPT 等模型输出既有用又安全的关键技术。

核心步骤包括：

监督微调（SFT）：在少量高质量示范数据上微调语言模型，使其学会遵循指令。
训练奖励模型（RM）：让人类对同一提示的多个模型输出进行排序，然后训练一个奖励模型，让它学会给输出打分。
强化学习优化：使用奖励模型作为“虚拟裁判”，通过 PPO 等算法进一步优化 SFT 模型，目标是生成获得高分的回答。

DINO-R1 的 GRQO 借鉴了这一思路：

它没有人工标注，而是巧妙地用 “与真实答案的匹配代价” 作为奖励信号。
自动为每个“查询”预测进行打分和优化。

GRPO：更稳定的强化学习策略

GRPO（Group Relative Policy Optimization） 是对 RLHF 的一种改进。

传统 RLHF 的奖励只基于单个输出的绝对好坏。
GRPO 认为 “相对的好坏” 更重要。
它会一次性生成多个候选输出，并根据每个输出相对于这组输出的平均表现来计算奖励。

效果：

训练信号更稳定、鲁棒。

DINO-R1 的 “相对优势（relative advantage）” 计算方法，正是 GRPO 思想在视觉领域的直接应用。

新的交互范式：视觉提示（Visual Prompting）

“提示（Prompting）”是与现代 AI 模型交互的核心方式。当我们将这一概念从语言延伸到视觉，就产生了 视觉提示。

什么是视觉提示？

视觉提示是一种 “以例示教（learning by example）” 的交互模式。

用户不是用文字描述，而是直接在图像上提供一个视觉示例，让模型去理解这个示例背后的概念，并在其他地方或图片中找到相似的实例。

这个示例可以是一个物体的截图，或是一个精确的边界框。

为什么它很重要？

视觉提示在许多场景下比文本提示更直观、更有效，尤其是在难以用语言准确描述物体时：

精细识别：你想找的不是“一只鸟”，而是“图片里这只特定品种、特定姿态的鸟”。
自动化标注：在卫星图上，你只需框出一栋“特定风格的建筑”，模型就能自动标出所有同类建筑，极大提升效率。
工业质检：工人只需标出一个“合格零件”或“有瑕疵的零件”的示例，系统就能自动进行分拣。

DINO-R1 正是专为优化这种极具应用潜力但又充满挑战的交互模式而设计的。它通过 GRQO 让模型在面对千变万化的视觉提示时，能做出更鲁棒、更准确的推理。

LLMs 的成功秘诀

GPT 等模型在数学、代码上的强大，不仅靠海量数据和预训练，更关键的是 RLHF（基于人类反馈的强化学习） 这类技术。它让模型通过"比较"不同输出的优劣（哪个回答更符合人类期望、质量更高），学会"主动思考"如何做得更好，而不仅仅是模仿训练数据。GRPO 是 RLHF 的一种高效变体。

VFMs 的痛点

传统的视觉模型（如目标检测器）训练主要依赖 监督微调（SFT）。这就像老师（标注数据）告诉学生（模型）标准答案（物体在哪，是什么）。学生死记硬背，碰到没见过、模糊不清、变化多端（高方差）的情况就容易懵，缺乏"举一反三"的推理和泛化能力。

DINO-R1 的雄心

能否把 LLMs 里成功的"激励式学习"（通过比较和相对奖励驱动模型自我优化）引入视觉领域，让视觉模型也学会"主动思考"图像内容，提升其视觉推理能力？特别是在 视觉提示（Visual Prompting） 这种极具挑战性又实用的场景下。

深入痛点：视觉提示为什么这么难？

视觉提示是指：用户直接在参考图像上框出几个物体（如不同形态的狗），要求模型在目标图像中找出所有类似的物体（所有狗）。

挑战 1：视觉特征的"千变万化"（高方差）

同一个物体（狗），在不同图片中可能呈现完全不同的姿态、颜色、大小、光照、遮挡、背景。模型必须从用户提供的几个"例子"中，抽象出"狗"的本质视觉概念，而不是记住具体的像素。

类比： 老师给你看几张不同品种、不同姿势的狗照片（视觉提示），然后让你在公园照片里找出所有的狗。你需要理解"狗"的核心特征（四条腿、尾巴、毛茸茸、狗脸），而不是只认金毛或坐姿。

挑战 2：泛化到"未知世界"

模型不仅要能检测训练时见过的"狗"，更要能泛化到从未在训练数据中出现过的物体类别（比如训练时没见过的"蜜獾"），只要用户提供了视觉提示。

类比： 老师给你看了几张蜜獾的照片（新类别），你就要能在新照片里认出蜜獾。模型需要强大的零样本/少样本泛化能力。

挑战 3：精确的"视觉对齐"

模型找到的物体边界框（Bounding Box）必须与用户提供的视觉提示在语义上精确对齐。不能漏掉该找的，也不能把不该找的框进来。

类比： 你找出来的狗，框的位置要准，不能把猫框成狗，也不能漏掉远处的小狗。

SFT 的局限

传统的监督微调在面对这些挑战时：

监督信号稀疏： 只关注"正确答案"对应的预测（通过匈牙利匹配），忽略了模型内部产生的其他"候选预测"的价值和潜力。
缺乏"比较"学习： 只告诉模型"这个预测是对的/错的"，没有引导它去比较"为什么这个预测比那个更好？如何改进那个差的预测？"
容易"学偏"或"遗忘"： 面对高方差的视觉提示，模型可能过度拟合当前提示的细节，丢失对通用视觉概念的理解（灾难性遗忘），导致泛化能力下降。

DINO-R1 的破局之道：GRQO - 分组相对查询优化

DINO-R1 的核心创新在于其训练策略 GRQO (Group Relative Query Optimization)。它巧妙地将 LLM 中 RLHF/GRPO 的"激励式学习"思想，适配到了基于 Transformer 的视觉检测模型（特别是 DETR 架构的 Grounding-DINO）上。

基石：理解 DETR 架构的"查询"（Queries）

DETR 及其变体（如 DINO, Grounding-DINO）是当前最先进的检测架构。它们摒弃了传统的锚框（Anchor）和非极大值抑制（NMS）。

核心是引入一组可学习的 “查询”（Queries）。你可以把每个 Query 想象成模型派出去探索图像的 “小侦探” 或 “提问”。

每个 Query 会：

关注（Attend to） 图像的不同区域（通过自注意力/交叉注意力机制）
预测一个潜在的物体：包括它的类别和边界框位置

最终，模型会输出所有 Query 的预测结果。通过匈牙利算法，将预测结果与真实标注（GT）进行最优匹配，只有匹配上的预测才会受到 SFT 的监督（分类损失+定位损失）。

GRQO 的精髓：让每个"小侦探"都参与竞争与学习

GRQO 的核心思想是：不再只奖励匹配成功的"小侦探"，而是给图像内所有"小侦探"的表现打分、排名，激励它们都努力变得比"小组平均水平"更好！

这包含两大核心机制：

机制 1：查询级别的相对奖励（Query-Level Relative Reward）

目标

为每一个 Query 的预测结果计算一个奖励信号，无论它是否匹配到 GT。

步骤

Step 1: 计算原始匹配代价（Raw Matching Cost）

对于 每一个 Query 的预测（一个边界框 + 类别概率），计算它与 图像中所有 GT 对象 的匹配代价。这个代价综合了：

分类代价： 预测类别与 GT 类别的不一致程度（如 Focal Loss）
定位代价： 预测框与 GT 框的位置差异（如 L1 Loss + GIoU Loss）

Step 2: 计算原始奖励（Raw Reward）

对于每个 Query，取它与所有 GT 的匹配代价中的最小值。这个最小值代表了该 Query 预测结果与 GT 的最佳可能匹配程度。代价越低，匹配越好。

因此，原始奖励 R_raw = - (最小匹配代价) 或 1 / (最小匹配代价 + ε)。

R_raw 越高，表示这个 Query 的预测质量越好（最接近某个 GT）。

Step 3: 分组（Grouping）

将处理同一张图像的所有 Queries 视为一个 “组”（Group）。这个组代表了模型在当前图像上产生的所有"候选检测假设"。

Step 4: 计算相对优势（Relative Advantage - RA）

这是 GRQO 最核心的创新点！

计算该组内所有 Queries 的 R_raw 的均值 (μ) 和标准差 (σ)
对于组内的 每一个 Query，计算其 相对优势 RA = (R_raw - μ) / σ

RA 的直观意义

它衡量了该 Query 的原始奖励 R_raw 偏离组内平均奖励 μ 多少个标准差。

RA > 0 表示该 Query 的表现优于组内平均水平
RA < 0 表示劣于平均水平
RA 的绝对值越大，偏离程度越大

为什么有效？

密集监督

每一个 Query 都获得了反馈 (RA)，不再只有匹配上的少数 Query 被监督。模型内部的所有"小侦探"都被调动起来参与学习。

“比较中学习”

RA 迫使模型关注 Query 之间的相对优劣。模型学习的目标变成了：最大化每个 Query 的 RA，即让每个"小侦探"都努力表现得比组内同伴更好。

内部竞争与协作

这相当于在模型内部创造了一个"竞争环境"。好的 Query 获得高 RA（正奖励），差的 Query 获得低 RA（负奖励或惩罚）。这种竞争激励所有 Query 都向更准确、更相关的预测进化，从而整体提升了模型的"侦探能力"（查询的表达能力和推理能力）。

鲁棒性

使用 RA 而非 R_raw 作为奖励，使得学习信号对 R_raw 的绝对尺度不敏感，更关注组内的相对表现，提高了训练的稳定性。模型学会的是"如何做得比平均水平好"，而不是追求一个难以定义的绝对高分。

机制 2：KL 散度正则化（防止"学疯"和"忘本"）

问题

视觉提示的高方差特性，加上 GRQO 强烈的优化驱动，可能导致模型在训练过程中发生 “分布漂移”。模型可能过度关注当前 batch 中特定视觉提示的细节，而遗忘了在预训练或早期训练中学到的通用视觉知识（如基本物体结构、常见特征），或者学习动态变得极不稳定（震荡）。

解决方案

引入 KL 散度正则化项。

作用对象

模型的 "物体性"概率分布 (Objectness Probability Distribution)。在基于视觉提示的检测中，这通常表示模型预测的图像中每个位置（或特征点）与当前视觉提示所代表的概念（如"狗"）相关联的置信度。

如何做

在训练过程中，维护一个 参考模型 (Reference Model)。这个参考模型通常是当前模型在训练早期（如某个 checkpoint）的一个冻结（参数不更新）副本。它代表了模型在开始接触多样化视觉提示之前所具备的、相对稳定的通用知识。
对于同一张输入图像和视觉提示，分别用 当前模型 和 参考模型 计算它们的物体性概率分布 (P_current 和 P_ref)。
计算 P_current 和 P_ref 之间的 KL 散度 (Kullback-Leibler Divergence)：KL(P_current || P_ref)。KL 散度衡量两个概率分布之间的差异程度。
将 KL(P_current || P_ref) 作为一个正则化项加入到最终的损失函数中，并乘以一个系数 β 来控制其强度。

为什么有效？

知识锚点

KL 项强制要求当前模型的预测分布 P_current 不能偏离参考模型的分布 P_ref 太远。参考模型充当了一个"知识锚点"或"稳定器"。

防止灾难性遗忘

它确保模型在积极学习新视觉提示（通过 GRQO 优化）的同时，保留了基础的、通用的视觉理解能力，避免遗忘。

稳定训练

约束了模型更新的"步伐"，防止优化过程过于激进导致震荡或不收敛，让学习过程更平滑、更可控。

促进泛化

通过保留通用知识，模型在面对全新的、未见过的视觉提示时，能更好地利用这些知识进行泛化推理。

DINO-R1 的完整训练目标

DINO-R1 的最终损失函数 L_total 是多个部分的加权和：

1. GRQO 驱动项

L_GRQO = - (1/N) * Σ(RA_i)

目标是最大化平均相对优势 RA（损失函数里是负号，最小化损失等价于最大化 RA）。这是核心的"激励"信号。

2. KL 正则化项

L_KL = β * KL(P_current || P_ref)

约束模型更新，防止漂移和遗忘。

3. 基础检测损失

传统的 SFT 损失，通常只作用于匹配上的 Query（通过匈牙利匹配）：

L_cls: 分类损失（如 Focal Loss）
L_box: 定位损失（如 L1 Loss + GIoU Loss）

4. （可选）对比损失

在 Grounding-DINO 架构中，常包含一个对比损失 L_contrast，用于对齐视觉特征（图像区域）和语言/概念特征（文本或视觉提示编码）。这有助于模型理解视觉提示的语义。

最终损失函数

L_total = λ1 × L_GRQO + λ2 × L_KL + λ3 × (L_cls + L_box) + λ4 × L_contrast

DINO-R1 究竟"强"在哪？性能变革的根源

1. 显著提升的零样本/少样本泛化能力

根源

GRQO 的密集监督和"比较学习"机制，极大地增强了模型从有限视觉提示中抽象本质概念的能力。KL 正则化防止过拟合特定提示，保留了泛化所需的通用知识。

证据

在 LVIS（包含大量稀有类别）和 ODinW（包含多个不同领域的真实数据集）上的零样本和微调性能显著超越 SFT 基线。这意味着 DINO-R1 能更好地处理新类别和新场景。

2. 卓越的视觉提示鲁棒性

根源

面对视觉提示的高方差：

GRQO 的相对奖励 (RA) 关注组内相对表现，对提示本身的绝对变化不敏感
KL 正则化稳定学习，防止模型被极端或噪声提示"带偏"

证据

定性结果（如图 3）显示，DINO-R1 在处理困难、模糊或多样化的视觉提示时，比 SFT 基线漏检更少、误检更少，检测框更准确、更完整。

3. 更强大的"视觉推理"能力

根源

查询能力的进化： GRQO 激励所有 Query 都变得"更聪明"。每个 Query 都学会了更有效地关注图像相关区域、更精准地表达物体语义信息。更强大的 Query 是视觉推理的基础。

"比较"即推理： 计算 RA 的过程，本身就隐含了模型需要评估不同 Query 预测结果的优劣。这要求模型深入理解视觉提示的语义、图像内容以及它们之间的关系，才能做出相对判断。这种机制内在地嵌入了推理过程。

学习"如何学习"： GRQO 让模型学会了如何根据视觉提示动态调整其"侦探策略"，而不仅仅是应用固定的模式。

证据

在需要理解复杂场景、处理模糊对象、依据提示进行细粒度区分的任务上表现更好。模型不仅知道"是什么"，更能理解"根据这个提示，应该找什么，怎么找更好"。

4. 更高效的学习与更稳定的训练

根源

密集信号利用： 所有 Query 都贡献学习信号，大大提高了训练数据的利用效率
相对奖励的稳定性： RA 对奖励的绝对尺度不敏感，缓解了奖励稀疏和难定义的问题
KL 正则化的稳定作用： 有效防止训练崩溃和性能回退

证据

消融实验表明，移除 GRQO 或 KL 项都会导致性能显著下降，两者结合效果最佳。训练曲线可能更平滑。

总结：DINO-R1 的变革性意义

DINO-R1 不仅仅是一个性能更好的检测模型。它的核心价值在于：

1. 开创性地将 LLM 的"激励式学习"范式成功迁移到视觉领域

证明了 GRQO（分组相对查询优化）是提升视觉基础模型（尤其是处理视觉提示时）推理能力和泛化能力的有效途径。

2. 重新定义了视觉模型的"学习目标"

从传统的"模仿标准答案"（SFT），转变为"在内部竞争中追求卓越"（最大化相对优势 RA），同时不忘根本（KL 正则化）。这是一种更接近人类学习本质的范式。

3. 为构建更通用、更鲁棒、更"智能"的视觉系统铺路

DINO-R1 展示的机制（密集相对奖励 + 分布约束）具有普适性，未来可以扩展到更复杂的视觉任务，如指代表达理解（Referring Expression Comprehension）、视觉问答（VQA）、具身智能（Embodied AI）中的视觉推理等。

简言之，DINO-R1 的"强"，强在它通过 GRQO 机制，让模型内部的"小侦探们"（Queries）学会了在竞争中合作、在比较中学习、在约束下创新，从而具备了更接近人类水平的视觉理解和推理能力，特别是在依据视觉提示进行开放世界感知这一关键任务上。

这是视觉基础模型迈向"会思考"的重要一步。

查看全文

http://www.dtcms.com/a/230334.html

Vue2 和 Vue3 常见 CSS 样式归纳总结

09.MySQL内外连接

基于对比学习的带钢表面缺陷分类研究，整合SimCLR自监督预训练与YOLOv8目标检测框架的技术解析及Python实现方案

ASP.NET Core 中间件深度解析：构建灵活高效的请求处理管道

【学习笔记】Circuit Tracing: Revealing Computational Graphs in Language Models

电脑网络重置，找不到原先自家的WIFI，手机还能正常连接并上网

【C++】AVL树的概念及实现（万字图文超详解）

C++11 中 auto 和 decltype 的深入解析

【Python零基础入门系列】第7篇：Python中的错误与异常处理

SPI通信协议（软件SPI读取W25Q64）

计算机视觉处理----OpenCV（从摄像头采集视频、视频处理与视频录制）

[特殊字符] 革命性AI提示词优化平台正式开源！

目标检测任务的评估指标mAP50和mAP50-95

YOLO12 改进｜融入 Mamba 架构：插入视觉状态空间模块 VSS Block 的硬核升级

【八股消消乐】如何解决SQL线上死锁事故

四、函数调用包含单个参数之Double类型-mmword，movsd，mulsd，addsd指令，总结汇编的数据类型

PyCharm项目和文件运行时使用conda环境的教程

Postgresql常规SQL语句操作

低代码采购系统搭建：鲸采云+能源行业订单管理自动化案例

SQL进阶之旅 Day 15：动态SQL与条件查询构建

五大主流大模型推理引擎深度解析：llama.cpp、vLLM、SGLang、DeepSpeed和Unsloth的终极选择指南

【论文阅读笔记】Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

parquet :开源的列式存储文件格式

DeepSeek 赋能智能零售，解锁动态定价新范式

60天python训练计划----day44

阿里云ACP云计算备考笔记 (3)——云服务器ECS

传输层协议 UDP 介绍 -- UDP 协议格式，UDP 的特点，UDP 的缓冲区

结节性甲状腺肿全流程大模型预测与决策系统总体架构设计方案大纲

基于 qiankun + vite + vue3 构建微前端应用实践

Git-git跟踪大文件

视觉检测器的演进：从 DETR 到 Grounding-DINO

DETR：用 Transformer 革新目标检测

核心思想：

优势：

DINO：DETR 的强力升级版

核心改进：

成果：

Grounding-DINO：让检测器听懂人话

核心创新：

能力：

对齐的艺术：语言模型中的强化学习（RLHF & GRPO）

RLHF：让 AI 更符合人类期望

核心步骤包括：

DINO-R1 的 GRQO 借鉴了这一思路：

GRPO：更稳定的强化学习策略

效果：

新的交互范式：视觉提示（Visual Prompting）

什么是视觉提示？

为什么它很重要？

LLMs 的成功秘诀

VFMs 的痛点

DINO-R1 的雄心

深入痛点：视觉提示为什么这么难？

挑战 1：视觉特征的"千变万化"（高方差）

挑战 2：泛化到"未知世界"

挑战 3：精确的"视觉对齐"

SFT 的局限

DINO-R1 的破局之道：GRQO - 分组相对查询优化

基石：理解 DETR 架构的"查询"（Queries）

GRQO 的精髓：让每个"小侦探"都参与竞争与学习

机制 1：查询级别的相对奖励（Query-Level Relative Reward）

目标

步骤

Step 1: 计算原始匹配代价（Raw Matching Cost）

Step 2: 计算原始奖励（Raw Reward）

Step 3: 分组（Grouping）

Step 4: 计算相对优势（Relative Advantage - RA）

RA 的直观意义

为什么有效？

密集监督

“比较中学习”

内部竞争与协作

鲁棒性

机制 2：KL 散度正则化（防止"学疯"和"忘本"）

问题

解决方案

作用对象

如何做

为什么有效？

知识锚点

防止灾难性遗忘

稳定训练

促进泛化

DINO-R1 的完整训练目标

1. GRQO 驱动项

2. KL 正则化项

3. 基础检测损失

4. （可选）对比损失

最终损失函数

DINO-R1 究竟"强"在哪？性能变革的根源

1. 显著提升的零样本/少样本泛化能力

根源

证据

2. 卓越的视觉提示鲁棒性

根源

证据

3. 更强大的"视觉推理"能力

根源

证据

4. 更高效的学习与更稳定的训练

根源

证据

总结：DINO-R1 的变革性意义

1. 开创性地将 LLM 的"激励式学习"范式成功迁移到视觉领域

2. 重新定义了视觉模型的"学习目标"

3. 为构建更通用、更鲁棒、更"智能"的视觉系统铺路

相关文章：