当前位置: 首页 > news >正文

DINOv3

一、摘要

https://arxiv.org/pdf/2508.10104

自监督学习有望消除对人工数据标注的需求,使模型能够轻松扩展到大规模数据集和更大规模的架构。由于不针对特定任务或领域进行定制,这种训练范式具有从各种来源学习视觉表示的潜力,能够使用单一算法处理从自然图像到航空图像的广泛数据。本技术报告介绍了DINOv3,这是通过利用简单而有效的策略实现这一愿景的重要里程碑。首先,我们通过精心的数据准备、设计和优化,充分利用了扩展数据集和模型规模的优势。其次,我们引入了一种名为Gram锚定(Gram anchoring)的新方法,有效解决了在长时间训练过程中密集特征图退化的已知但未解决的问题。最后,我们应用了事后策略,进一步增强了模型在分辨率、模型大小和文本对齐方面的灵活性。因此,我们提出了一种多功能视觉基础模型,在无需微调的情况下,在各种设置中超越了专业化的最先进模型。DINOv3生成高质量的密集特征,在各种视觉任务上取得了卓越的性能,显著超越了先前的自监督和弱监督基础模型。我们还分享了DINOv3视觉模型套件,旨在通过提供可扩展的解决方案来应对不同资源约束和部署场景,从而在广泛的任务和数据上推进最先进技术。

二、引言

基础模型已成为现代计算机视觉的核心构建模块,通过单一可重用模型实现跨任务和领域的广泛泛化。自监督学习(SSL)是一种训练此类模型的强大方法,它直接从原始像素数据中学习,并利用图像中模式的自然共现。与需要与高质量元数据配对的图像的弱监督和全监督预训练方法(Radford et al., 2021; Dehghani et al., 2023; Bolya et al., 2025)不同,SSL解锁了在大规模原始图像集合上的训练。这尤其适用于训练大规模视觉编码器,这得益于几乎无限的训练数据可用性。DINOv2 (Oquab et al., 2024)体现了这些优势,在图像理解任务(Wang et al., 2025)中取得了令人印象深刻的成果,并为组织病理学等复杂领域(Chen et al., 2024)提供了预训练支持。使用SSL训练的模型展现出额外的理想特性:它们对输入分布偏移具有鲁棒性,提供强大的全局和局部特征,并生成有助于物理场景理解的丰富嵌入。由于SSL模型不是为任何特定下游任务训练的,它们产生多功能且稳健的通用模型,需要针对特定任务进行微调,允许单个冻结的骨干网络服务于多种用途。重要的是,自监督学习特别适合于训练可用的大量观测数据。

在这里插入图片描述

图1: (a) 多年来ImageNet1k (IN1k)上线性探测结果的演变,比较了全监督(SL)、弱监督(WSL)和自监督学习(SSL)方法。尽管SSL较晚出现,但它迅速发展并达到了近年来ImageNet的准确率平台期。另一方面,我们证明了SSL提供了高质量密集特征的独特优势。使用DINOv3,我们在密集任务上显著超越了弱监督模型,如最佳WSL模型与DINOv3的相对性能所示(b)。我们还使用在自然图像(c)和航空图像(d)上训练的DINOv3,从高分辨率图像中生成了特征的PCA图。

在组织病理学(Vorontsov et al., 2024)、生物学(Kim et al., 2025)、医学成像(Pérez-Garcia et al., 2025)、遥感(Cong et al., 2022; Tolan et al., 2024)、天文学(Parker et al., 2024)或高能粒子物理(Dillon et al., 2022)等领域的应用中,这些领域通常缺乏元数据,并且已经证明可以从DINOv2等基础模型中受益。最后,SSL不需要人工干预,非常适合在不断增长的网络数据中进行终身学习。

在实践中,SSL的承诺——即通过利用大量无约束数据生成任意大而强大的模型——在大规模应用中仍然具有挑战性。虽然Oquab等人(2024)提出的启发式方法缓解了模型不稳定和崩溃的问题,但从进一步扩展中会出现更多问题。首先,如何从无标签集合中收集有用数据尚不明确。其次,在通常的训练实践中,使用余弦调度意味着需要预先知道优化范围,这在训练大型图像语料库时很困难。第三,通过视觉检查patch相似性图可以确认,特征的性能在早期训练后逐渐下降。这种现象出现在使用大于ViT-Large规模(300M参数)的模型进行长时间训练时,降低了扩展DINOv2的实用性。

解决上述问题促成了这项工作——DINOv3,它推进了大规模SSL训练。我们证明,单个冻结的SSL骨干网络可以作为通用视觉编码器,在具有挑战性的下游任务上实现最先进的性能,超越监督和依赖元数据的预训练策略。我们的研究由以下目标指导:(1)训练一个跨任务和领域的多功能基础模型;(2)改进现有SSL模型在密集特征方面的不足;(3)传播可直接使用的模型家族。我们将在下文讨论这三个目标。

在这里插入图片描述

图2: DINOv3模型家族与其他自监督或弱监督模型家族在不同基准测试上的性能比较。DINOv3在密集基准测试上显著超越其他模型,包括利用掩码注释先验的模型,如AM-RADIO (Heinrich et al., 2025)

强大而多功能的基础模型   DINOv3旨在在两个方面提供高水平的多功能性,这是通过扩展模型规模和训练数据实现的。首先,SSL模型的一个关键理想特性是在保持冻结状态下实现卓越性能,理想情况下达到与专用模型相似的最先进结果。在这种情况下,单次前向传递可以提供跨多个任务的尖端结果,导致显著的计算节省——这对于实际应用,特别是在边缘设备上,是一个重要优势。我们在第6节中展示了DINOv3可以成功应用于广泛的任务。其次,不依赖元数据的可扩展SSL训练流程解锁了众多科学应用。通过在各种图像上进行预训练,无论是网络图像还是观测数据,SSL模型都能在大量领域和任务中泛化。如图1(d)所示,从高分辨率航空图像中提取的DINOv3特征的PCA清晰地区分了道路、房屋和绿地,突显了模型的特征质量。

通过Gram锚定实现的卓越特征图   DINOv3的另一个关键特性是其密集特征图的显著改进。DINOv3 SSL训练策略旨在生成在高级语义任务上表现出色的模型,同时生成适合解决深度估计或3D匹配等几何任务的优秀特征图。特别是,这些模型应生成可直接使用或只需少量后处理的密集特征。在使用大量图像训练时,密集表示和全局表示之间的权衡特别难以优化,因为高级理解的目标可能与密集特征图的质量相冲突。这些矛盾的目标导致大型模型和长时间训练计划中密集特征的崩溃。我们的新Gram锚定策略有效缓解了这种崩溃(见第4节)。因此,DINOv3获得了比DINOv2显著更好的密集特征图,即使在高分辨率下也能保持清晰(见图3)。

DINOv3模型家族   通过Gram锚定解决密集特征图退化问题,释放了扩展的潜力。因此,使用SSL训练更大规模的模型带来了显著的性能提升。在这项工作中,我们成功训练了一个具有7B7B7B参数的DINO模型。由于如此大规模的模型需要大量资源才能运行,我们应用蒸馏将其知识压缩到更小的变体中。因此,我们提出了DINOv3视觉模型家族,这是一套旨在解决广泛计算机视觉挑战的综合套件。该模型家族旨在通过提供可扩展的解决方案来适应不同的资源约束和部署场景,从而推进最先进技术。蒸馏过程产生了多种规模的模型变体,包括Vision Transformer (ViT) Small、Base和Large,以及基于ConvNeXt的架构。值得注意的是,高效且广泛采用的ViT-L模型在各种任务上实现了接近原始7B7B7B教师模型的性能。总体而言,DINOv3家族在广泛基准测试中表现出色,在全局任务上匹配或超过竞争模型的准确性,同时在密集预测任务上显著超越它们,如图2所示。
在这里插入图片描述

图3: 高分辨率密集特征。我们可视化了使用DINOv3输出特征在标记为红色十字的patch与所有其他patch之间获得的余弦相似度图。输入图像为4096×40964096\times40964096×4096。请放大查看,您同意DINOv3的结果吗?

贡献概述 在这项工作中,我们引入了多项贡献来应对将SSL扩展到大型前沿模型的挑战。我们基于自动数据整理的最新进展(Vo et al., 2024),获取了一个大型"背景"训练数据集,并将其与少量专用数据(ImageNet-1k)进行精心混合。这允许利用大量无约束数据来提高模型性能。这一关于数据扩展的贡献(i)将在第3.1节中描述。

我们通过定义ViT架构的自定义变体,将主模型规模增加到7B7B7B参数。我们包含了现代位置嵌入(axial RoPE)并开发了一种正则化技术来避免位置伪影。与DINOv2中的多个余弦调度不同,我们使用恒定的超参数调度进行1M1M1M次迭代训练。这使得能够生成性能更强的模型。这一关于模型架构和训练的贡献(ii)将在第3.2节中描述。

通过上述技术,我们能够按比例训练遵循DINOv2算法的模型。然而,如前所述,扩展会导致密集特征的退化。为了解决这个问题,我们提出了管道的核心改进——Gram锚定训练阶段。这清除了特征图中的噪声,产生了令人印象深刻的相似度图,并大幅提高了参数化和非参数化密集任务的性能。这一关于Gram训练的贡献(iii)将在第4节中描述。

遵循先前的做法,我们管道的最后步骤包括高分辨率后训练阶段,以及将模型蒸馏成一系列不同规模的高性能模型。对于后者,我们开发了一种新颖的方法,无缝训练多个学生模型,从我们的旗舰7B7B7B模型中生成整个蒸馏模型家族。

我们在对象检测(COCO检测,mAPmAPmAP 66.166.166.1)和图像分割(ADE20k mIoUmIoUmIoU 63.063.063.0)等计算问题上实现了最先进的性能,超越了专门的微调管道。此外,我们在第8节中通过将DINOv3算法应用于卫星图像,提供了我们方法在各领域通用性的证据,超越了所有先前的方法。

二、相关工作

自监督学习   无需标注的自监督学习需要人工设计学习任务来提供训练监督。自监督学习(SSL)的艺术和挑战在于精心设计这些所谓的预训练任务,以便为下游任务学习强大的表示。语言领域由于其离散性质,提供了设置此类任务的直接方法,这导致了许多成功的预训练方法用于文本数据。示例包括词嵌入(Mikolov et al., 2013; Bojanowski et al., 2017)、句子表示(Devlin et al., 2018; Liu et al., 2019),以及纯语言模型(Mikolov et al., 2010; Zaremba et al., 2014)。相比之下,由于信号的连续性质,计算机视觉提出了更大的挑战。早期尝试模仿语言方法,从图像部分提取监督信号来预测其他部分,例如预测相对patch位置(Doersch et al., 2015)、patch重排序(Noroozi and Favaro, 2016; Misra and Maaten, 2020)或图像修复(Patchak et al., 2016)。其他任务包括重新着色图像(Zhang et al., 2016)或预测图像变换(Gidaris et al., 2018)。

在这些任务中,基于图像修复的方法由于基于patch的ViT架构的灵活性而引起了广泛关注(He et al., 2021; Bao et al., 2021; El-Nouby et al., 2021)。该目标是重建图像的损坏区域,可以看作是一种去噪自编码,与BERT预训练中的掩码token预测任务(Devlin et al., 2018)在概念上相关。值得注意的是,He et al. (2021)证明了基于像素的掩码自编码器(MAE)可以用作下游任务微调的强初始化。随后,Baevski et al. (2022; 2023)和Assran et al. (2023)表明,预测学习到的潜在空间而非像素空间可以导致更强大的高级特征,这种学习范式称为JEPA:联合嵌入预测架构’(LeCun, 2022)。最近,JEPAs也被扩展到视频训练(Bardes et al., 2024; Assran et al., 2025)。

第二类工作,与我们的工作更接近,利用图像之间的判别信号来学习视觉表示。这类方法起源于早期的深度学习研究(Hadsell et al., 2006),但随着实例分类技术的引入而流行起来(Dosovitskiy et al., 2016; Bojanowski and Joulin, 2017; Wu et al., 2018)。随后的进展引入了对比目标和信息理论标准(Hénaff et al., 2019; He et al., 2020; Chen and He, 2020; Chen et al., 2020a; Grill et al., 2020; Bardes et al., 2021),以及基于自聚类的策略(Caron et al., 2018; Asano et al., 2020; Caron et al., 2020, 2021)。最近的方法,如iBOT (Zhou et al., 2021),将这些判别损失与掩码重建目标结合起来。所有这些方法都展示了学习强特征并在ImageNet (Russakovsky et al., 2015)等标准基准上取得高性能的能力。然而,大多数方法在扩展到更大模型规模时面临挑战(Chen et al., 2021)。

视觉基础模型   深度学习革命始于AlexNet突破(Krizhevsky et al., 2012),这是一个在ImageNet挑战赛上(Deng et al., 2009; Russakovsky et al., 2015)表现优于所有先前方法的深度卷积神经网络。早在早期,在大型人工标注的ImageNet数据集上端到端学习的特征就被发现对广泛的迁移学习任务高度有效(Oquab et al., 2014)。早期关于视觉基础模型的工作随后集中在架构开发上,包括VGG (Simonyan and Zisserman, 2015)、GoogleNet (Szegedy et al., 2015)和ResNets (He et al., 2016)。

鉴于扩展的有效性,后续工作探索了在大数据集上训练更大的模型。Sun et al. (2017)通过包含3亿标记图像的专有JFT数据集扩展了监督训练数据,取得了令人印象深刻的结果。JFT也为Kolesnikov et al. (2020)带来了显著的性能提升。同时,也探索了使用监督和无监督数据组合进行扩展。例如,ImageNet监督模型可用于为无监督数据生成伪标签,然后用于训练更大的网络(Yalniz et al., 2019)。随后,诸如JFT等大型监督数据集的可用性也促进了Transformer架构在计算机视觉中的应用(Dosovitskiy et al., 2020)。特别是,没有JFT访问权限的情况下达到与原始视觉Transformer (ViT)相当的性能需要大量努力(Touvron et al., 2020, 2022)。由于ViT的学习能力,Zhai et al. (2022a)进一步扩展了扩展工作,最终形成了非常大的ViT-22B编码器(Dehghani et al., 2023)。

鉴于手动标注大型数据集的复杂性,弱监督训练——其中标注是从与图像关联的元数据中派生的——为监督训练提供了一种有效的替代方案。早在Joulin et al. (2016)就证明,网络可以通过简单地预测图像标题中的所有单词作为目标来进行预训练。这一初始方法通过利用句子结构(Li et al., 2017)、结合其他类型的元数据和涉及整理(Mahajan et al., 2018),以及扩展(Singh et al., 2022)得到了进一步改进。然而,弱监督算法只有在引入对比损失和标题表示的联合训练后才达到其全部潜力,如Align (Jia et al., 2021)和CLIP (Radford et al., 2021)所示。

这一非常成功的方法启发了许多开源复现和扩展工作。OpenCLIP (Cherti et al., 2023)是第一个通过在LAION数据集(Schuhmann et al., 2021)上训练来复制CLIP的开源工作;后续工作通过以CLIP风格微调预训练骨干网络来利用它们(Sun et al., 2023, 2024)。认识到数据收集是CLIP训练成功的关键因素,MetaCLIP (Xu et al., 2024)精确遵循原始CLIP流程以重现其结果,而Fang et al. (2024a)使用监督数据集来整理预训练数据。其他工作专注于改进训练损失,例如在SigLIP中使用sigmoid损失(Zhai et al., 2023),或利用预训练的图像编码器(Zhai et al., 2022b)。然而,获得尖端基础模型最关键的要素是丰富的高质量数据和大量的计算资源。在这方面,SigLIP 2 (Tschannen et al., 2025)和感知编码器(PE) (Bolya et al., 2025)在训练超过400亿图像-文本对后取得了令人印象深刻的结果。最大的PE模型在860亿样本上训练,全局批次大小为131K。最后,提出了各种更复杂且原生多模态的方法;这些包括对比字幕(Yu et al., 2022)、潜在空间中的掩码建模(Bao et al., 2021; Wang et al., 2022b; Fang et al., 2023; Wang et al., 2023a)和自回归训练(Fini et al., 2024)。

相比之下,关于扩展无监督图像预训练的工作相对较少。早期努力包括Caron et al. (2019)和Goyal et al. (2019)利用YFCC数据集(Thomee et al., 2016)。通过关注更大的数据集和模型(Goyal et al., 2021, 2022a),以及SSL数据整理的初步尝试(Tian et al., 2021),取得了进一步进展。仔细调整训练算法、更大的架构和更广泛的训练数据导致了fDINOv2 (Oquab et al., 2024)的出色结果;首次,SSL模型在一系列任务上匹配或超过了开源CLIP变体。Fan et al. (2025)通过在没有数据整理的情况下扩展到更大模型,或Venkataramanan et al. (2025)使用开放数据集和改进的训练流程,进一步推动了这一方向。

密集Transformer特征   现代视觉应用的广泛范围消耗了预训练Transformer的密集特征,包括多模态模型(Liu et al., 2023; Beyer et al., 2024)、生成模型(Yu et al., 2025; Yao et al., 2025)、3D理解(Wang et al., 2025)、视频理解(Lin et al., 2023a; Wang et al., 2024b)和机器人技术(Driess et al., 2023; Kim et al., 2024)。除此之外,检测、分割或深度估计等传统视觉任务需要准确的局部描述符。为了增强SSL训练的局部描述符质量,大量工作致力于开发局部SSL损失。示例包括利用视频中的时空一致性,例如使用点跟踪循环作为训练信号(Jabri et al., 2020),利用同一图像不同裁剪之间的空间对齐(Pinheiro et al., 2020; Bardes et al., 2022),或强制相邻patch之间的一致性(Yun et al., 2022)。Darcet et al. (2025)表明,预测聚类的局部patch可以改进密集表示。DetCon (Hénaff et al., 2021)和ORL (Xie et al., 2021)对区域提议执行对比学习,但假设存在此类提议,而ODIN (Hénaff et al., 2022)和SlotCon (Wen et al., 2022)等方法放宽了这一假设。

不改变训练目标,Darcet et al. (2024)表明,在输入序列中添加register tokens可以大大改善密集特征图,最近的工作发现这可以在不进行模型训练的情况下完成(Jiang et al., 2025; Chen et al., 2025)。

最近的趋势是基于蒸馏的"聚合"方法,结合了使用不同级别监督训练的具有不同全局和局部特征质量的多个图像编码器的信息(Ranzinger et al., 2024; Bolya et al., 2025):AM-RADIO (Ranzinger et al., 2024)将全监督SAM (Kirillov et al., 2023)、弱监督CLIP和自监督DINOv2的优势结合到一个统一的骨干网络中。感知编码器(Bolya et al., 2025)类似地将SAM(v2)蒸馏成一个专门的密集变体,称为PEspatial。他们使用一个目标,强制学生和教师patch之间的余弦相似度要高,其中他们的教师是使用掩码注释训练的。类似损失在风格迁移背景下被证明是有效的,通过减少特征维度G cam矩阵之间的一致性(Gatys et al., 2016; Johnson et al., 2016; Yoo et al., 2024)。在本工作中,我们采用Gram目标来正则化学生和教师patch之间的余弦相似度,使它们彼此接近。在我们的情况下,我们使用ISS模型本身的早期迭代作为教师,证明早期阶段的SSL模型有效地指导了全局和密集任务的SSL训练。

其他工作专注于对SSL训练模型的局部特征进行事后改进。例如,Ziegler and Asano (2022)通过密集聚类目标微调预训练模型;类似地,Salehi et al. (2023)通过在时间上对齐patch特征进行微调,这两种方法都提高了局部特征的质量。与我们更接近的是,Pariza et al. (2025)提出了一种基于patch排序的目标,以鼓励学生和教师生成具有相同邻居顺序的特征。无需微调,STEGO (Hamilton et al., 2022)在冻结的SSL特征之上学习非线性投影,以形成紧凑的聚类并放大相关模式。或者,Simoncini et al. (2024)通过将不同自监督目标的梯度连接到冻结的SSL特征来增强自监督特征。最近,Wysoczanska et al. (2024)表明,通过patch的加权平均可以显著改善噪声特征图。

相关但不特定于SSL的一些最近工作从ViT特征图生成高分辨率特征图(Fu et al., 2024),这些特征图由于图像的patch化而通常分辨率较低。与这项工作相比,我们的模型原生提供高质量的密集特征图,这些特征图在不同分辨率下保持稳定和一致,如图4所示。
在这里插入图片描述

图4: DINOv3在非常高分辨率下的表现。我们通过将PCA在特征空间上计算的前三个分量映射到RGB来可视化DINOv3的密集特征。为了使PCA集中在主体上,我们通过背景减除来掩码特征图。随着分辨率的提高,DINOv3产生清晰的特征,保持语义意义。我们在第6.1.1节中可视化了更多的PCA。
# 三、无监督大规模训练

DINOv3是一个下一代模型,旨在通过推动自监督学习的边界,产生迄今为止最强大且灵活的视觉表示。我们从大型语言模型(LLM)的成功中汲取灵感,在LLM中,扩大模型容量会带来出色的涌现特性。通过利用规模大一个数量级的模型和训练数据集,我们寻求释放ISS的全部潜力,并为计算机视觉带来类似的范式转变,不受传统监督或特定任务方法局限性的束缚。特别是,SSL产生丰富、高质量的视觉特征,这些特征不会偏向任何特定的监督或任务,从而为广泛的下游应用提供了多功能的基础。虽然之前尝试扩展SSL模型受到不稳定性问题的阻碍,但本节描述了我们如何通过仔细的数据准备、设计和优化来利用扩展的好处。我们首先描述数据集创建过程(第3.1节),然后介绍用于DINOv3第一训练阶段的自监督SSL配方(第3.2节)。这包括架构、损失函数和优化技术的选择。第二训练阶段,专注于密集特征,将在第4节中描述。

3.1 数据准备

数据扩展是大型基础模型成功的关键因素之一(Touvron et al., 2023; Radford et al., 2021; Xu et al., 2024; Oquab et al., 2024)。然而,简单地增加训练数据的规模并不一定转化为更高的模型质量和下游基准测试的更好性能(Goyal et al., 2021; Oquab et al., 2024; Vo et al., 2024):成功的数据扩展工作通常涉及仔细的数据整理管道。这些算法可能有不同的目标:要么专注于提高数据多样性和平衡性,要么关注数据有用性——即数据对常见实际应用的相关性。对于DINOv3的开发,我们结合了两种互补的方法来提高模型的泛化能力和性能,在两个目标之间取得平衡。

数据收集与整理   我们通过利用从Instagram公共帖子收集的大型网络图像数据池来构建大规模预训练数据集。这些图像已经通过平台级内容审核,以帮助防止有害内容,我们获得了一个约170亿图像的初始数据池。使用这个原始数据池,我们创建了三个数据集部分。我们通过应用Vo et al. (2024)提出的基于分层k-means的自动整理方法构建第一部分。我们使用DINOv2作为图像嵌入,并使用5级聚类,从最低到最高级别的聚类数量分别为2亿、800万、80万、10万和2.5万。在构建聚类层次结构后,应用Vo et al. (2024)提出的平衡采样算法。这产生了一个包含16.89亿图像的整理子集(命名为LVD-1689M),确保了网络中出现的所有视觉概念的平衡覆盖。对于第二部分,我们采用类似于Oquab et al. (2024)提出的基于检索的整理系统。我们从数据池中检索与选定种子数据集中的图像相似的图像,创建一个涵盖与下游任务相关的视觉概念的数据集。对于第三部分,我们使用原始的公开可用计算机视觉数据集,包括ImageNet1k (Deng et al., 2009)、ImageNet22k (Russakovsky et al., 2015)和Mapillary Street-level Sequences (Warburg et al., 2020)。最后一部分使我们能够优化模型性能,遵循Oquab et al. (2024)的方法。

数据采样  在预训练期间,我们使用采样器将不同数据部分混合在一起。混合上述数据组件有几种不同的选项。一种是在每次迭代中使用来自单个随机选择组件的同质批次数据进行训练。或者,我们可以使用从所有组件中选择的、使用特定比例组装的异质批次来优化模型。受Charton and Kempe (2024)的启发,他们观察到拥有由小型数据集中高质量数据组成的同质批次是有益的,我们在每次迭代中随机采样:

表1:通过下游任务性能展示训练数据对特征质量的影响。我们将使用聚类(Vo et al., 2024)和检索(Oquab et al., 2024)整理的数据集与原始数据和我们的数据混合进行比较。此消融研究使用较短的20万次迭代计划进行。

数据集IN1k k-NNIN1k LinearObjectNetiNaturalist 2021Paris Retrieval
Raw80.184.870.370.163.3
Clustering79.485.472.381.385.2
Retrieval84.086.770.786.082.7
LVD-1689M (ours)84.687.272.887.085.9

来自ImageNet1k的同质批次,或由所有其他组件数据混合而成的异质批次。在我们的训练中,来自ImageNet1k的同质批次占训练的10%。

数据消融   为了评估我们的数据整理技术的影响,我们进行了一项消融研究,将我们的数据混合与单独使用聚类或基于检索的方法整理的数据集以及原始数据池进行比较。为此,我们在每个数据集上训练一个模型,并比较它们在标准下游任务上的性能。为了提高效率,我们使用较短的20万次迭代计划而不是100万次迭代。在表1中,可以看出没有单一的整理技术在所有基准测试中表现最佳,而我们的完整管道使我们能够获得两全其美的效果。

3.2 大规模自监督训练

虽然用SSL训练的模型已经展示了有趣的特性(Chen et al., 2020b; Caron et al., 2021),但大多数SSL算法尚未扩展到更大的模型规模。这要么是由于训练稳定性问题(Darcet et al., 2025),要么是过于简单的解决方案无法捕捉视觉世界的全部复杂性。当在大规模上训练时(Goyal et al., 2022a),用SSL训练的模型不一定表现出令人印象深刻的表现。一个显著的例外是DINOv2,这是一个在整理数据上训练的11亿参数模型,其性能与CLIP等弱监督模型(Radford et al., 2021)相匹配。最近将DINOv2扩展到70亿参数的努力(Fan et al., 2025)在全局任务上展示了有希望的结果,但在密集预测上结果令人失望。在这里,我们的目标是扩大模型和数据规模,并获得具有改进的全局和局部属性的更强大的视觉表示。

学习目标 我们使用判别性自监督策略训练模型,该策略是具有全局和局部损失项的几种自监督目标的混合。遵循DINOv2 (Oquab et al., 2024),我们使用图像级目标(Caron et al., 2021) LDINO\mathcal{L}_{\mathrm{DINO}}LDINO,并将其与patch级潜在重建目标(Zhou et al., 2021) LiBOT\mathcal{L}_{\mathrm{iBOT}}LiBOT 平衡。我们还用SwAV (Caron et al., 2020)中的Sinkhorn-Knopp替换了DINO中的中心化方法,应用于两个目标。每个目标使用骨干网络顶部专用头的输出计算,允许在计算损失之前对特征进行一些专业化。此外,我们对局部和全局裁剪的骨干网络输出应用了专用的层归一化。从经验上,我们发现这种变化稳定了训练后期的ImageNet kNN分类(+0.2准确率)并提高了密集性能(+0.2,例如ADE20k分割上+1 mIoU,NYUv2深度估计上-0.02 RMSE)。此外,添加了一个Koleo正则化器 LKoleo\mathcal{L}_{\mathrm{Koleo}}LKoleo,以鼓励批次内的特征在空间中均匀分布(Sablayrolles et al., 2018)。我们使用:

LPre=LDINO+LiBOT+0.1∗LDKoleo\mathcal{L}_{\mathrm{Pre}}=\mathcal{L}_{\mathrm{DINO}}+\mathcal{L}_{\mathrm{iBOT}}+0.1*\mathcal{L}_{\mathrm{DKoleo}}LPre=LDINO+LiBOT+0.1LDKoleo

我们的初始训练阶段通过优化以下损失进行。

更新的模型架构   对于这项工作的模型扩展方面,我们将模型大小增加到70亿参数,并在表2中提供了与DINOv2工作中训练的11亿参数模型相应的超参数比较。我们还采用RoPE的自定义变体:我们的基本实现为每个patch分配归一化的[−1,1][-1,1][1,1]框中的坐标,然后根据两个patch的相对位置在多头注意力操作中应用偏置。为了提高模型对分辨率、比例和纵横比的鲁棒性,我们采用RoPE-box抖动。坐标框[−1,1][-1,1][1,1]被随机缩放到[−s,s][-s,s][s,s],其中s∈[0.5,2]s\in[0.5,2]s[0.5,2]。这些变化共同使DINOv3能够更好地学习详细和鲁棒的视觉特征,提高其性能和可扩展性。

优化  在非常大的数据集上训练大型模型代表了一个复杂的实验工作流程。由于模型容量和训练数据复杂性之间的相互作用很难先验评估,因此不可能猜测正确的优化范围。为了克服这一点,我们摒弃了所有参数调度,使用恒定的学习率、权重衰减和教师EMA动量进行训练。这有两个主要好处。首先,只要下游性能继续改善,我们就可以继续训练。其次,优化超参数的数量减少,使其更容易正确选择它们。为了让训练正常开始,我们仍然对学习率和教师温度使用线性预热。遵循常见做法,我们使用AdamW (Loshchilov and Hutter, 2017),并将总批次大小设置为4096张图像,分布在256个GPU上。我们使用多裁剪策略(Caron et al., 2020),每张图像取2个全局裁剪和8个局部裁剪来训练我们的模型。我们对全局/局部裁剪使用边长为256/112像素的方形图像,这与改变patch大小一起,导致每张图像的有效序列长度与DINOv2相同,每批次总序列长度为370万tokens。其他超参数可以在附录C和代码发布中找到。

表2:比较DINOv2和DINOv3模型中使用的教师架构。我们将模型保持40层深,并将嵌入维度增加到4096。重要的是,我们使用16像素的patch大小,改变给定分辨率的有效序列长度。

教师模型DINOv2DINOv3
骨干网络ViT-giantViT-7B
#参数1.1B6.7B
#块4040
patch大小1416
位置嵌入可学习RoPE
注册44
嵌入维度15364096
FFN类型SwiGLUSwiGLU
FFN隐藏维度40968192
注意力头2432
注意力头维度64128
DINO头MLP4096-4096-2568192-8192-512
DINO原型128k256k
iBOT头MLP4096-4096-2568192-8192-384
iBOT原型128k96k

四、Gram锚定:密集特征的正则化

为了充分利用大规模训练的好处,我们的目标是长时间训练70亿参数模型,认为它可能无限期地训练。正如预期的那样,长时间训练会导致全局基准测试的改进。然而,随着训练的进行,密集任务的性能会下降(图5b和5c)。这种现象是由于特征表示中patch级不一致性的出现,削弱了长时间训练的兴趣。在本节中,我们首先分析patch级一致性的损失,然后提出一种新的目标来缓解它,称为Gram锚定。最后,我们讨论我们的方法对训练稳定性和模型性能的影响。
在这里插入图片描述

4.1 训练过程中patch级一致性的损失

在长时间训练期间,我们观察到全局指标的一致改进,但在密集预测任务上的性能显著下降。这种行为在DINOv2的训练过程中曾被观察到,尽管程度较轻,并在Fan et al. (2025)的扩展努力中也进行了讨论。然而,据我们所知,它至今仍未解决。我们在图5b和5c中说明了这一现象,展示了模型在图像分类和分割任务上的迭代性能。对于分类,我们使用CLS token在ImageNet-1k上训练线性分类器并报告top-1准确率。对于分割,我们在从Pascal VOC提取的patch特征上训练线性层并报告平均交并比(mIoU)。我们观察到,对于ViT-g和ViT-7B,分类准确率在整个训练过程中单调提高。然而,在大约20万次迭代后,两种情况下的分割性能都会下降,在ViT-7B的情况下,分割性能降至早期水平以下。
在这里插入图片描述

为了更好地理解这种退化,我们通过可视化patch之间的余弦相似性来分析patch特征的质量。图6显示了骨干网络输出patch特征与P参考patch(红色突出显示)之间的余弦相似性图。在20万次迭代时,相似性图平滑且定位良好,表明patch级表示一致。然而,在60万次迭代及以后,地图大幅退化,与参考patch具有高相似性的不相关patch数量增加。这种patch级一致性的损失与密集任务性能的下降相关。

这些patch级不规则与Darcet et al. (2024)中描述的高范数patch异常值不同。具体来说,随着register tokens的集成,patch范数在整个训练过程中保持稳定。然而,我们注意到CLS token和patch输出之间的余弦相似性在训练过程中逐渐增加。这是预期的,但它意味着patch特征的局部性减弱。我们在图5a中可视化了这一现象,该图描绘了20万次和100万次迭代时的余弦图。为了缓解密集任务上的下降,我们提出了一种新的目标,专门设计用于正则化patch特征并确保良好的patch级一致性,同时保持较高的全局性能。

4.2 Gram锚定目标

在我们的实验中,我们确定了学习强判别特征和保持局部一致性之间的相对独立性,这在全局和密集性能之间缺乏相关性中得到观察。虽然将全局DINO损失与局部iBOT损失结合起来已经开始解决这个问题,但我们观察到这种平衡是不稳定的,随着训练的进行,全局表示占据主导地位。基于这一见解,我们提出了一种利用这种独立性的新解决方案。

我们引入了一个新的目标,通过强制patch级一致性的质量来缓解patch级一致性的退化,而不影响特征本身。这个新的损失函数作用于Gram矩阵:图像中patch特征的所有成对点积的矩阵。我们希望将学生的Gram矩阵推向早期模型的Gram矩阵,称为Gram教师。我们通过取教师网络的早期迭代来选择Gram教师,该教师表现出优越的密集特性。通过在Gram矩阵上操作而不是特征本身,局部特征可以自由移动,只要相似性结构保持不变。假设我们有一个由P个patch组成的图像,并且一个在维度d上操作的网络。让我们用XS\mathbf{X}_SXS(分别XG\mathbf{X}_GXG)表示学生(分别Gram教师)的L2L2L2归一化局部特征的P×dP\times dP×d矩阵。我们将损失LGram\mathcal{L}_{\mathrm{Gram}}LGram定义如下:

LGram=∥XS⋅XS⊤−XG⋅XG⊤∥F2.\mathcal{L}_{\mathrm{Gram}}=\left\|\mathbf{X}_{S}\cdot\mathbf{X}_{S}^{\top}-\mathbf{X}_{G}\cdot\mathbf{X}_{G}^{\top}\right\|_{\mathrm{F}}^{2}.LGram=XSXSXGXGF2.

我们仅在全局裁剪上计算此损失。尽管可以在训练早期应用它,但为了提高效率,我们只在100万次迭代后开始应用。有趣的是,我们观察到LGram\mathcal{L}_{\mathrm{Gram}}LGram的后期应用仍然能够"修复"非常退化的局部特征。为了进一步提高性能,我们每1万次迭代更新一次Gram教师,此时Gram教师变得与主EMA教师相同。我们将训练的这一第二阶段称为细化阶段,它优化目标LRef\mathcal{L}_{\mathrm{Ref}}LRef,其中:

LRef=wDLDINO+LiBOT+wDKLDKoleo+wGramLGram.\mathcal{L}_{\mathrm{Ref}}=w_{\mathrm{D}}\mathcal{L}_{\mathrm{DINO}}+\mathcal{L}_{\mathrm{iBOT}}+w_{\mathrm{DK}}\mathcal{L}_{\mathrm{DKoleo}}+w_{\mathrm{Gram}}\mathcal{L}_{\mathrm{Gram}}.LRef=wDLDINO+LiBOT+wDKLDKoleo+wGramLGram.

我们在图7中可视化了不同损失的演变,并观察到应用Gram目标显著影响iBOT损失,导致它更快地下降。这表明稳定的Gram教师引入的稳定性对iBOT目标产生积极影响。相比之下,Gram目标对DINO损失没有显著影响。这一观察表明Gram和iBOT目标以类似的方式影响特征,而DINO损失则以不同的方式影响它们。
在这里插入图片描述

关于性能,我们观察到新损失的影响几乎是立竿见影的。如图8所示,结合Gram锚定在最初的1万次迭代内就导致密集任务上的显著改进。我们还看到在Gram教师更新后ADE20k基准测试上的显著增益。此外,更长时间的训练进一步提高了ObjectNet基准测试的性能,其他全局基准测试显示新损失的轻微影响。
在这里插入图片描述

4.3 利用更高分辨率的特征

最近的工作表明,patch特征的加权平均可以通过平滑异常patch并增强patch级一致性来产生更强的局部表示(Wysoczanska et al., 2024)。另一方面,将更高分辨率的图像输入骨干网络会产生更精细、更详细的特征图。我们利用这两种观察的好处来为Gram教师计算高质量特征。具体来说,我们首先将分辨率是正常两倍的图像输入Gram教师,然后使用双三次插值对生成的特征图进行2倍下采样,以获得与学生输出大小匹配的所需平滑特征图。图9a可视化了以256和512分辨率以及512分辨率下采样后(标记为’downsamp.')获得的patch特征的Gram矩阵。我们观察到更高分辨率特征中的优越patch级一致性通过下采样得以保留,从而产生更平滑、更连贯的patch级表示。顺便提一下,由于采用了Su et al. (2024)提出的旋转位置嵌入(RoPE),我们的模型可以无缝处理不同分辨率的图像,无需进行适应。
在这里插入图片描述

我们计算下采样特征的Gram矩阵,并使用它替换目标LGram\mathcal{L}_{\mathrm{Gram}}LGram中的XG\mathbf{X}_GXG。我们将新的结果细化目标记为LHRef\mathcal{L}_{\mathrm{HRef}}LHRef。这种方法使Gram目标能够有效地将平滑高分辨率特征的改进patch一致性蒸馏到学生模型中。如图8和图9b所示,这种蒸馏转化为密集任务上的更好预测,在LRef\mathcal{L}_{\mathrm{Ref}}LRef带来的好处之上获得额外增益(ADE20k上+222 mIoU)。我们还在图9b中对Gram教师的选择进行了消融。有趣的是,选择10万或20万次迭代的Gram教师对结果没有显著影响,但使用更晚的Gram教师(100万次迭代)是有害的,因为该教师的patch级一致性较差。

最后,我们在图10中定性地说明了Gram锚定对patch级一致性的影响,该图可视化了初始训练和高分辨率Gram锚定细化后获得的patch特征的Gram矩阵。我们观察到特征相关性的巨大改进,这是我们的高分辨率细化过程带来的。

表:Gram教师和分辨率的消融

方法教师迭代次数分辨率IN1k线性ADE mIoUNYU RMSE
基线88.250.30.307
GRAM200k×188.053.60.285
GRAM200k×288.055.70.281
GRAM100k×287.955.70.284
GRAM1M×288.154.90.290

在这里插入图片描述

图10:Gram锚定的定性效果。我们可视化了使用细化目标LHRef\mathcal{L}_{\mathrm{HRef}}LHRef前后的余弦图。图像的输入分辨率为1024×10241024\times10241024×1024像素。

五、后训练阶段

本节介绍了后训练阶段。这包括使模型能够在不同输入分辨率下有效推断的高分辨率适应阶段(第5.1节)、产生高质量高效小型模型的模型蒸馏(第5.2节),以及为DINOv3添加零样本能力的文本对齐(第5.3节)。

5.1 分辨率缩放

我们在相对较小的256分辨率下训练模型,这在速度和效果之间提供了良好的权衡。对于16像素的patch大小,此设置导致与DINOv2相同的输入序列长度,而DINOv2是使用224分辨率和14像素patch大小训练的。然而,许多现代计算机视觉应用需要处理显著更高分辨率的图像,通常为512×512512\times512512×512像素或更大,以捕获复杂的空间信息。推断图像分辨率在实践中也不是固定的,而是根据特定用例而变化。为了解决这个问题,我们通过高分辨率适应步骤扩展了我们的训练方案(Touvron et al., 2019)。为确保在各种分辨率下都有高性能,我们使用混合分辨率,在每个小批次中采样不同大小的全局和局部裁剪对。具体来说,我们考虑全局裁剪大小为{512,768}\{512,768\}{512,768},局部裁剪大小为{112,168,224,336}\{112,168,224,336\}{112,168,224,336},并额外训练10k10k10k次迭代。

与主要训练类似,此高分辨率适应阶段的一个关键组成部分是添加Gram锚定,使用7B教师作为Gram教师。我们发现此组件至关重要:没有它,模型在密集预测任务上的性能会显著下降。Gram锚定鼓励模型在空间位置之间保持一致和稳健的特征相关性,这在处理高分辨率输入的增加复杂性时至关重要。

从经验上看,我们观察到这种相对简短但有针对性的高分辨率步骤显著提高了模型的整体质量,并使其能够泛化到各种输入尺寸,如图4所示。在图11中,我们比较了7B模型在适应前(“Pre-HR”)和适应后(“Post-HR”)的结果。我们发现分辨率缩放在ImageNet分类(a)上带来了小幅提升,且相对于分辨率性能相对稳定。然而,在ObjectNet OOD迁移(b)中,我们观察到较低分辨率的性能略有下降,而较高分辨率的性能有所提升。这在很大程度上被高分辨率下局部特征质量的提高所补偿,如ADE20k(c)上的分割和DAVIS(d)上的跟踪所显示的积极趋势。适应导致局部特征随图像尺寸的增大而改善,利用更大分辨率下可用的更丰富空间信息,有效实现高分辨率推断。有趣的是,适应后的模型支持远超最大训练分辨率768的分辨率,我们在图4中直观地观察到在4k4k4k以上分辨率的稳定特征图。
在这里插入图片描述

图11: 高分辨率适应的效果。在(a) ImageNet线性分类、(b) ObjectNet的OOD应用、(c) ADE20k线性语义分割和(d) DAVIS在不同评估分辨率上的分割跟踪任务中,适应前("Pre-HR")和适应后("Post-HR")的比较。

5.2 模型蒸馏

适用于多种用例的模型家族 我们将ViT-7B模型蒸馏成更小的Vision Transformer变体(ViT-S、ViT-B和ViT-L),这些变体因其改进的可管理性和效率而受到社区的高度评价。我们的蒸馏方法使用与第一训练阶段相同的训练目标,确保学习信号的一致性。然而,我们不依赖于模型权重的指数移动平均(EMA),而是直接使用7B模型作为教师来指导较小的学生模型。在这种情况下,教师模型是固定的。我们没有观察到patch级一致性问题,因此不应用Gram锚定技术。这种策略使蒸馏模型能够继承大型教师的丰富表示能力,同时更适用于部署和实验。

我们的ViT-7B模型被蒸馏成一系列覆盖广泛计算预算的ViT模型,允许与并发模型进行适当比较。它们包括标准ViT-S(2100万参数)、ViT-B(8600万)、ViT-L(0.3B),以及自定义的ViT-S+(2900万)和ViT-H+(0.8B)模型,以缩小与自蒸馏7B教师模型之间的性能差距。事实上,我们在DINOv2中观察到,较小的学生模型可以通过蒸馏达到与其教师相当的性能。因此,蒸馏模型以推理计算的一小部分提供前沿级别的性能,如表14所示。我们训练模型1M1M1M次迭代,然后按照余弦调度进行250k250k250k次迭代的学习率冷却,再应用上文第5.1节中描述的高分辨率阶段(不使用Gram锚定)。

高效多学生蒸馏   由于大型教师的推理成本可能比学生高出几个数量级(见图16a),我们设计了一个并行蒸馏管道,允许同时训练多个学生,并在训练所涉及的所有节点之间共享教师推理(图12为示意图)。设CTC_TCTCSC_SCS分别为在单个样本上运行教师推理和学生训练的成本,在单教师/单学生蒸馏中,批量大小为BBB,其中NNN个GPU中的每个处理数据的B/NB/NB/N切片,教师推理成本为B/N×CTB/N\times C_TB/N×CT,学生训练成本为B/N×CSB/N\times C_SB/N×CS每GPU。在多学生蒸馏中,我们按如下方式进行。每个学生SiS_iSi被分配一组NSiN_{S_i}NSi GPU用于训练,所有NT=∑NSiN_T=\sum N_{S_i}NT=NSi GPU都是全局推理组的一部分。在每次迭代中,我们首先在全局组上运行教师推理,每GPU计算成本为B/NT×CTB/N_T\times C_TB/NT×CT。然后,我们运行all-gather集体操作,与所有计算节点共享输入数据和推理结果。最后,每个学生组分别执行学生训练,成本为B/NSi×CSiB/N_{S_i}\times C_{S_i}B/NSi×CSi

上述计算表明,向蒸馏管道添加额外的学生将(1)(1)(1)降低每次迭代的每GPU计算量,从而整体提高蒸馏速度,(2)(2)(2)仅通过新学生的训练成本增加总计算量,因为总教师推理成本现在是固定的。该实现只需要仔细设置GPU进程组,调整数据加载器和教师推理,以确保输入和输出使用NCCL集体操作在组之间同步。由于组在每次迭代中同步,为了最大化速度,我们调整每个学生的GPU数量,使其迭代时间大致相同。通过此过程,我们无缝训练多个学生,并从我们的旗舰7B模型生成一整套蒸馏模型。
在这里插入图片描述

图12: 多学生蒸馏流程。在此图中,我们并行蒸馏3个学生:首先在所有$T$个节点上共享教师推理以节省计算,并在所有GPU上收集输入和结果。然后,较小的组执行学生训练。我们调整这些组的大小,使训练步骤在所有学生$S_i$上具有相同的持续时间,最小化在同步屏障处等待的空闲时间。

5.3 将DINOv3与文本对齐

开放词汇图像-文本对齐已受到研究社区的广泛关注和热情,这得益于其在实现灵活和可扩展的多模态理解方面的潜力。大量工作集中在改进CLIP(Radford et al., 2021)的质量,CLIP最初仅学习了图像和文本表示之间的全局对齐。虽然CLIP展示了令人印象深刻的零样本能力,但其对全局特征的关注限制了其捕获细粒度、局部对应关系的能力。最近的研究(Zhai et al., 2022b)表明,可以使用预训练的自监督视觉骨干网络实现有效的图像-文本对齐。这使得在多模态环境中利用这些强大模型成为可能,促进超越全局语义的更丰富和更精确的文本到图像关联,同时由于视觉编码已经学习,也降低了计算成本。

我们通过采用Jose et al. (2025)先前提出的训练策略,将文本编码器与我们的DINOv3模型对齐。该方法遵循LiT训练范式(Zhai et al., 2022b),从头训练文本表示,以通过对比目标将图像与其标题匹配,同时保持视觉编码器冻结。为了在视觉方面提供一些灵活性,在冻结的视觉骨干网络之上引入了两个Transformer层。该方法的一个关键增强是在匹配到文本嵌入之前,将平均池化的patch嵌入与输出CLS token连接起来。这使得能够将全局和局部视觉特征与文本对齐,从而在不需额外启发式方法或技巧的情况下,提高密集预测任务的性能。此外,我们使用与Jose et al. (2025)中建立的相同数据整理协议,以确保一致性和可比性。

六、结果

在本节中,我们评估旗舰DINOv3 7B模型在各种计算机视觉任务上的表现。在我们的实验中,除非另有说明,我们保持DINOv3冻结状态并仅使用其表示。我们证明,使用DINOv3,无需微调即可获得强大的性能。本节组织如下:首先,我们使用轻量级评估协议探测DINOv3的密集特征(第6.1节)和全局图像表示(第6.2节),并与最强大的可用视觉编码器进行比较。我们证明DINOv3学习了卓越的密集特征,同时提供了稳健且多功能的全局图像表示。然后,我们考虑将DINOv3作为开发更复杂的计算机视觉系统(第6.3节)的基础。我们展示了在DINOv3基础上只需少量努力,就能在目标检测、语义分割、3D视图估计或相对单目深度估计等多样化任务上取得与最先进水平相当甚至超越的结果。

6.1 DINOv3提供卓越的密集特征

我们首先使用多种轻量级评估方法探究DINOv3密集表示的原始质量。在所有情况下,我们利用最后一层的冻结patch特征,并通过以下方式评估:(1)定性可视化(第6.1.1节);(2)密集线性探测(第6.1.2节:分割、深度估计);(3)非参数方法(第6.1.3节:3D对应估计,第6.1.4节:对象发现,第6.1.5节:跟踪);以及(4)轻量级注意力探测(第6.1.6节:视频分类)。

基线  我们将DINOv3的密集特征与最强大的公开可用图像编码器(包括弱监督和自监督的)进行比较。我们考虑使用CLIP风格的图像-文本对比学习的弱监督编码器:感知编码器(PE) Core (Bolya et al., 2025)和SigLIP 2 (Tschannen et al., 2025)。我们还将与最强大的自监督方法进行比较:DINOv3的前身DINOv2 (Oquab et al., 2024)(含register tokens)(Darcet et al., 2024)、Web-DINO (Fan et al., 2025)(DINO的近期扩展努力)以及Franca (Venkataramanan et al., 2025)(最佳开源数据ISS模型)。最后,与聚合模型AM-RADIOv2.5 (Heinrich et al., 2025)(从DINOv2、CLIP (Radford et al., 2021)、DFN (Fang et al., 2024a)和Segment Anything (SAM) (Kirillov et al., 2023)蒸馏而来)以及PEspatial(将SAM 2 (Ravi et al., 2025)蒸馏到PEcore中)进行比较。对于每个基线,我们报告可用的最强模型性能,并在表格中指定架构。

6.1.1 定性分析

我们首先定性地分析DINOv3的密集特征图。为此,我们使用主成分分析(PCA)将密集特征空间投影到3维,并将生成的3D空间映射到RGB。由于PCA中的符号模糊性(八种变体)以及主成分与颜色之间的任意映射(六种变体),我们探索所有组合并报告视觉上最具说服力的一个。结果可视化如图13所示。与其他视觉骨干网络相比,可以看出DINOv3的特征更加清晰,包含的噪声更少,并显示出优越的语义一致性。
在这里插入图片描述

图13: 密集特征比较。我们通过使用PCA投影其密集输出并将其映射到RGB来比较几种视觉骨干网络。从左到右:SigLIP 2 ViT-g/16、PEspatial ViT-G/14、含register tokens的DINOv2 ViT-g/14、DINOv3 ViT-7B/16。对于使用patch 16的模型,图像以1280×960分辨率转发;对于patch 14,图像以1120×840分辨率转发,即所有特征图大小为80×60。

6.1.2 密集线性探测

我们对两个任务的密集特征进行线性探测:语义分割和单目深度估计。在这两种情况下,我们在DINOv3的冻结patch输出之上训练线性变换。对于语义分割,我们在ADE20k (Zhou et al., 2017)、Cityscapes (Cordts et al., 2016)和PASCAL VOC 2012 (Everingham et al., 2012)数据集上进行评估,并报告平均交并比(mIoU)指标。对于深度估计,我们使用NYUv2 (Silberman et al., 2012)和KITTI (Geiger et al., 2013)数据集,并报告均方根误差(RMSE)。

表3:使用冻结骨干网络进行语义分割和单目深度估计的密集线性探测结果。我们报告ADE20k、Cityscapes和VOC分割基准的平均交并比(mIoU)指标。我们报告NYUv2和KITTI深度基准的均方根误差(RMSE)指标。对于分割,所有模型都在适应1024个patch tokens的输入分辨率下进行评估(即patch大小为14时为448×448,patch大小为16时为512×512)。

方法 ViT分割 ADE20k分割 Citysc.分割 VOC深度 NYUv2 ↓深度 KITTI ↓
聚合骨干网络
AM-RADIOv2.5g/1449.373.282.70.362
PEspatialG/1442.768.376.10.466
弱监督骨干网络
SigLIP 2g/1664.872.785.40.340
PEcoreG/1438.961.169.20.590
自监督骨干网络
Francag/1446.382.983.10.445
DINOv2g/1449.583.186.60.309
Web-DINO7B/1442.768.376.10.466
DINOv37B/1655.981.186.60.309

结果(表3)  分割结果展示了我们密集特征的卓越质量。在通用ADE20k数据集上,DINOv3比自监督基线高出6 mIoU以上,比弱监督基线高出13分以上。此外,DINOv3比PEspatial高出6分以上,比AM-RADIOv2.5高出近3分。这些结果令人瞩目,因为两者都是强大的基线,是从严重监督的分割模型SAM (Kirillov et al., 2023)蒸馏而来的。在自动驾驶基准Cityscapes上也观察到类似结果,DINOv3达到了81.1的最高mIoU,比AM-RADIOv2.5高出2.5分,比所有其他骨干网络至少高出5.5分。

在单目深度估计方面,DINOv3再次以显著优势超越所有其他模型:弱监督模型PEcore和SigLIP 2仍然落后,DINOv2和从SAM派生的更先进模型是最接近的竞争对手。有趣的是,虽然PEspatial和AM-RADIO在NYU上表现强劲,但它们在KITTI上的性能低于DINOv2。即使在那里,DINOv3也比其前身DINOv2提高了0.278 RMSE。

这两组评估显示了DINOv3密集特征的卓越表示能力,并反映了图13的视觉结果。仅使用线性预测器,DINOv3就能稳健地预测对象类别和掩码,以及场景的物理测量(如相对深度)。这些结果表明,特征不仅视觉上清晰且正确定位,而且以线性可分离的方式表示底层观测的许多重要属性。最后,在ADE20k上使用线性分类器获得的绝对性能(55.9 mIoU)本身令人印象深刻,因为它离该数据集的最先进水平(63.0 mIoU)并不遥远。

6.1.3 3D对应估计

理解3D世界一直是计算机视觉的重要目标。图像基础模型通过提供3D感知特征,最近推动了3D理解研究。在本节中,我们评估DINOv3的多视图一致性——即,对象在不同视图中同一关键点的patch特征是否相似——遵循Probe3D (Banani et al., 2024)定义的协议。我们区分几何对应估计和语义对应估计。前者指匹配同一对象实例的关键点,而后者指匹配同一对象类别的不同实例的关键点。我们在NAVI数据集(Jampani et al., 2023)上评估几何对应,在SPair数据集(Min et al., 2019)上评估语义对应,并在两种情况下使用对应召回率来衡量性能。更多实验细节请参见附录D.3。

表4:密集表示的3D一致性评估。我们按照Probe3D (Banani et al., 2024)的评估协议估计跨视图的关键点对应关系。为了衡量性能,我们报告对应召回率,即落在指定距离内的对应百分比。

方法 ViT几何 NAVI语义 SPair
聚合骨干网络
AM-RADIOv2.5g/1459.4
PEspatialG/1453.8
弱监督骨干网络
SigLIP 2g/1649.4
PEcoreG/1439.9
自监督骨干网络
Francag/1454.6
DINOv2g/1460.1
Web-DINO7B/1455.0
DINOv37B/1664.4

结果(表4)  对于几何对应,DINOv3优于所有其他模型,比第二好的模型(DINOv2)提高了4.3%的召回率。其他SSL扩展努力(Franca和WebSSL)落后于DINOv2,表明它仍然是一个强大的基线。弱监督模型(PEcore和AM-RADIO)几乎达到DINOv2的性能,但PEspatial仍然落后(-11.6%召回率),甚至落后于Franca(-0.8%召回率)。这表明自监督学习是该任务取得强劲表现的关键组成部分。对于语义对应,同样的结论适用。DINOv3表现最佳,优于其前身(+2.6%召回率)和AM-RADIO(+1.9%召回率)。总体而言,这些在关键点匹配上的出色表现对DINOv3在其他3D密集应用中的下游使用是非常有希望的信号。

6.1.4 无监督对象发现

强大的自监督特征有助于在无需任何标注的情况下发现图像中的对象实例(Vo et al., 2021; Siméoni et al., 2021; Seitzer et al., 2023; Wang et al., 2023c; Siméoni et al., 2025)。我们通过无监督对象发现任务测试不同视觉编码器的这一能力,该任务需要对图像中的对象进行类别无关的分割(Russell et al., 2006; Tuytelaars et al., 2010; Cho et al., 2015; Vo et al., 2019)。特别是,我们使用基于非参数图的TokenCut算法(Wang et al., 2023c),该算法在各种骨干网络上表现出色。我们在三个广泛使用的数据集上运行它:VOC 2007、VOC 2012 (Everingham et al., 2015)和COCO-20k (Lin et al., 2014; Vo et al., 2020)。我们遵循Siméoni et al. (2021)定义的评估协议,并报告CorLoc指标。为了正确比较具有不同特征分布的骨干网络,我们对TokenCut的主要超参数(即在构建用于分区的patch图时应用的余弦相似度阈值)进行搜索。最初,使用DINO (Caron et al., 2021)时,通过使用最后一层注意力的键获得了最佳对象发现结果。然而,这种手工选择并不能一致地推广到其他骨干网络。为简化起见,我们对所有模型始终使用输出特征。

结果(图14)  原始DINO为这项任务设定了非常高的标准。有趣的是,虽然DINOv2在像素级密集任务上表现出色,但在对象发现上却失败了。这部分可归因于密集特征中存在的伪影(参见图13)。DINOv3凭借其干净精确的输出特征图,优于其两个前身,在VOC 2007上提高了5.9 CorLoc,并优于所有其他骨干网络,无论是自监督、弱监督还是聚合的。这一评估证实了DINOv3的密集特征既具有语义强度又定位良好。我们相信这将为更多类别无关的对象检测方法铺平道路,特别是在标注成本高或不可用,且相关类别集不限于预定义子集的场景中。

方法ViTVOC07VOC12COCO
聚合骨干网络
AM-RADIOv2.5g/1455.059.745.9
PEspatialG/1451.256.043.9
弱监督骨干网络
SigLIPv2g/1620.524.718.6
PEcoreG/1414.218.213.5
自监督骨干网络
DINOS/1661.166.048.7
DINOB/1660.164.450.5
DINOv2g/1455.660.445.4
Web-DINO7B/1426.129.720.9
DINOv37B/1666.169.555.1
在这里插入图片描述
图14: 无监督对象发现。我们在不同骨干网络的输出patch特征上应用TokenCut (Wang et al., 2022c),并报告CorLoc指标。我们还可视化了使用DINOv3获得的预测掩码(在分辨率1024的输入图像上以红色叠加),这些掩码无需标注且无需后处理。

6.1.5 视频分割跟踪

除了静态图像外,视觉表示的一个重要属性是其时间一致性,即特征是否随时间稳定演变。为了测试这一属性,我们在视频分割跟踪任务上评估DINOv3:给定视频第一帧中的真实实例分割掩码,目标是将这些掩码传播到后续帧。我们使用DAVIS 2017 (Pont-Tuset et al., 2017)、YouTube-VOS (Xu et al., 2018)和MOSE (Ding et al., 2023)数据集。我们使用标准的J&F-mean指标评估性能,该指标结合了区域相似性(J)和轮廓准确性(F) (Perazzi et al., 2016)。按照Jabri et al. (2020),我们使用非参数标签传播算法,该算法考虑帧之间patch特征的相似性。我们在三种输入分辨率下进行评估,对patch大小为14/16的模型使用短边长度420/480(S)、840/960(M)和1260/1440(L)像素(匹配patch tokens的数量)。J&F分数始终在视频的原生分辨率下计算。更多详细实验设置请参见附录D.5。

表5:视频分割跟踪评估。我们报告在DAVIS、YouTube-VOS和MOSE上多分辨率的J&F-mean。对于patch大小为14/16的模型,小、中、大分辨率分别对应视频短边为420/480、840/960、1260/1140像素。

DAVISDAVISDAVISYouTube-VOSYouTube-VOSYouTube-VOSMOSEMOSEMOSE
方法 ViTSMLSMLSML
聚合骨干网络
AM-RADIOv2.5g/1454.368.474.570.568.567.555.639.3
PEspatialG/1434.066.577.381.470.178.179.244.0
弱监督骨干网络
SigLIP 2g/1656.152.057.3
PEcoreG/1448.262.353.155.130.3
自监督骨干网络
Francag/1461.866.966.567.370.567.940.342.6
DINOv2g/1463.973.676.665.673.567.940.442.6
Web-DINO7B/1457.265.869.543.949.650.924.929.9
DINOv37B/1671.179.783.374.180.280.746.053.9

结果(表5) 与之前所有结果一致,弱监督骨干网络未能提供令人信服的性能。PEspatial(从视频模型SAMv2蒸馏而来)提供了令人满意的性能,在较小分辨率上超越DINOv2,但在较大分辨率上表现不佳。在各种分辨率下,DINOv3都优于所有竞争对手,在DAVIS-L上达到惊人的83.3 J&F,比DINOv2高出6.7分。此外,性能随分辨率的变化呈现健康趋势,证实我们的模型能够利用更多输入像素输出精确的高分辨率特征图(参见图3和图4)。相比之下,SigLIP 2和PEcore在更高分辨率下的性能几乎保持不变,而PEspatial的性能则下降。有趣的是,我们的图像模型无需对视频进行任何调整,就能在时间上正确跟踪对象(参见图15)。这使其成为嵌入视频的理想候选者,允许在其上构建强大的视频模型。

在这里插入图片描述

图15: 分割跟踪示例。给定初始帧的真实实例分割掩码,我们根据DINOv3特征空间中patch的相似性将实例标签传播到后续帧。输入分辨率为$2048\times1536$像素,产生128×96个patches。

6.1.6 视频分类

先前的结果展示了DINOv3表示的低级时间一致性,使其能够在时间上准确跟踪对象。更进一步,我们在本节评估其密集特征用于高级视频分类的适用性。类似于V-JEPA 2 (Assran et al., 2025)的设置,我们在从每帧提取的patch特征之上训练一个注意力探测器——一个浅层4层基于Transformer的分类器。这使得能够对时间和空间维度进行推理,因为特征是每帧独立提取的。在评估期间,我们要么每视频取一个片段,要么通过平均来自多个片段的预测概率应用测试时增强(TTA)。更多实验细节请参见附录D.6。我们在三个数据集上进行此评估:UCF101 (Soomro et al., 2012)、Something-Something V2 (Goyal et al., 2017)和Kinetics-400 (Kay et al., 2017),并报告top-1准确率。作为额外基线,我们报告V-JEPA v2的性能,这是视频理解的最先进的SSL模型。

表6:使用注意力探测器进行视频分类评估。我们报告在UCF101、Something-Something V2 (SSv2)和Kinetics-400 (K400)上的top-1准确率。对于每个模型,我们报告每视频评估单个片段或应用测试时增强(TTA)的性能。

在这里插入图片描述

结果(表6) 与先前实验的结论一致,我们发现DINOv3可以成功用于提取强大的视频特征。由于此评估涉及训练几层自注意力,模型之间的差异不太明显。然而,DINOv3与PEcore和SigLIP 2处于同一水平,并在所有数据集上明显优于其他模型(DINOv2、AM-RADIO)。UCF101和K400注重外观,其中对象的强类别级理解提供了大部分性能。另一方面,SSv2需要更好地理解运动——专用视频模型V-JEPA v2在此数据集上表现出色。有趣的是,DINOv3与弱监督模型之间的差距在此数据集上略大。这再次证实了DINOv3对视频任务的适用性。

6.2 DINOv3具有稳健和多功能的全局图像描述符

在本节中,我们评估DINOv3捕获全局图像统计信息的能力。为此,我们考虑使用线性探测的经典分类基准(第6.2.1节)和实例检索基准(第6.2.2节)。同样,我们将与最强大的公开可用图像编码器进行比较。除了前一节中的模型外,我们还评估了两个弱监督模型AIMv2 (Fini et al., 2024),该模型使用联合自回归像素和文本预测进行训练,以及大规模EVA-CLIP-18B (Sun et al., 2024)。

6.2.1 使用线性探测的图像分类

我们在DINOv3的输出CLS token之上训练线性分类器,以评估模型在分类基准上的表现。我们考虑ImageNet1k (Deng et al., 2009)数据集及其变体来评估分布外鲁棒性,并考虑来自不同领域的数据集套件,以了解DINOv3区分细粒度类别的能力。评估细节请参见附录D.7。

ImageNet的领域泛化(表7)在本实验中,我们在ImageNet-train上进行训练,使用ImageNet-val作为验证集来选择超参数,并将找到的最佳分类器转移到不同的测试数据集:ImageNet-V2 (Recht et al., 2019)和ReaL (Beyer et al., 2020)是ImageNet的替代图像和标签集,用于测试对ImageNet验证集的过拟合;Rendition (Hendrycks et al., 2021a)和Sketch (Wang et al., 2019)展示了ImageNet类别的风格化和人工版本;Adversarial (Hendrycks et al., 2021b)和ObjectNet (Barbu et al., 2019)包含特意选择的困难样本;Corruptions (Hendrycks and Dietterich, 2019)衡量对常见图像损坏的鲁棒性。作为参考,我们还列出了Dehghani et al. (2023)使用在大规模JFT数据集(30-40亿图像)上训练的监督分类ViT获得的线性探测结果。请注意,这些结果遵循略有不同的评估协议,与我们的结果不可直接比较。

DINOv3显著超越了之前所有的自监督骨干网络,在ImageNet-R上提高了+10%,在-Sketch上提高了+6%,在ObjectNet上比之前最强的SSL模型DINOv2提高了+13%。我们注意到,在ImageNet-A和ObjectNet等困难的分布外任务上,最强的弱监督模型SigLIP 2和PE现在比最强的监督模型(ViT-22B)表现更好。DINOv3在ImageNet-R和-Sketch上达到了可比较的结果,在困难任务ImageNet-A和ObjectNet上,它紧随PE之后,同时超过了SigLIPv2。在ImageNet上,虽然验证分数比SigLIPv2和PE低0.7-0.9分,但在"更干净"的测试集-V2和-ReaL上的性能几乎相同。值得注意的是,DINOv3在损坏鲁棒性(ImageNet-C)方面表现最佳。总的来说,这是首次SSL模型达到了与弱监督和监督模型在图像分类上可比的结果——这一领域曾是(弱)监督训练方法的强项。考虑到像ViT-22B、SigLIP 2和PE这样的模型是使用大量人工标注数据集训练的,这是一个显著的结果。相比之下,DINOv3纯粹从图像中学习,这使得在未来进一步扩展/改进该方法成为可能。

表7:在ImageNet1k上训练的线性探测器的分类准确率,使用冻结的骨干网络。弱监督和自监督模型在适应1024个patch tokens的图像分辨率下进行评估(即patch大小为14时为448×448,patch大小为16时为512×512)。作为参考,我们还列出了Dehghani et al. (2023)使用不同评估协议的结果(用*标记)

在这里插入图片描述

表8:细粒度分类基准。Fine-S是对12个数据集的平均值,完整结果请参见表22。

在这里插入图片描述

细粒度分类(表8)  我们还测量了DINOv3在多个数据集上训练线性探测器进行细粒度分类时的性能。特别是,我们报告了3个大型数据集上的准确率,即用于场景识别的Places205 (Zhou et al., 2014),以及用于详细植物和动物物种识别的iNaturalist 2018 (Van Horn et al., 2018)和iNaturalist 2021 (Van Horn et al., 2021),还有覆盖场景、对象和纹理的12个较小数据集的平均结果(如Oquab et al. (2024)中所述,此处称为Fine-S)。有关这些数据集上的单独结果,请参见表22。

我们发现,DINOv3再次超越了之前所有的SSL方法。与弱监督方法相比,它也显示出具有竞争力的结果,表明其在各种细粒度分类任务中具有鲁棒性和泛化能力。值得注意的是,DINOv3在困难的iNaturalist21数据集上达到了89.8%的最高准确率,甚至超过了最佳弱监督模型PEcore的87.0%。

6.2.2 实例识别

为了评估我们模型的实例级识别能力,我们采用了非参数检索方法。在这里,使用输出CLS token,通过查询图像与其之间的余弦相似度对数据库图像进行排序。我们在几个数据集上评估性能:用于地标识别的Oxford和Paris数据集(Radenovic et al., 2018),包含来自大都会博物馆的艺术作品的Met数据集(Ypsilantis et al., 2021),以及由现代街景图像与阿姆斯特丹历史档案图像匹配组成的AmsterTime (Yildiz et al., 2022)。使用Oxford、Paris和AmsterTime的平均精度以及Met的全局平均精度来量化检索效果。更多评估细节请参见附录D.8。

结果(表9和23)在所有评估的基准上,DINOv3都以很大优势取得了最强的性能,例如在Met上比第二好的模型DINOv2提高了+10.8分,在AmsterTime上提高了+7.6分。在此基准上,弱监督模型远远落后于DINOv3,AM-RADIO除外,它是从DINOv2特征蒸馏而来的。这些发现突显了DINOv3在实例级检索任务中的鲁棒性和多功能性,涵盖了传统地标数据集和更具挑战性的领域,如艺术和历史图像检索。

表9:实例识别基准。更多指标请参见表23。

在这里插入图片描述

6.3、DINOv3是复杂计算机视觉系统的基础

前两节已经为DINOv3在密集任务和全局任务中的质量提供了坚实的信号。然而,这些结果是在"模型探测"实验协议下获得的,使用轻量级线性适配器甚至非参数算法来评估特征质量。虽然这种简单的评估允许从复杂的实验协议中去除混杂因素,但不足以评估DINOv3作为更大计算机视觉系统基础组件的全部潜力。因此,在本节中,我们摆脱轻量级协议,转而训练更复杂的下游解码器,并考虑更强的、特定任务的基线。具体来说,我们将DINOv3用作以下任务的基础:(1)使用Plain-DETR进行目标检测(第6.3.1节);(2)使用Mask2Former进行语义分割(第6.3.2节);(3)使用Depth Anything进行单目深度估计(第6.3.3节);以及(4)使用视觉几何基础Transformer进行3D理解(第6.3.4节)。这些任务仅旨在探索DINOv3可能实现的功能。尽管如此,我们发现基于DINOv3构建的模型在各种任务上都表现出色。

6.3.1 目标检测

作为第一个任务,我们解决了计算机视觉中长期存在的目标检测问题。给定一张图像,目标是为预定义类别的所有对象实例提供边界框。此任务需要精确的定位和良好的识别能力,因为边界框需要匹配对象边界并对应正确的类别。虽然在COCO (Lin et al., 2014)等标准基准上的性能已基本饱和,但我们提出使用冻结的骨干网络来解决此任务,仅在顶部训练一个小解码器。

数据集和指标 我们使用COCO数据集 (Lin et al., 2014) 评估DINOv3的目标检测能力,在COCO-VAL2017分割上报告结果。此外,我们在COCO-O评估数据集 (Mao et al., 2023) 上评估分布外性能。该数据集包含相同的类别,但在六种分布偏移设置下提供输入图像。对于两个数据集,我们报告IoU阈值在[0.5:0.05:0.95][0.5:0.05:0.95][0.5:0.05:0.95]范围内的平均精度(mAP)。对于COCO-O,我们还报告有效鲁棒性(ER)。由于COCO是一个小型数据集,仅包含118k训练图像,我们利用更大的Objects365数据集 (Shao et al., 2019) 对解码器进行预训练,这是常见做法。

表10:与最先进系统在目标检测上的比较。我们在冻结的DINOv3骨干网络之上训练检测适配器。我们在COCO和COCO-O数据集的验证集上显示结果,并报告跨IoU阈值的mAP以及有效鲁棒性(ER)。基于DINOv3的检测系统建立了新的最先进技术。由于InternImage-G检测模型尚未发布,我们无法重现其结果或计算COCO-O分数。

在这里插入图片描述

实现  我们基于Plain-DETR (Lin et al., 2023b)构建,但进行了以下修改:我们不将Transformer编码器融合到骨干网络中,而是将其保持为独立模块,类似于原始DETR (Carion et al., 2020),这使我们能够在训练和推理期间完全冻结DINOv3骨干网络。据我们所知,这使其成为首个使用冻结骨干网络的竞争性检测模型。我们在Objects365数据集上以1536分辨率训练Plain-DETR检测器22个周期,然后以2048分辨率训练1个周期,接着在COCO数据集上进行12个周期的训练。在推理时,我们在2048分辨率下运行。可选地,我们还通过在多个分辨率(从1536到2880)转发图像来应用测试时增强(TTA)。完整实验细节请参见附录D.9。

结果(表10) 我们将我们的系统与四个模型进行比较:EVA-02与Cascade检测器(Fang et al., 2024b)、EVA-02与Co-DETR (Zong et al., 2023)、InternImage-G与DINO (Wang et al., 2023b)以及PEspatial与DETA (Bolya et al., 2025)。我们发现,在冻结的DINOv3骨干网络之上训练的轻量级检测器(1亿参数)能够达到最先进性能。对于COCO-O,差距尤为明显,表明检测模型可以有效利用DINOv3的鲁棒性。有趣的是,我们的模型以少得多的训练参数超越了所有先前的模型,最小的比较点仍使用超过3亿可训练参数。我们认为,不专门定制骨干网络就能实现如此强大的性能,为各种实际应用提供了便利:单次骨干网络前向传播可以提供支持多个任务的特征,减少计算需求。

6.3.2 语义分割

继上一个实验之后,我们现在评估语义分割,这是另一个长期存在的计算机视觉问题。该任务也需要强大的、定位良好的表示,并期望进行密集的逐像素预测。然而,与目标检测相反,模型不需要区分同一对象的实例。与检测类似,我们在冻结的DINOv3模型之上训练解码器。

数据集和指标 我们将评估重点放在ADE20k数据集 (Zhou et al., 2017) 上,该数据集包含20k训练图像和2k验证图像中的150个语义类别。我们使用平均交并比(mIoU)来衡量性能。为了训练分割模型,我们还使用了COCO-Stuff (Caesar et al., 2018)和Hypersim (Roberts et al., 2021)数据集。它们分别包含164k张具有171个语义类别的图像和77k张具有40个类别的图像。

实现  为了构建将DINOv3特征映射到语义类别的解码器,我们结合了ViT-Adapter (Chen et al., 2022)和Mask2Former (Cheng et al., 2022),类似于先前的工作(Wang et al., 2022b; 2023b; 2023a)。然而,在我们的情况下,DINOv3骨干网络在训练期间保持冻结。为了避免改变骨干网络特征,我们通过移除注入器组件进一步修改了原始ViT-Adapter架构。与基线相比,我们还将嵌入维度从1024增加到2048,以支持处理DINOv3骨干网络的4096维输出。我们首先在COCO-Stuff上预训练分割解码器80k次迭代,然后在Hypersim (Roberts et al., 2021)上训练10k次迭代。最后,我们在ADE20k的训练分割上训练20k次迭代,并在验证分割上报告结果。所有训练都在896的输入分辨率下完成。在推理时,我们考虑两种设置:单尺度,即我们在训练分辨率下转发图像,或多尺度,即我们在原始训练分辨率的×0.9到1.1之间的多个图像比例上平均预测。更多实验细节请参见附录D.10。

表11:ADE20k上语义分割的最先进系统比较。我们在单尺度或多尺度设置(分别称为Simple和TTA)下评估模型。按照惯例,我们在896分辨率下运行此评估并报告mIoU分数。BEIT3、ONE-PEACE和DINOv3使用Mask2Former与ViT-Adapter架构,解码器参数同时考虑两者。我们在表24中报告了在其他数据集上的结果

在这里插入图片描述

结果(表11)我们将我们的模型性能与几个最先进的基线进行比较,包括BEIT-3 (Wang et al., 2022b)、InternImage-H (Wang et al., 2023b)和ONE-PEACE (Wang et al., 2023a),并在表24中报告了在其他数据集上的结果。基于冻结DINOv3骨干网络的分割模型达到了最先进性能,与ONE-PEACE持平(63.0 mIoU)。它还在COCO-Stuff (Caesar et al., 2018)和VOC 2012 (Everingham et al., 2012)数据集上超越了所有先前的模型。由于语义分割需要精确的逐像素预测,视觉Transformer骨干网络提出了一个基本问题。实际上,16像素宽的输入patch使预测的粒度相对粗糙——这鼓励了像ViT-Adapter这样的解决方案。另一方面,我们已经证明我们可以获得高质量的特征图,即使在高达4096的非常高分辨率下(参见图3和图4);这对应于512个token宽的密集特征图。我们希望未来的工作能够利用这些高分辨率特征,在不依赖像ViT-Adapter与Mask2Former这样的重型解码器的情况下达到最先进性能。

6.3.3 单目深度估计

我们现在考虑构建一个用于单目深度估计的系统。为此,我们遵循Depth Anything V2 (DAv2) (Yang et al., 2024b)的设置,这是一种最新的最先进方法。DAv2的关键创新是使用大量带有真实深度标注的合成生成图像。关键的是,这依赖于DINOv2作为特征提取器,能够弥合模拟到现实(sim-to-real)的差距,而其他视觉骨干网络如SAM (Kirillov et al., 2023)则不具备这种能力 (Yang et al., 2024b)。因此,我们在DAv2管道中将DINOv2替换为DINOv3,以查看是否能获得类似的结果。

实现 与DAv2类似,我们使用密集预测Transformer (DPT) (Ranftl et al., 2021)来预测像素级深度场,使用DINOv3四个等间距层的特征作为输入。我们在DAv2的合成数据集上使用DAv2的损失集训练模型,将训练分辨率提高到1024×7681024\times7681024×768,以利用DINOv3的高分辨率能力。与DAv2不同,我们保持骨干网络冻结,而不是对其进行微调,测试DINOv3的开箱即用能力。我们还发现扩大DPT头部有助于获得DINOv3 7B更大特征的全部潜力。更多细节请参见附录D.11。

数据集和指标 我们在5个真实世界数据集上评估我们的模型(NYUv2 (Silberman et al., 2012)、KITTI (Geiger et al., 2013)、ETH3D (Schöps et al., 2017)、ScanNet (来自Ke et al. (2025))和DIODE (Vasiljevic et al., 2019)),采用零样本尺度不变深度设置,类似于Ranftl et al. (2020);Ke et al. (2025)。我们报告标准指标绝对相对误差(ARel)(越低越好)和δ1\delta_1δ1(越高越好)。有关这些指标的描述,请参见Yang et al. (2024a)。

表12:相对单目深度估计的最先进系统比较。通过将DINOv3与Depth Anything V2 (Yang et al., 2024b)结合,我们获得了相对深度估计的最先进模型。

在这里插入图片描述

结果(表12)  我们将我们的模型与相对深度估计的最先进技术进行比较:MiDaS (Ranftl et al., 2020)、LeReS (Yin et al., 2021)、Omnidata (Eftekhar et al., 2021)、DPT (Ranftl et al., 2021)、集成版本的Marigold (Ke et al., 2025)和DAv2。我们的深度估计模型在所有数据集上达到了新的最先进水平,仅在DIODE的ARel上略逊于DPT。值得注意的是,这使用了冻结的骨干网络,而所有其他基线都需要对骨干网络进行微调以进行深度估计。此外,这验证了DINOv3继承了DINOv2强大的模拟到现实能力,这是一种理想特性,为下游任务使用合成生成的训练数据打开了可能性。

6.3.4 与DINOv3结合的视觉几何基础Transformer

最后,我们考虑使用最近的视觉几何基础Transformer (VGGT) (Wang et al., 2025)进行3D理解。在大量3D标注数据上训练,VGGT学习在单次前向传播中估计场景的所有重要3D属性,如相机内参和外参、点图或深度图。使用简单、统一的管道,它在许多3D任务上达到最先进结果,同时比专用方法更高效——这构成了3D理解领域的重大进展。

实现 VGGT使用DINOv2预训练骨干网络来获取场景不同视图的表示,然后与Transformer融合。在这里,我们简单地将DINOv2骨干网络替换为DINOv3,使用我们的ViT-L变体(见第7节)来匹配原始工作中的DINOv2 ViT-L/14。我们运行与VGGT相同的训练管道,包括对图像骨干网络的微调。我们将图像分辨率从518×518518\times518518×518改为592×592592\times592592×592,以适应DINOv3的patch大小16,并保持结果与VGGT可比。我们还采用了少量超参数更改,详见附录D.12。

数据集和指标  按照Wang et al. (2025),我们在Rel0K (Zhou et al., 2018)和CO3Dv2 (Reizenstein et al., 2021)数据集上评估相机姿态估计,在DTU (Jensen et al., 2014)上评估密集多视图估计,在ScanNet-1500 (Dai et al., 2017)上评估两视图匹配。对于相机姿态估计和两视图匹配,我们报告标准曲线下面积(AUC)指标。对于多视图估计,我们报告预测到真实值的最小L2距离作为"准确性(Accuracy)“,真实值到预测的最小L2距离作为"完整性(Completeness)”,以及它们的平均值作为"总体(Overall)"。有关方法和评估的详细信息,请参见Wang et al. (2025)。

表13:使用视觉几何基础Transformer (VGGT) (Wang et al., 2025)进行3D理解。仅通过在VGGT管道中将DINOv2替换为DINOv3 ViT-L作为图像特征提取器,我们就能够在各种3D几何任务上获得最先进结果。我们重现了Wang et al. (2025)的基线结果。我们还报告了使用真实相机信息的方法,用*标记。相机姿态估计结果以AUC@30报告。

在这里插入图片描述

结果(表13)  我们发现,配备DINOv3的VGGT在所有三个考虑的任务上进一步改进了VGGT设定的先前最先进水平——使用DINOv3带来了清晰且一致的增益。考虑到我们仅对DINOv3应用了最小调整,这是令人鼓舞的。这些任务涵盖了不同层次的视觉理解:场景内容的高级抽象(相机姿态估计)、密集几何预测(多视图深度估计)和细粒度像素级对应(视图匹配)。结合之前在对应估计(第6.1.3节)和深度估计(第6.3.3节)上的结果,我们将此视为DINOv3作为3D任务基础的强适用性的进一步实证证据。此外,我们预计使用更大的DINOv3 7B模型会带来进一步的改进。

七、评估完整的DINOv3模型家族

在本节中,我们提供了对我们从70亿参数模型蒸馏出的模型家族的定量评估(见第5.2节)。该家族包括基于视觉Transformer (ViT)和ConvNeXt (CNX)架构的变体。我们在图16a中提供了所有模型的详细参数计数和推理FLOPs。这些模型覆盖了广泛的计算预算,以适应各种用户和部署场景。我们对所有ViT(第7.1节)和ConvNeXt变体进行了全面评估,以评估它们在各种任务上的性能。

图2提供了DINOv3家族与其他模型集合的概览比较。DINOv3家族在密集预测任务上显著优于所有其他模型。这包括从监督骨干网络(如AM-RADIO和PEspatial)蒸馏出的专用模型。同时,我们的模型在分类任务上取得了类似的结果,使其成为各种计算预算下的最佳选择。

在第7.1节中,我们详细介绍了我们的ViT模型,并将其与其他开源替代方案进行比较。然后,在第7.2节中,我们讨论了ConvNeXt模型。最后,按照第5.3节,我们训练了一个与我们的ViT-L模型输出对齐的文本编码器。我们在第7.3节中展示了该模型的多模态对齐结果。

7.1 适用于各种用例的视觉Transformer

我们的ViT家族涵盖了从紧凑型ViT-S到大型8.4亿参数ViT-H+模型的架构。前者设计用于在资源受限的设备(如笔记本电脑)上高效运行,后者则为更苛刻的应用提供最先进性能。我们将我们的ViT模型与相应规模的最佳开源图像编码器进行比较,即DINOv2 (Oquab et al., 2024)、SigLIP 2 (Tschannen et al., 2025)和感知编码器(Bolya et al., 2025)。为了公平比较,我们确保所有模型的输入序列长度相同。具体来说,对于patch大小为16的模型,我们输入大小为512×512512\times512512×512的图像,而当模型使用patch大小14时,输入大小为448×448448\times448448×448

我们的实证研究清楚地表明,DINOv3模型在密集预测任务上始终优于其对应模型。最值得注意的是,在ADE20k基准测试中,DINOv3 ViT-L模型比最佳竞争对手DINOv2提高了超过6 mIoU点。ViT-B变体比次佳竞争对手提高了约3 mIoU点。这些显著的改进突显了DINOv3局部特征在捕获细粒度空间细节方面的有效性。此外,在深度估计任务上的评估也显示出比竞争方法持续的性能提升。

表14:将我们的模型家族与同等规模的开源替代方案进行比较。我们在一组代表性的全局和密集基准测试上展示了我们的ViT-{S、S+、B、L、H+}模型:分类(IN-ReaL、IN-R、ObjectNet)、检索(Oxford-H)、分割(ADE20k)、深度(NYU)、跟踪(DAVIS,960px)和关键点匹配(NAVI、SPair)。我们匹配不同patch大小模型的patch token数量,以确保公平比较。

在这里插入图片描述

在这里插入图片描述

图16: (a) 蒸馏模型特性的展示。CNX代表ConvNeXT。我们展示了每个模型的参数数量和在256×256256\times256256×256512×512512\times512512×512大小图像上估计的GFLOPs。(b) 我们将DINOv3 ViT-H+与其70亿参数大小的教师进行比较;尽管参数少近10倍,ViT-H+在性能上接近DINOv3 7B。

这突显了DINOv3家族在不同密集视觉问题上的多功能性。重要的是,我们的模型在ObjectNet和ImageNet-1k等全局识别基准测试上取得了具有竞争力的结果。这表明增强的密集任务性能不会以牺牲全局任务准确性为代价。这种平衡证实了DINOv3模型提供了稳健且全面的解决方案,在密集和全局视觉任务上均表现出色,没有妥协。

另一方面,我们还想验证我们蒸馏的最大模型是否捕获了教师的所有信息。为此,我们将最大的ViT-H+与7B教师进行了比较。如图16b所示,最大的学生模型达到了与大8倍的ViT-7B模型相当的性能。

在这里插入图片描述

图17: DINOv3 ViT模型家族在多分辨率下的特征稳定性。从上到下:ViT-S、S+、B、L、H+。我们在多个分辨率下对图像进行推理,然后对在1792×10241792\times10241792×1024图像(112×64图像tokens)上计算的特征进行主成分分析。然后,我们将所有分辨率的特征投影到我们映射到RGB空间进行可视化的主成分5-7上。虽然模型在所有分辨率下都可用,但我们观察到特征在大范围分辨率内保持一致,然后才开始漂移:例如,ViT-S+特征在896×512896\times512896×5123584×20483584\times20483584×2048输入之间保持稳定,而ViT-L在最大分辨率7168×40967168\times40967168×4096下才开始轻微漂移。ViT-H+在整个测试范围内保持稳定。

这一结果不仅验证了我们蒸馏过程的有效性,还表明在高质量教师的指导下,较小的模型可以学习提供相当水平的性能。这一发现强化了我们的信念,即训练非常大的模型有利于更广泛的社区。较大模型的优势可以成功蒸馏到更高效、更小的模型中,而质量几乎没有或没有损失。

7.2 适用于资源受限环境的高效ConvNeXt

在本节中,我们评估了从7B教师蒸馏出的ConvNeXt (CNX)模型的质量。ConvNeXt模型在FLOPs方面非常高效,非常适合在针对卷积计算优化的设备上部署。此外,Transformer模型通常不适合量化(Bondarenko et al., 2021),而卷积网络的量化是一个被广泛研究的主题。我们蒸馏了T、S、B和L规模的CNX架构(见图16a),并将它们与原始ConvNeXt模型(Liu et al., 2022)进行比较。这些基线模型在ImageNet-1k上实现了高性能,因为它们使用ImageNet-22k标签以监督方式训练,因此代表了一个强有力的竞争对手。对于此实验,我们在输入分辨率256和512下提供全局任务的结果,在ADE20k上使用分辨率512,在NYU上使用分辨率640。

表15:评估我们的蒸馏DINOv3 ConvNeXt模型。我们将我们的模型与在ImageNet-22k上监督训练的现成ConvNeXt (Liu et al., 2022)进行比较。对于全局任务,我们在输入分辨率256和512下提供结果,因为我们发现监督模型在分辨率512下显著退化。

在这里插入图片描述

结果(表15) 我们发现,在分布内图像分类上,我们的模型在分辨率256下略逊于监督模型(例如,CNX-T的IN-ReaL低-O.7)。然而,在分辨率512下趋势逆转,监督ConvNeXt显著退化,而我们的模型随着输入分辨率的增加而扩展。对于分布外分类(IN-R、ObjectNet),两个模型家族在所有规模上都存在显著差距——这证明了DINOv3 CNX模型的鲁棒性。此外,DINOv3模型在密集任务上提供了非常大的改进。实际上,对于CNX-T,我们的模型产生了+17.9 mIoU(42.7对24.8)的改进,对于CNX-L,我们的模型获得了+14.5 mIoU(47.8对33.3)的改进。高性能和计算效率的结合使蒸馏的ConvNeXt模型在资源约束至关重要的实际应用中特别有前景。除此之外,将ViT-7B模型蒸馏成更小的ConvNeXt模型特别令人兴奋,因为它连接了两种根本不同的架构。虽然ViT-7B基于带有CLS token的Transformer块,但ConvNeXt依赖于没有CLS token的卷积操作,使得这种知识转移并非易事。这一成就突显了我们蒸馏过程的多功能性和有效性。

7.3 基于DINOv3的dino.txt的零样本推理

如第5.3节所述,我们训练了一个文本编码器,以将蒸馏的DINOv3 ViT-L模型的CLS token和输出patch与文本对齐,遵循dino.txt (Jose et al., 2025)的配方。我们在标准基准测试上评估全局和patch级别对齐的质量。我们使用CLIP协议(Radford et al., 2021)报告在ImageNet-1k、ImageNet-Adversarial、ImageNet-Rendition和ObjectNet基准测试上的零样本分类准确率。对于图像-文本检索,我们在COCO2017数据集(Tsung-Yi et al., 2017)上进行评估,并报告图像到文本(I→T\mathrm{I}\rightarrow\mathrm{T}IT)和文本到图像(T→I\mathrm{T}\rightarrow\mathrm{I}TI)任务的Recall@1。为了探测patch级对齐的质量,我们在开放词汇分割任务上评估我们的模型,使用常见基准测试ADE20k和Cityscapes,我们报告mIoU指标。

结果(表16) 我们将我们的文本对齐DINOv3 ViT-L与同规模的竞争对手进行比较。与Jose et al. (2025)相比,后者将DINOv2与文本对齐,DINOv3在所有基准测试上都带来了显著更好的性能。在全局对齐任务上,我们的表现优于原始CLIP (Radford et al., 2021)和EVA-02-CLIP (Sun et al., 2023)等强大基线,但略逊于SigLIP2 (Tschannen et al., 2025)和感知编码器(Bolya et al., 2025)。在密集对齐任务上,由于DINOv3的干净特征图,我们的文本对齐模型在两个具有挑战性的基准测试ADE20k和Cityscapes上表现出色。

表16:将我们的文本对齐DINOv3 ViT-L与最先进技术进行比较。我们的模型在密集对齐任务上实现了出色的性能,同时在全局对齐任务上保持竞争力。所有比较模型都是ViT-L大小,并在相同的576序列长度上运行。

在这里插入图片描述

八、DINOv3在地理空间数据上的应用

我们的自监督学习配方是通用的,可以应用于任何图像领域。在本节中,我们通过为卫星图像构建DINOv3 7B模型来展示这种通用性,卫星图像具有与DINOv3最初开发所使用的网络图像非常不同的特征(例如对象纹理、传感器噪声和焦距视图)。

8.1 预训练数据和基准测试

我们的卫星DINOv3 7B模型在SAT-493M上进行预训练,这是一个由4.93亿张从Maxar RGB正射校正影像中随机采样的512×512512\times512512×512图像组成的数据集,分辨率为0.6米。我们使用与网络DINOv3 7B模型完全相同的超参数集,除了针对卫星图像调整的RGB均值和标准差归一化,以及训练长度。与网络模型类似,我们的卫星模型训练流程包括10万次迭代的初始预训练(使用全局裁剪,256×256256\times256256×256),随后是1万次迭代的Gram正则化,最后以分辨率512进行8千步的高分辨率微调。与网络模型类似,我们将7B卫星模型蒸馏成更易于管理的ViT-Large模型,以促进其在低预算环境中的使用。

我们在多个地球观测任务上评估DINOv3卫星和网络模型。对于全球树冠高度映射任务,我们使用附录D.13中描述的Satlidar数据集,该数据集包含一百万张具有LiDAR真实值的512×512512\times512512×512图像,按8:1:1的比例分为训练/验证/测试集。这些分割包括Tolan et al. (2024)使用的Neon和Sao Paulo数据集。对于国家级树冠高度映射,我们在Open-Canopy (Fogel et al., 2025)上进行评估,该数据集结合了法国87,000平方公里范围内的SPOT 6-7卫星图像和航空LiDAR数据。由于该数据集中的图像有4个通道(包括额外的红外(IR)通道),我们通过取patch嵌入模块权重中三个通道的平均值并将其作为第四个通道添加到权重中来调整我们的骨干网络。我们在调整为1667大小的512×512512\times512512×512图像裁剪上训练了一个DPT解码器,以匹配Maxar地面采样分辨率。

语义地理空间任务通过GEO-Bench (Lacoste et al., 2023)进行评估,该基准包含六个分类任务和六个分割任务,涵盖各种空间分辨率和光学波段。GEO-Bench任务多种多样,包括检测屋顶安装的光伏系统、分类局部气候区、测量森林砍伐驱动因素以及检测树冠。对于高分辨率语义任务,我们考虑土地覆盖分割数据集LoveDA (Wang et al., 2022a)、对象分割数据集iSAID (Zamir et al., 2019)和水平检测数据集DIOR (Li et al., 2020)。

8.2 树冠高度估计

从卫星图像估计树冠高度是一项具有挑战性的度量任务,需要在存在坡度、视角几何、太阳角度、大气散射和量化伪影的随机变化的情况下准确恢复连续的空间结构。这项任务对于全球碳监测以及森林和农业管理至关重要(Harris et al., 2021)。继Tolan et al. (2024)之后,他们是首个利用SSL骨干网络在卫星图像上进行此任务的工作,我们在SatLidarlM训练集上在冻结的DINOv3上训练DPT头部,然后在SatLidarlM验证集上的i.i.d.样本以及包括SatLidarlM测试集、Neon和Sao Paulo在内的分布外测试集上进行评估。我们还在Open-Canopy数据集上进行训练和评估。

表17:不同骨干网络在高分辨率树冠高度预测中的评估。所有模型都使用DPT解码器进行训练。结果要么是解码器在SatLidar上训练并在IID样本(SatLidar Val)和OOD测试集(SatLidar Test、Neon和Sao Paulo)上评估的实验,要么是解码器在Open-Canopy数据集上训练和评估的实验。我们列出平均绝对误差(MAE)和Tolan et al. (2024)的块R²指标。为完整性起见,我们还评估了Tolan et al. (2024)的原始解码器,该解码器在Neon数据集上训练(由*表示)

在这里插入图片描述

结果(表17) 我们比较了不同的SSL骨干网络,用"DINOv3 Sat"表示在SAT-493M数据集上训练的模型,用"DINOv3 Web"表示在LVD-1689M上训练的模型(见第3.1节)。可以看出,DINOv3卫星模型在大多数基准测试上取得了最先进的性能。我们的7B卫星模型在SatLidar1M验证集、SatLidar1M测试集和Open-Canopy上建立了新的最先进技术,将MAE分别从2.4降至2.2、从3.4降至3.2、从2.42降至2.02。这些结果表明DINOv3训练配方是通用的,可以有效地直接应用于其他领域。有趣的是,我们蒸馏的ViT-L卫星模型与其7B对应模型表现相当,在SatLidar1M和Open-Canopy上取得可比结果,而在Neon测试集上表现意外地更好,达到最低MAE为2.4,相比之下7B模型为2.6,Tolan et al. (2024)为2.9。我们的DINOv3 7B网络模型在基准测试上达到了不错的性能,在SatLidar1M验证集、Neon和Open-Canopy上优于Tolan et al. (2024),但落后于卫星模型。这突显了特定领域预训练对于树冠高度估计等物理基础任务的优势,其中传感器特定先验和辐射一致性很重要。

8.3 与地球观测最先进技术的比较

我们在表18和表19中比较了不同方法在地球观测任务上的性能。冻结的DINOv3卫星和网络模型在15个分类、分割和水平对象检测任务中的12个上建立了新的最先进技术成果。我们的Geo-Bench结果超过了先前的模型,包括Prithvi-v2 (Szwarcman et al., 2024)和DOFA (Xiong et al., 2024),这些模型对Sentinel-2和Landsat任务使用6+波段以及特定任务的微调(表18)。尽管使用仅RGB输入的冻结骨干网络,DINOv3卫星模型在三个未饱和分类任务和六个分割任务中的五个上优于先前方法。有趣的是,DINOv3 7B网络模型在这些基准测试上非常有竞争力。它在许多GEO-Bench任务以及大规模、高分辨率遥感分割和检测基准测试上取得了相当或更强的性能。如表18和表19所示,冻结的DINOv3网络模型在Geo-Bench任务以及LoveDA和DIOR数据集上的分割和检测任务上建立了新的领先结果。

这些发现对地理空间基础模型的设计具有更广泛的意义。最近的研究强调了启发式技术,如多时相聚合、多传感器融合或结合卫星特定元数据(Brown et al., 2025; Feng et al., 2025)。我们的结果表明,通用SSL可以匹配或超过依赖精确对象边界(分割或对象检测)任务的卫星特定方法。这支持了新兴的证据,即领域无关的预训练即使在特定下游领域也能提供强大的泛化能力(Lahrichi et al., 2025)。

总体而言,我们的结果表明了特定领域预训练的任务相关优势。DINOv3卫星模型在深度估计等度量任务上表现出色,利用了卫星特定先验。相比之下,DINOv3网络模型通过多样化、通用的表示在语义地理空间任务上取得了最先进成果。两种模型的互补优势展示了DINOv3 SSL范式的广泛适用性和有效性。

表18:将我们的DINOv3模型与Geo-Bench任务中的强大基线DOFA (Xiong et al., 2024)、Prithvi-v2 (Szwarcman et al., 2024)和Tolan et al. (2024)进行比较。虽然Prithvi-v2和DOFA利用所有可用光学波段,但我们的模型仅使用RGB输入就取得了显著更好的性能。

在这里插入图片描述

图18: 由单一DINOv3模型实现的遥感多功能应用示例。DINOv3特征上的PCA显示了比DINOv2更精细的细节。分割图仅使用GEO-Bench chesapeake标签计算。树冠高度模型解码器使用4个通道(RGB + 红外)在Open-Canopy数据集上训练,而推理仅在RGB通道上进行。

表19:我们将DINOv3与Prithvi-v2 (Szwarcman et al., 2024)、BillionFM (Cha et al., 2024)和SkySense V2 (Zhang et al., 2025)在高分辨率语义地理空间任务上的最先进模型进行比较。我们报告LoveDA(1024×1024\times1024×)和iSAID(896×896\times896×)分割数据集的mIoU,以及DIOR(800×800\times800×)检测数据集的mAP。

在这里插入图片描述

图19: DINOv3 7B卫星模型与Tolan et al. (2024)在Open Canopy数据集上的定性比较。对于两个模型,解码器都在448×448448\times448448×448输入图像上训练。可以看出,DINOv3生成了更准确的地图,例如田地树木的准确高度。

九、环境影响

为了估计我们预训练的碳排放,我们遵循先前在自然语言处理(Strubell et al., 2019; Touvron et al., 2023)和SSL (Oquab et al., 2024)工作中使用的方法。我们固定所有外生变量的值,即电源使用效率(PUE)和电网的碳强度因子,使用与Touvron et al. (2023)相同的值,即我们假设PUE为1.1,美国平均碳强度因子为0.385 kg CO₂eq/KWh。对于GPU的功耗,我们采用其热设计功耗:A100 GPU为400W,H100 GPU为700W。我们在表20中报告了ViT-7B预训练的计算细节。作为参考,我们提供了DINOv2和MetaCLIP的类似数据。作为另一个比较点,训练一个DINOv3模型所需的能量(47 MWh)大致相当于普通电动车行驶240,000公里所需的能量。

整个项目的碳足迹  为了计算整个项目的碳足迹,我们使用了总计900万GPU小时的粗略估计。使用上述相同的电网参数,我们估计总足迹约为2600 tCO₂eq。相比之下,巴黎和纽约之间的波音777往返航班对应约560 tCO₂eq。假设每天12次这样的航班,我们项目的环境影响代表了这两个城市之间一天所有航班的一半。此估计仅考虑为GPU供电的电力,忽略了其他排放,如冷却、制造和处置。

表20:模型训练的碳足迹。我们报告了重现完整模型预训练的潜在碳排放,使用1.1的PUE和0.385 kg CO₂eq/KWh的碳强度因子计算。

在这里插入图片描述

十、结论

DINOv3代表了自监督学习领域的重大进步,展示了彻底改变跨各种领域学习视觉表示方式的潜力。通过精心的数据准备、设计和优化来扩展数据集和模型规模,DINOv3展示了自监督学习消除对手工标注依赖的能力。Gram锚定方法的引入有效地缓解了长时间训练过程中密集特征图的退化问题,确保了稳健可靠的性能。

结合事后优化策略的实施,如高分辨率后训练和蒸馏,我们在无需对图像编码器进行微调的情况下,在广泛视觉任务上实现了最先进的性能。DINOv3视觉模型套件不仅设定了新的基准,还为各种资源约束、部署场景和应用用例提供了多功能解决方案。DINOv3取得的进展证明了自监督学习在推进计算机视觉及更广泛领域的最先进技术方面的承诺。

附录

A 大规模训练中的伪影和异常值

本节讨论了在大规模语言模型(LLM)(An et al., 2025)和视觉领域(Darcet et al., 2024)的大模型训练中最近观察到的伪影和异常值的出现。借鉴An等人(2025)的定义,异常值通常被定义为网络激活值,其值显著偏离其分布的平均值。在DINOv3的训练过程中,我们识别出不同层次的此类异常值:一些出现在补丁级别,而另一些则出现在训练和结果中。我们还讨论了我们尝试修复它们的不同方法以及初步结论。

A.1 高范数补丁异常值

Darcet等人(2024)发现补丁异常值对DINOv2的性能有负面影响。这些异常值主要表现为高范数标记(token),通常位于图像的低信息背景区域。这些标记被观察到在补丁与CLS标记之间的内部通信中起关键作用。此外,这种现象也影响其他模型,无论是否经过监督训练,例如CLIP (Radford et al., 2021)。当扩展到7B模型时,我们观察到此类高范数补丁的出现,主要集中在背景区域。在本节中,我们展示了针对训练了15万次迭代的7B模型的结果,尽管有限,但为我们提供了指导决策的初步信号。我们在图2Oa的"O"列中绘制了输出补丁范数(在层归一化之前),高范数补丁以黄色显示,出现在天空和其他低信息区域。

标记寄存器 为了缓解此类标记异常值的出现,(Darcet et al., 2024)提出了一种简单而有效的解决方案:在ViT的输入序列中引入额外的标记,称为寄存器(registers)。它们的作用是接管补丁与CLS之间的内部通信。根据结论,我们使用了4个寄存器,并且由于实验成本高,未进行进一步的消融实验。图2Oa展示了该策略的实际应用示例,我们观察到高范数异常值被消除,这通过相应的范数分布直方图得到进一步证实。此外,我们在图2Ob中定量观察了在ImageNet-1k (IN1k)基准测试中引入额外寄存器标记的好处。

在注意力机制中整合偏置 An等人(2025)的最新工作研究了在LLM领域中不同模型和架构中出现的异常值。作者分析了不同类型的异常值,这些异常值被观察到与注意力机制有内在联系。这些方法似乎相关且只需对注意力进行最小改动,特别是显式的固定偏置,我们称之为"值门控"(value gating),以及注意力偏置策略。值门控策略相当于向注意力输出添加一个可学习的值偏置v′∈Rd\mathbf{v}^{\prime}\in\mathbb{R}^{d}vRd,具体通过重新定义注意力机制为:

Attn(Q,K,V;k′,v′)=softmax(Q[KT]d)V+v′,\mathrm{Attn}(Q,K,V;\mathbf{k}^{\prime},\mathbf{v}^{\prime})=\mathrm{softmax}(\frac{Q[K^{T}]}{\sqrt{d}})V+\mathbf{v}^{\prime},Attn(Q,K,V;k,v)=softmax(dQ[KT])V+v,

其中Q,K,V∈RT×dQ,K,V\,\in\,\mathbb{R}^{T\times d}Q,K,VRT×d分别为查询、键和值矩阵,d为隐藏空间的维度。或者,注意力偏置(定义在公式5中)包括在键和值矩阵中分别整合两个可学习的偏置项k′,v′∈Ra\mathbf{k}^{\prime},\mathbf{v}^{\prime}\in\mathbb{R}^{a}k,vRa。其定义如下:

Attn(Q,K,V;k′,v′)=softmax(Q[KTk′]d)[Vv′].\mathrm{Attn}(Q,K,V;\mathbf{k}^{\prime},\mathbf{v}^{\prime})=\mathrm{softmax}(\frac{Q[K^{T}\mathbf{k}^{\prime}]}{\sqrt{d}})\left[V\atop\mathbf{v}^{\prime}\right].Attn(Q,K,V;k,v)=softmax(dQ[KTk])[vV].

我们在图2Oa中观察到,值门控策略显著改变了补丁范数的分布,导致总体范数值更高并消除了明显的异常值。虽然注意力机制减轻了高范数标记的存在,但并未完全解决问题,因为与使用寄存器标记的结果相比,仍有一些高范数补丁持续存在——如顶行图像所示。值得注意的是,最佳性能是通过引入寄存器标记实现的,这就是为什么我们在本文报告的所有实验中采用此策略。

在这里插入图片描述

图20:不同策略对高范数补丁异常值影响的定性和定量评估。我们使用按照我们的配方训练了15万次迭代的7B模型生成结果,无任何高范数处理策略"O",使用四个寄存器标记(Darcet et al., 2024),或使用注意力偏置和值门控策略(An et al., 2025)。在(a, 第一行)中,我们绘制了为三张图像计算的输出补丁范数的分布(按升序排列)。我们还可视化了每张图像的输出补丁范数(底部两行),使用相同的颜色映射——最小值和最大值是针对不同异常值策略在每张图像上计算的。

A.2 特征维度异常值

将额外的寄存器引入模型架构有效地解决了高范数补丁异常值问题。然而,在训练7B模型时,我们观察到一种不同类型的异常值,它不是跨补丁出现的,而是出现在学习表示的特征(通道)维度中。具体来说,对跨Transformer层和训练迭代的补丁激活的分析显示,一小部分特征维度达到异常大的幅度,即使跨补丁的范数保持稳定。有趣的是,这些特征维度异常值在不同补丁和图像中表现出一致的高值,这种行为与(An et al., 2025)中报告的观察结果形成对比。此外,这些异常维度在给定模型的各层中持续存在,随着深度增加而增大,并在输出层达到最大值。它们在整个训练过程中也逐渐增大。

我们进行了实验,尝试在训练和推理过程中中和这些维度。我们的发现表明,这些维度在训练过程中起着重要作用,因为应用L2正则化来抑制它们会导致性能下降。然而,在推理时移除这些维度不会导致显著的性能变化,这表明它们主要携带平凡或非信息性信号。此外,我们观察到最终的层归一化被训练为大幅缩小这些异常维度。因此,我们建议对最终层的特征应用最终层归一化以用于下游任务。或者,应用批归一化也可以抑制这些特征维度异常值,因为它们的高值在不同补丁和图像中是一致的。

对使用早期层特征需要谨慎。如上所述,这些早期层也受到特征维度异常值的影响,可能导致特征条件不良。虽然最终层归一化非常适合归一化最终特征的分布,但其学习的参数可能不适合应用于早期层的特征。事实上,我们观察到这样做会导致某些任务的性能下降。在这些情况下,我们发现标准特征缩放技术(例如使用批归一化或主成分分析进行归一化)在处理特征维度异常值方面是有效的。

例如,对于我们的语义分割(第6.3.2节)和深度估计实验(第6.3.3节),我们对中间层特征应用了批归一化。

表21:图1中使用的年份、性能和参考文献的详细信息。对于所有论文,我们报告该算法在ImageNet上使用最大模型的top-1准确率。对于弱监督和自监督模型,我们提供线性探针性能。对于日期,我们使用arXiv上首次出现的年份。

在这里插入图片描述

B 附加结果

B.1 年度演变

在图1中,我们提供了沿年份发展的最先进性能的粗略演变。这里,我们提供了在图中报告的精确参考文献和性能。请参见表21。

B.2 每层分析

在本节中,我们评估了DINOv3 7B模型各层特征的质量。具体来说,我们展示了五个代表性任务的结果:分类(IN-1k val, ImageNet-ReAL和ObjectNet)、分割(ADE20k)、深度估计(NYU)、跟踪(DAVIS)和3D对应估计(NAVI)。对于前3个基准测试,像第6.1.2节和6.2.1节中那样,在每个骨干网络层的输出上训练一个线性层以评估特征性能。对于跟踪和对应估计,我们使用第6.1.3节和6.1.5节中的非参数方法。

结果如图21所示。我们发现,对于分类和密集任务,性能随着各层平稳提升。深度估计、跟踪和3D对应估计在第32层左右达到峰值,表明对于几何起重要作用的任务,通过考虑更早的层可以提高DINOv3的下游性能。另一方面,中间层的性能仅比最后一层略有提升,使其成为一个良好的默认选择。

B.3 主要结果部分的附加结果

我们提供补充第6节主要结果的附加实验结果。在表22中,我们展示了使用线性探针对小数据集进行细粒度分类的每个数据集结果(Fine-S,见第6.2.1节)。在表23中,我们为实例识别评估(第6.2.2节)提供完整结果,添加了更多指标。

在这里插入图片描述

图21:使用DINOv3 7B中间层特征在五个基准测试上的结果。评估(a-c)使用线性层(见第6.1.2节和6.2.1节),而(d, e)使用非参数方法(见第6.1.3节和6.1.5节)。
表22:使用线性探针对小数据集进行细粒度分类的每个数据集结果(Fine-S,见第6.2.1节),遵循Oquab等人(2024)的方法。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/3eab2dc7998a429eab7ccf501d2d31bf.png)

最后,在表24中,我们为我们在COCO-Stuff (Caesar et al., 2018)、PASCAL VOC 2012 (Everingham et al., 2012)和Cityscapes (Geiger et al., 2013)数据集上的最先进语义分割模型(第6.3.2节)提供补充结果。

B.4 OCR密集型数据集上的分类

在本实验中,我们在需要某种形式的字符识别的分类任务上评估DINOv3。这些任务包括街道标志、徽标和产品分类。我们将我们的模型与最佳自监督模型(DINOv2 g)和最佳弱监督模型(PE-core G)进行比较。我们以512分辨率对我们的模型运行此评估,并调整其他模型的补丁大小以匹配序列长度。我们在表25中报告此实验的结果。

表23:实例识别的完整结果,为第6.2.2节提供额外指标。

`

我们看到,我们的新模型DINOv3大幅优于其前身DINOv2。然而,与弱监督模型的差距仍然很大。由于我们的模型在训练期间不利用图像-文本对数据,因此在学习字形关联方面面临更大挑战。Fan等人(2025)的最新工作暗示了训练数据对这类任务性能的影响。由于我们工作的重点是改进密集特征,因此缩小这一差距留待未来工作。

B.5 公平性分析

我们按照Goyal等人(2022b)的协议,评估DINOv3 7B模型在不同收入等级和地区间的地理公平性和多样性。作为参考,我们包括了DINOv2和SEERv2获得的结果。结果表明,DINOv3在收入类别间提供了一致的性能,尽管与最高收入等级相比,低收入等级的性能下降了23%。中等和高收入等级表现出相当的性能。在地区方面,DINOv3在不同地区取得了相对较好的分数;然而,欧洲和非洲之间观察到超过14%的相对差异,这比DINOv2中观察到的超过17%的相对差异有所改善。

I 实现细节

我们使用多裁剪(Caron et al., 2020),包含2个全局裁剪(256×256像素)和8个局部裁剪(112×112像素),这些裁剪被学生模型看到,导致总序列长度为3.7M个标记。教师EMA(学生的指数移动平均)仅处理全局裁剪。我们将LDINO\mathcal{L}_{\mathrm{DINO}}LDINO损失应用于学生所有局部裁剪和教师两个全局裁剪的类标记,并在两个模型的不同全局裁剪对之间应用。以[0.1,0.5]的随机比例对学生看到的全局裁剪补丁标记进行掩码,概率为50%,我们在这些标记与教师EMA看到的可见标记之间应用LiBOT\mathcal{L}_{\mathrm{iBOT}}LiBOT损失。我们将LDKoleo\mathcal{L}_{\mathrm{DKoleo}}LDKoleo损失应用于学生看到的第一个全局裁剪的16个类标记的小批次。我们使用PyTorch中的全分片数据并行设置进行100万次迭代训练,使用bfloat16和8位浮点矩阵乘法。我们使用0.0004的恒定学习率,10万次迭代的预热,0.04的权重衰减,每层0.98的学习率衰减因子,0.4的随机深度(层丢弃)值,以及教师的0.999 EMA因子。其余超参数可以在代码发布中的配置文件中找到。

对于Gram锚定步骤,我们使用损失权重wGram=2w_{\mathrm{Gram}}\;=\;2wGram=2,并每10k步更新Gram教师,最多更新三次。对于高分辨率适应(第5.1节),我们从以下全局/局部/Gram教师裁剪分辨率对中采样,概率如下:(512, 112, 768)概率为p=0.3p=0.3p=0.3,(768, 112, 1152)概率为p=0.3p=0.3p=0.3,(768, 168, 1152)概率为p=0.3p=0.3p=0.3,(768, 224, 1152)概率为p=0.05p=0.05p=0.05,以及(768, 336, 1152)概率为p=0.05p=0.05p=0.05。这些值是通过经验获得的。

表24:在其他数据集上与最先进系统在语义分割方面的比较,补充表11中的ADE20k结果。我们在单尺度或多尺度(TTA)设置中评估模型时报告mIoU分数,并与每个数据集之前发布的最佳结果进行比较:Fang等人(2023)用于COCO-Stuff 164k,Wang等人(2023b)用于Cityscapes,Zoph等人(2020)用于VOC 2012。我们对COCO-Stuff使用1280的输入分辨率,对VOC 2012使用1024,对Cityscapes使用1280。所有基线都需要对骨干网络进行微调,而我们保持DINOv3骨干网络冻结。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/ed1c03b658674a89bff39d4d0e7372eb.png)
表25:DINOv3在OCR密集型数据集上的分类性能比较。这些数据集对SSL来说尤其具有挑战性。我们将DINOv3与最佳DINOv2模型(g)以及最佳弱监督PE-core模型(G)进行比较。

在这里插入图片描述

表26:按照Goyal等人(2022b)的协议,跨收入等级和地区进行的地理公平性和多样性分析。

在这里插入图片描述

D 实验细节

在本节中,我们提供了本文中所有基准测试所使用的数据集和评估指标的详细描述。

D.1 语义分割:线性探针

数据集和指标 我们通过在三个基准数据集上进行线性探针来评估DINOv3的语义分割性能:ADE20k (Zhou et al., 2017)、VOC12 (Everingham et al., 2012)和Cityscapes (Cordts et al., 2016)。报告的评估指标是标准的平均交并比(mIoU)。

评估协议  为了评估密集特征的质量,我们在每个基准的训练集上训练一个线性分类器。该线性层应用于冻结骨干网络的补丁输出特征(在层归一化之后)之上,特征进一步使用训练的批归一化层进行归一化。对于所有骨干网络,我们使用AdamW优化器执行超参数搜索,将学习率在{1×10−4,3×10−4,1×10−3}\{1\times10^{-4},3\times10^{-4},1\times10^{-3}\}{1×104,3×104,1×103}范围内变化,权重衰减在{1×10−4,1×10−3}\{1\times10^{-4},1\times10^{-3}\}{1×104,1×103}范围内变化。

D.2 深度估计:线性探针

数据集和指标  我们在深度基准数据集NYUv2 (Silberman et al., 2012)和KITTI (Geiger et al., 2013)上评估DINOv3特征在几何任务中的质量。结果使用均方根误差(RMSE)指标报告。

评估协议  为了评估密集特征的质量,我们在每个基准的训练集上训练一个线性分类器。该线性层应用于冻结骨干网络的补丁输出特征(在层归一化之后)之上,特征进一步使用训练的批归一化层进行归一化。对于所有骨干网络,我们使用AdamW优化器执行超参数搜索,将学习率在{1×10−4,3×10−4,1×10−3}\{1\times10^{-4},3\times10^{-4},1\times10^{-3}\}{1×104,3×104,1×103}范围内变化,权重衰减在{1×10−4,1×10−3}\{1\times10^{-4},1\times10^{-3}\}{1×104,1×103}范围内变化。

D.3 3D关键点匹配

数据集和指标  几何对应关系在NAVI数据集(Jampani et al., 2023)上进行评估,语义对应关系在SPair数据集(Min et al., 2019)上进行评估。对于NAVI,我们使用调整为边长为448/512像素的图像,适用于补丁大小为14/16的模型。对于SPair,我们使用调整为边长为896/1024像素的图像,适用于补丁大小为14/16的模型。为了衡量性能,我们报告对应召回率,即落在指定距离内的对应关系的百分比。

评估协议  对于NAVI,我们遵循Probe3D (Banani et al., 2024)定义的协议。具体来说,我们对1/4的对象视图进行子采样,对于每个源视图,选择另一个最大旋转角度为120度的目的地视图,以创建一对图像(源,目的地)进行补丁匹配。对于每对图像,源(在对象内)的每个补丁与目的地中的一个补丁匹配。保留具有最高余弦相似度的前1000个匹配用于评估,并基于已知的相机姿态和两个图像的深度图为每个匹配计算3D距离误差。这允许计算具有不同阈值的召回误差,我们使用1厘米、2厘米和5厘米的阈值。然后我们计算跨阈值的平均召回率作为对应召回率。

对于每个评估的骨干网络,我们使用最后一层的特征,并在应用和不应用最终层归一化的情况下进行评估。这是因为我们注意到某些模型在应用最终层归一化时性能不佳。我们报告两种结果中的最大值。

D.4 无监督对象发现

数据集和指标  对于此任务,目标是为每张图像生成一个突出显示场景中描绘的任何对象的边界框。我们遵循Siméoni等人(2021)的无监督对象发现协议,并在检测基准VOC07 (Everingham et al., 2007)、VOC12 (Everingham et al., 2012)和COCO20K (Lin et al., 2014; Vo et al., 2020)上评估所有骨干网络。COCO20K是COCO2014 trainval数据集(Lin et al., 2014)的子集,包含19,817张随机选择的图像,如(Vo et al., 2020)中所提议,通常用于此任务。对于每张图像,生成一个边界框。对于评估,我们使用正确定位(CorLoc)指标,该指标计算正确定位的边界框的百分比。如果预测框与任何真实边界框的交并比(IoU)超过0.5,则认为该预测框是正确的。

评估协议  为了评估图像编码器的质量,我们采用TokenCut策略(Wang et al., 2023c)。该方法将图像补丁组织成一个全连接图,其中边表示使用Transformer学习的骨干特征计算的补丁对之间的相似度分数。通过应用归一化切割算法来识别显著对象补丁,该算法解决图切割问题。然后将边界框拟合到生成的显著对象掩码上。所有图像以其全分辨率输入编码器,我们使用所有图像编码器的补丁输出特征。为了考虑模型之间特征分布的差异,我们对TokenCut的唯一超参数进行搜索:图构建中使用的相似度阈值。具体来说,我们将阈值在0到0.4之间以0.05的增量变化。

D.5 视频分割跟踪

数据集和指标  对于此任务,我们使用DAVIS 2017 (Pont-Tuset et al., 2017)、YouTube-VOS (Xu et al., 2018)和MOSE (Ding et al., 2023)数据集。DAVIS为训练集定义了60个视频和30个验证视频,所有帧都用真实实例分割掩码进行标注。对于YouTube-VOS,只有训练集被标注并公开可用,而验证集被限制在评估服务器后面。为了模拟DAVIS设置,我们随机选取2758个标注视频(80%)作为训练集,其余690个视频(20%)作为验证集。类似地,我们将MOSE数据集分为1206个视频用于验证,301个用于测试。对于所有数据集,我们使用标准J&F-mean指标(Perazzi et al., 2016)评估性能,该指标结合了区域相似性(J)和轮廓准确性(F)分数。仅跟踪和评估第一帧中标注的对象,而视频后期出现的对象被忽略,即使它们的真实掩码被标注。

评估协议  类似于Rajasegaran等人(2025),我们实现了一种基于补丁相似度的非参数标签传播协议,该相似度通过从冻结的DINOv3骨干网络提取的特征之间的余弦相似度计算。我们假设视频的第一帧用实例分割掩码标注,我们将这些掩码表示为每个补丁的one-hot向量。对于每一帧,我们计算其所有补丁特征与第一帧所有补丁以及少量过去帧所有补丁之间的余弦相似度。专注于当前帧中的单个补丁,我们考虑空间邻域内最相似的k个补丁,并计算它们标签的加权平均值以获得当前补丁的预测。处理完一帧后,我们移动到下一帧,将先前的预测视为软实例分割标签。当通过骨干网络转发单个帧时,我们调整图像大小,使最短边匹配特定大小,保持纵横比直到最接近补丁大小的倍数。补丁相似度和标签传播在生成特征的分辨率下计算,然后掩码概率通过双线性调整到原生分辨率以计算J&F。我们考虑几种超参数组合,例如用作上下文的过去帧数量、邻居数量k和空间邻域的大小,如表27中总结的那样。我们在DAVIS的训练集上执行超参数选择,然后将最佳组合应用于所有数据集的测试分割。

D.6 视频分类

数据集和指标  我们使用UCF101 (Soomro et al., 2012)、Something-Something V2 (Goyal et al., 2017)和Kinetics-400 (Kay et al., 2017)数据集评估DINOv3的视频分类。从高层次来看,我们从每个视频中提取固定数量的帧,使用冻结的骨干网络对其进行编码,将所有补丁特征收集到一个扁平序列中,然后将其输入到基于浅层Transformer的分类器中,该分类器在一组标记视频上进行常规监督训练。在以前的工作中,例如(Assran et al., 2025),此协议被称为注意力探针(attentive probe),暗示了用于图像分类的线性探针。在下面的段落中,我们描述了我们对该协议的实现。

训练  在训练时,我们从每个视频中随机选择16个时间位置的帧,跟踪相应的时戳。我们还采样覆盖40%到100%面积的空间裁剪参数——这些参数将在视频的所有帧中共享,以避免抖动。然后我们使用DINOv3将每帧作为独立的256×256图像处理,提取16×16补丁特征并丢弃CLS标记。对于每个补丁,我们跟踪其在[0,1]²框上定义的空间坐标。所有帧的补丁特征线性投影到1024维,连接成长度为16×16×16=409616\times16\times16=409616×16×16=4096的扁平序列,然后输入到四个自注意力块中,这些块建模补丁之间的空间和时间关系。为了确保模型能够访问位置信息,我们在块之前将每个补丁的时戳和空间坐标作为加性正弦-余弦嵌入注入(Vaswani et al., 2017),并在每个注意力头中作为具有随机空间旋转的3D分解RoPE。

推理  在推理时,我们遵循确定性策略为每个视频采样单个片段:我们取第一帧、最后一帧和它们之间均匀间隔的帧,总共16帧。从每帧中,我们裁剪最大的中心正方形并将其调整为256×256像素,可能会丢失矩形视频侧面的信息。然后我们将这些帧输入到DINOv3和分类器中,以获得视频的预测。或者,我们遵循Assran等人(2025)并执行测试时增强(TTA),通过选择多个帧序列和多个空间裁剪,独立处理它们,然后对类别概率进行平均以获得最终预测。片段采样如图22所示。

基线  对于选定的基线模型,我们使用相同的评估协议,即特征提取、分类器架构、训练程序和推理协议,但有一些差异。输入分辨率为256×256像素,适用于使用补丁大小为16的模型,224×224像素适用于补丁大小为14的模型。这样,所有骨干网络产生相同数量的标记,因此在分类器中提供相同数量的计算。所有模型独立地逐帧处理视频,因为它们是在图像上训练的。唯一的例外是V-JEPA 2,我们向其输入整个片段以提取时间感知特征。由于V-JEPA 2将时间轴减少两倍,例如给定16帧输入产生8个时间步,我们复制每个补丁标记以匹配其他模型的序列长度。

表27:在DAVIS 2017训练分割(Pont-Tuset et al., 2017)上评估的视频分割跟踪超参数列表。突出显示的最佳超参数应用于所有数据集。

在这里插入图片描述

在这里插入图片描述

图22:视频分类的片段采样。为训练或推理选择片段意味着确定空间裁剪的坐标以及要采样的帧/时戳。在训练时,我们通过从整个视频中随机选择帧并应用覆盖40%面积的空间裁剪来随机采样片段。在推理时,我们以确定性方式选择片段。在空间上,我们取与左侧、中间和右侧对齐的三个最大的方形裁剪。在时间上,我们取两组重叠的帧,使它们尽可能覆盖视频,并且它们的时戳交错。

D.7 使用线性探针的图像分类

数据集和指标 我们使用广泛采用的线性探针评估来评估DINOv3模型的全局质量。我们在ImageNet-1k (Deng et al., 2009)训练集上训练线性变换,并在val集上评估结果。我们通过评估转移到分类测试集来评估模型的泛化质量:ImageNet-V2 (Recht et al., 2019)和ImageNet-ReaL (Beyer et al., 2020),它们为ImageNet提供替代的图像和标签集,旨在测试对原始ImageNet验证集的过拟合。此外,我们考虑Rendition (Hendrycks et al., 2021a)和Sketch (Wang et al., 2019)数据集,它们呈现ImageNet类别的风格化和人工版本;Adversarial (Hendrycks et al., 2021b)和ObjectNet (Barbu et al., 2019)数据集,包含故意设计的挑战性示例;以及Corruptions (Hendrycks and Dietterich, 2019)数据集,用于测量对常见图像损坏的鲁棒性。对于除ImageNet-C以外的所有数据集,我们报告top-1分类准确率作为评估指标,对于ImageNet-C,我们报告平均损坏误差(mCE,参见(Hendrycks and Dietterich, 2019))。

对于细粒度数据集,我们考虑Oquab等人(2024)的相同12个数据集集合,我们在此称为Fine-S:Food-101 (Bossard et al., 2014)、CIFAR-10 (Krizhevsky et al., 2009)、CIFAR-100 (Krizhevsky et al., 2009)、SUN397 (Xiao et al., 2010)、StanfordCars (Krause et al., 2013)、FGVC-Aircraft (Maji et al., 2013)、VOC 2007 (Everingham et al., 2007)、DTD (Cimpoi et al., 2014)、Oxford Pets (Parkhi et al., 2012)、Caltech101 (Fei-Fei et al., 2004)、Flowers (Nilsback and Zisserman, 2008)和CUB200 (Welinder et al., 2010),以及更大的数据集Places205 (Zhou et al., 2014)、iNaturalist 2018 (Van Horn et al., 2018)和iNaturalist 2021 (Van Horn et al., 2021)。

评估协议  对于较大的数据集ImageNet、Places205、iNaturalist 2018和iNaturalist 2021,我们使用以下程序。对于每个基线,我们使用ImageNet-1k训练集(Deng et al., 2009)在CLS标记的最终特征上(在层归一化之后)训练一个线性层。具体来说,我们使用动量为0.9的SGD,并使用1024的批量大小训练10个周期。我们对学习率{1×10−4,2×10−4,5×10−4,1×10−3,2×10−3,5×10−3,1×10−2,2×10−2,5×10−2,1×10−1,2×10−1,5×10−1,1×100,2×100,5×100}\{1\times10^{-4},2\times10^{-4},5\times10^{-4},1\times10^{-3},2\times10^{-3},5\times10^{-3},1\times10^{-2},2\times10^{-2},5\times10^{-2},1\times10^{-1},2\times10^{-1},5\times10^{-1},1\times10^{0},2\times10^{0},5\times10^{0}\}{1×104,2×104,5×104,1×103,2×103,5×103,1×102,2×102,5×102,1×101,2×101,5×101,1×100,2×100,5×100}和权重衰减值{0,1e−5}\{0,1e-5\}{0,1e5}进行搜索,并使用ImageNet-1k的验证集选择最佳组合。在训练期间,我们使用具有标准Inception裁剪参数的随机调整大小裁剪增强。对于Fine-S中的数据集,遵循Oquab等人(2024),我们使用scitkit-learn的LogisticRegression实现和L-BFGS求解器进行较轻量级的评估。

在这两种情况下,我们都在产生1024个补丁标记的分辨率下评估模型,即对于补丁大小14为448×448,对于补丁大小16为512×512。图像被调整大小,使较短边匹配所选边长,然后取中心方形裁剪。

D.8 实例识别

数据集和指标  我们使用Oxford和Paris数据集进行地标识别(Radenovic et al., 2018),Met数据集包含来自大都会博物馆的艺术品(Ypsilantis et al., 2021),以及AmsterTime,它由现代街景图像与阿姆斯特丹历史档案图像匹配组成(Yildiz et al., 2022)。在表9中,我们报告Oxford-Hard、Paris-Hard和AmsterTime的平均平均精度(mAP),以及Met的全局平均精度(GAP)。在表23中,我们额外提供Oxford-Medium和Paris-Medium的mAP,以及额外指标GAP-和准确率(参见(Ypsilantis et al., 2021))。对于Oxford和Paris,我们将所有图像调整大小,使较长边为224像素长,保持纵横比,然后取全中心裁剪,得到分辨率为224×224的图像。对于AmsterTime,我们将所有图像调整大小,使较短边为256像素长,保持纵横比,然后取224×224的中心裁剪。对于Met,我们在接近其原始分辨率的情况下评估所有图像,将两个尺寸调整为补丁大小的最近倍数(对于补丁大小14/16,长边为508/512)。

评估协议  图像相似度使用查询和目标图像计算的CLS标记之间的余弦距离计算。我们遵循(Radenovic et al., 2018)对Oxford和Paris、(Yildiz et al., 2022)对AmsterTime以及Ypsilantis et al. (2021)对Met的评估协议。对于Met,这包括使用网格搜索调整超参数k和T,在Met的验证集上优化GAP,并使用在Met训练集上估计的PCA对特征进行白化。

D.9 对象检测

数据集和指标  我们在COCO (Lin et al., 2014)和COCO-O (Mao et al., 2023)数据集上评估DINOv3的对象检测。COCO是对象检测的标准基准,涵盖80个对象类别,包含118k训练图像和5k验证图像。COCO-O是一个仅用于评估的数据集,具有与COCO相同的类别,但在更具挑战性的视觉条件下,例如具有显著遮挡、杂乱背景和变化光照条件的场景。为了训练对象检测模型,我们还利用Objects365 (Shao et al., 2019)数据集,该数据集包含2.5M图像并涵盖365个对象类别,其中一部分直接映射到COCO类别。对于COCO和COCO-O,我们报告在IoU阈值[0.5:0.05:0.95][0.5:0.05:0.95][0.5:0.05:0.95]下计算的平均平均精度(mAP)。

架构  我们的方法基于Plain-DETR (Lin et al., 2023b)实现,进行了几项修改。我们不将Transformer编码器融合到骨干网络中,而是将其保持为单独的模块,类似于原始DETR (Carion et al., 2020)。这使我们能够在训练和推理期间保持DINOv3骨干网络完全冻结,使其成为第一个这样做的有竞争力的检测模型。从DINOv3 ViT-7B/16骨干网络中,我们从四个中间层提取特征,即[10, 20, 30, 40]。对于每个补丁,我们按通道连接中间特征,得到4×4096=16384的特征维度,通过下面描述的窗口策略进一步增加。骨干网络特征输入到编码器,编码器是由6个自注意力块组成的堆栈,嵌入维度为768。解码器是由6个交叉注意力块组成的堆栈,具有相同的嵌入维度,其中1500个"一对一"查询和1500个"一对多"查询关注编码器的补丁标记以预测边界框和类别标签。

图像预处理  训练分三个阶段进行,如下所述,一个阶段的基础图像分辨率为1536像素,两个阶段为基础分辨率为2048。遵循DETR,我们应用随机水平翻转(p=0.5)(p=0.5)(p=0.5),然后进行(i)随机调整大小,其中最短边在920像素(或1228)和阶段的基础分辨率(1536或2048)之间均匀采样,或(ii)保留60-100%原始图像区域的随机裁剪,然后按(i)中所述调整大小。在评估时,图像被调整大小,使最短边为2048,不进行额外增强,两边都向上舍入到补丁大小的最近倍数。

窗口策略  然后我们应用一种窗口策略,将图像的全局视图与较小视图结合,以允许骨干网络处理所有尺度的对象。窗口数量固定为3×33\times33×3,其大小根据输入分辨率而变化。例如,对于1536×2304大小的图像:

  1. 图像被划分为3×3个不重叠的512×768大小的窗口。每个窗口通过骨干网络转发,产生维度为16384的32×48补丁标记。所有窗口的特征在空间上重新组装成一个⌊(3×32)×(3×48)⌋\lfloor(3\times32)\times(3\times48)\rfloor⌊(3×32)×(3×48)⌋特征图。

  2. 整个图像被调整为512×768并通过骨干网络转发,产生维度为16384的32×48补丁标记的特征图。然后这些特征通过双线性上采样到96×144,与窗口化特征图的大小匹配。

  3. 最后,步骤1和2中的特征图按通道连接,产生维度为2×16384=327682\times16384=327682×16384=32768的96×144特征图。然后将此特征图展平为96×144个标记的序列并馈送到编码器。

训练  我们遵循三阶段的训练课程,使用Objects365数据集(Shao et al., 2019)和COCO数据集(Lin et al., 2014),分辨率逐渐提高。在整个训练过程中,我们使用AdamW优化器(Loshchilov and Hutter, 2017),权重衰减为0.05。遵循DETR,我们使用Focal Loss (Lin et al., 2018)作为分类损失,权重为2,L1损失作为边界框损失,权重为1,辅以GIoU (Rezatofighi et al., 2019)损失,权重为2。各阶段如下:

  1. 我们首先在Objects365上以1536像素的基础分辨率开始训练。我们在32个GPU上以32的全局批量大小训练22个周期。在初始预热1000步后,学习率设置为5×10^-5,并在第20个周期后除以10。

  2. 然后我们在Objects365上以2048像素的基础分辨率继续训练。我们以2.5×10^-5的学习率训练4个周期。

  3. 我们通过在COCO上以2048的基础分辨率进行12个周期的训练来完成训练。在2000次迭代的线性预热后,学习率遵循余弦衰减计划,从2.5×10-5开始,在第8个周期达到2.5×10-6。在此部分,我们使用IA-BCE分类损失(Cai et al., 2024)而不是DETR的简单Focal Loss。我们观察到此损失在迁移时间提高模型性能,但在预训练时间没有。由于此损失混合了类别和框信息,如果框预测已经很好地初始化,它将发挥其全部潜力。在此部分,GIoU损失权重设置为4,以鼓励更好的框对齐。

测试时增强  在测试时,我们遵循上述推理程序,将图像调整大小,使短边为1536或2048。在这些分辨率下,COCO mAP分别为65.4和65.6。或者,我们可以应用Bolya等人(2025)的测试时增强(TTA)策略,该策略包括翻转和将图像调整为多个分辨率,并使用SoftNMS (Bodla et al., 2017)合并预测。具体来说,每个图像在[1536,1728,1920,2112,2304,2496,2688,2880]的分辨率下处理,产生66.1的mAP。

D.10 语义分割

数据集和指标 我们在ADE20k (Zhou et al., 2017)、Cityscapes (Cordts et al., 2016)、COCO-Stuff (Caesar et al., 2018)上评估DINOv3的语义分割性能。

http://www.dtcms.com/a/340555.html

相关文章:

  • 【Android】一文详解Android里的AOP编程
  • 专题:2025全球消费趋势与中国市场洞察报告|附300+份报告PDF、原数据表汇总下载
  • 【0基础PS】图片格式
  • LWIP的TCP协议
  • Chrome 中的 GPU 加速合成
  • Google Chrome v139.0.7258.139 便携增强版
  • IP查找的方法、工具及应用场景
  • 让Chrome信任自签名证书
  • Google Chrome 扩展不受信任 - 不受支持的清单版本 解决方案
  • 单北斗GNSS位移监测技术解析
  • 爬虫逆向--Day16Day17--核心逆向案例3(拦截器关键字、路径关键字、请求堆栈、连续请求)
  • 欧州服务器String 转 double 有BUG?
  • Ubuntu 上安装 MongoDB
  • 【数据库】Oracle学习笔记整理之六:ORACLE体系结构 - 重做日志文件与归档日志文件(Redo Log Files Archive Logs)
  • RabbitMQ:生产者可靠性(生产者重连、生产者确认)
  • 多模型创意视频生成平台
  • 超高清与低延迟并行:H.266 在行业视频中的落地图谱
  • 【嵌入式电机控制#34】FOC:意法电控驱动层源码解析——HALL传感器中断(不在两大中断内,但重要)
  • 关联查询(left/right)优化
  • 50GHz+示波器:精准捕捉超高频信号
  • 激光雷达点云平面拟合与泊松重建对比分析
  • 【ElasticSearch】ElasticSearch Overview
  • Day 40:训练和测试的规范写法
  • 【深度学习新浪潮】空天地数据融合技术在城市三维重建中的应用
  • 学习嵌入式的第二十二天——数据结构——双向链表
  • 前端图片压缩实战:体积直降 80%,LCP 提升 2 倍
  • 数字化图书管理系统设计实践(java)
  • 【考研408数据结构-04】 栈与队列:受限的线性表
  • Java FTPClient详解:高效文件传输指南
  • 用好 Elasticsearch Ruby 传输层elastic-transport