DINOv3的学习
DINOv3
一、核心思想
旨在构建一个“一次预训练,处处可应用”的通用视觉表征基础模型。
核心表现在以下几个方面:
1.纯粹自监督的优越性:摆脱人工数据标注,仅仅从原始像素中学习,来避免标注的偏见,实现真正的通用性。
2.缩放定律的践行:通过同时扩大模型参数和训练的数据,可以释放出模型前所未有的泛化性和鲁棒性。(泛化性:学习知识举一反三的能力 鲁棒性:模型面对噪声、干扰或数据变化时稳定性)
3:实用性:模型的核心价值在于其产出的特征可以直接被下游任务直接使用,无需微调主干网络。为实际应用节省了大量的计算成本和部署复杂性。
二、主要解决的问题
通用性、密集特征质量、可扩展性。
密集特征质量:改进模型输出的特征图,使其在分割、深度估计任务中更有效。
可扩展性:适应不同的部署场景
三、三大关键技术贡献
1.大规模自监督训练
在170亿张网络图片的池子中,通过三种方式筛选出高质量16.89亿用于训练。
聚类法:确保数据覆盖广泛
检索法:确保数据与常见的下游任务相关
加入经典数据集:如ImageNet来优化特定性能
2.用到的训练方法:
全局损失:让图像级表征具有区分度
局部损失:让图像块级表征同样有区分度
正则化项:防止特征在嵌入空间中出现聚集,促进特征均匀分布,覆盖整个空间。
模型架构与优化: 采用恒定的超参数进行长时间训练,简化了训练的流程
模型深度保持40层,但将维度提升至4060,使用更小的图像块,从而增加了序列长度,提升模型处理细节的能力。
采用抖动的旋转位置编码,增强了模型对不同分辨率、长宽比和裁剪的鲁棒性。
四、Gram锚定:解决密集特征退化的问题
这篇论文发现的问题是:在长时间去训练大规模模型时,模型的全局性能会持续提升,但密集特征的质量会显著下降,导致在分割任务上表现很差。换句话说,模型在分类越来越好的同时,逐渐丧失了对图像内部细节和几何结构的精细感知能力,从而在分割、深度估计等任务上表现很差。
根本原因是:模型为了优化全局目标,忽视了图像块之间的局部一致性。特征变得平滑但是模糊,一个图像块的特征会与许多不相关的图像块特征相似,局部判别力下降。
Gram Anchoring的巧妙之处:
它不直接约束特征值,而是去约束特征之间的关系。
损失函数L-Gram旨在最小化Gram矩阵之间的差异
注:Gram矩阵其实就是计算关系网的点积,点积反应的是两个向量之间的相似性(方向和幅度),所以Gram矩阵本质就是一张特征相似性关系网。
优点:
1.保持灵活性:只要特征之间的相对相似性保持不变,特征本身可以自由变化以优化其他目标,避免了与全局学习目标的冲突。
2.有效修复:在大规模训练导致特征严重退化后,引入此损失能迅速拉回高质量的局部特征。
总结一下优点:灵活性就是,特征之间的关系不能乱,至于特征本身具体是什么,模型可以自由发挥,保证了不会阻碍模型学习其他任务。有效修复就是,即使模型特征退化,可以自发调整自己,重新变回一个高质量局部特征的”好模型“。
五、全面的训练后增强
1.高分辨率自适应:在一个简短的阶段内,用不同分辨率继续训练模型。此阶段必须使用Gram Anchoring,否则高分辨下的密集特征会再次退化。结果是可以让模型产出更高分辨率的图像。
2.高效蒸馏:在密集任务上远超监督学习的版本,证明DINOv3知识的强大迁移能力
3.文本对齐:就是让模型不经过任何专门的训练,就能根据文字描述识别图片中的物体。采用LIT范式,学会文字描述和DINOv3看到的图像特征对齐。
六、总结
DINOv3是自监督视觉研究的一个里程碑和范式转变。证明了:
1.自监督学习完全可以产出超越监督方法的通用视觉表征。
2。它提供了一个强大的、多功能视觉基石,加速创新学术研究或工业应用(尤其在数据标注困难的领域)
