《计算机视觉度量:从特征描述到深度学习》-- 基于MAE预训练模型DinoV3的图像特征分析
今天是2025年10月3日,祝大家节日快乐。在8月中旬,Mate发布新的MAE大模型。同一时间基于DinoV3的工业检测大模型ADWEB0.3发布
MAE的训练方式,可以简单理解为一种模型“拼图”。采用数据自学习的方式,训练模型,获取图片每个Patch特征数据。 每个Patch就是一个Token,具体的表述可以参看VIT模型。这种数据训练方式就避免了人工数据的干扰,因为任何自然图像都可以进行MAE训练,避免人工数据干扰,从而获取自然数据的总结特征方法。
大模型离不开大数据支持,MAE也一样,目前模型可以吞下1689m个图片,并对图片特征数据进行总结。也带来特征数据的表达更具体,在一些DinoV3的测试例子有明显表现,但是更具体的特征会在更大的数据训练中,表现的更好。
在DinoV2过度到DinoV3过程中,不单单是模型对数据的增长明显,同时训练后输出的特征也更具体,带来的弊端是需要的参数的也指数增长。带来的计算代价也越来越高。所以在基于DinoV3的模型设计下游任务的时候,效率有所降低,但是效果提升明显。
下游任务在使用过程中,使用更大的模型参数,才能获取更准确的特征,比较明显的趋势是模型从B级参数升到了L级参数,才能完全对数据特征表现出优势,同时模型的层数提升了一倍,计算量增加明显。
这种表现可以对比一下ADWEB0.2和ADWEB0.3版本的区域。ADWEB0.3是基于DinoV3提取特征的后处理方式进行的缺陷检测。同时继承了DinoV3的特性。对大尺寸和细微缺陷的检测提升比较明显。目前模型设置的每个Patch是16*16,模型检测的缺陷最小尺寸缩小为8个像素。对大尺寸的图片特征提取也比较明显。推理不会对数据进行压缩,只做原图推理获取特征。
模型下载地址:文件分享
同时有模型的使用教程,谢谢大家的支持