Dinomaly2:最新多类无监督异常检测SOTA
在计算机视觉领域,**无监督异常检测(Unsupervised Anomaly Detection, UAD)**一直是一个充满挑战但至关重要的任务。它旨在不依赖任何异常样本先验知识的情况下,识别出数据中的异常模式,广泛应用于工业质检、医疗诊断和监控系统等领域。
然而,当前的 UAD 领域正面临着严重的碎片化问题。模型往往针对特定场景(如单类别、多类别、3D 数据、少样本等)进行定制,导致部署复杂、维护成本高昂,并且在多类别任务中,统一模型的性能与最先进的单类别模型之间存在显著差距 [1]。
为了解决这一痛点,清华大学等机构的研究人员提出了 Dinomaly2,这是一个开创性的全谱无监督异常检测统一框架。Dinomaly2 秉持“少即是多”(“less is more”)的哲学,通过精妙地编排一系列简单而基础的组件,在一个标准的基于重建的框架内实现了卓越的性能和前所未有的统一性。
项目地址:https://github.com/guojiajeremy/Dinomaly
paper:Dinomaly: The Less Is More Philosophy in Multi-Class Unsupervised Anomaly Detection

Dinomaly2 的核心贡献在于:
- 全谱统一: 首次实现了跨越多种模态(2D、多视角、RGB-3D、RGB-IR)、多种任务设置(单类别、多类别、推理统一多类别、少样本)和应用领域(工业、生物、户外)的统一 UAD 框架。
- 性能突破: 在多类别 UAD 任务中,显著缩小了与 SOTA 单类别模型之间的性能差距,甚至在多个基准测试中超越了它们。
- 方法论极简主义: 证明了通过通用表征、噪声瓶颈、非聚焦线性注意力、上下文感知中心化和松弛重建等简单机制的组合,可以实现强大的通用性。

Dinomaly2 的“少即是多”哲学:核心机制解析
Dinomaly2 的框架基于重建误差来检测异常区域 [2]。它由一个预训练的编码器、一个瓶颈模块和一个解码器组成。训练时仅使用正常图像进行优化,推理时则通过重建误差来识别异常。其方法论的极简主义体现在以下五个核心组件:
| 核心组件 | 目的 | 机制简述 |
|---|---|---|
| 通用表征 (Universal Representations) | 确保模型能泛化到不同模态和领域。 | 使用经过适当缩放的自监督 Vision Transformers (ViTs) 作为编码器,提供强大的、跨领域的特征表示。 |
| 噪声瓶颈 (Noisy Bottleneck) | 解决重建模型中的“恒等映射”问题。 | 激活 MLP 中的 Dropout 机制,作为一种内置的噪声注入,防止网络过度泛化,避免解码器完美地重建输入。 |
| 非聚焦线性注意力 (Unfocused Linear Attention) | 进一步防止信息完全复制。 | 利用线性注意力机制固有的无法完全聚焦的特性,阻止在重建过程中完全相同的特征信息传播。 |
| 上下文感知中心化 (Context-Aware Recentering) | 解决多类别 UAD 中的“类别混淆”问题。 | 通过特征减法(与类别 Token 相减)进行中心化,优雅地解决了在不同类别中,相同的特征可能是正常或异常的混淆问题。 |
| 松弛重建 (Loose Reconstruction) | 避免解码器完美模仿编码器。 | 故意放松层与层之间、点与点之间的对应关系,防止解码器完美地模仿编码器,从而迫使模型学习更鲁棒的正常模式表示。 |
实验结果:全谱卓越性能
Dinomaly2 在 12 个 UAD 基准数据集上进行了全面的验证,涵盖了 147 个不同的类别/场景,跨越了四种数据模态和四种任务设置。

1. 多类别 UAD (MUAD) 的性能飞跃
在流行的 2D 工业数据集上,Dinomaly2 的统一模型取得了前所未有的性能:
- MVTec-AD: 图像级 AUROC 达到 99.9%。
- VisA: 图像级 AUROC 达到 99.3%。
这一结果显著超越了现有的多类别和单类别 SOTA 模型,有力地证明了 Dinomaly2 成功弥合了多类别与单类别模型之间的性能差距。
2. 跨模态和跨任务的统一性
Dinomaly2 展现了其在复杂场景下的强大适应性:
| 模态/任务 | 数据集 | 关键性能指标 (I-AUROC) | 亮点 |
|---|---|---|---|
| 多视角检测 | Real-IAD, MANTA-Tiny | 94.9% (物体级) | 仅需最小的适应即可实现 SOTA 性能。 |
| RGB-3D | MVTec3D | 97.4% | 优于专门的多模态 UAD 方法。 |
| RGB-IR (红外) | MulSen-AD | 97.6% | 优于专门的多模态 UAD 方法。 |
| 少样本 UAD | MVTec-AD, VisA | 98.7%, 97.4% | 每类别仅使用 8 个正常样本,性能超越了此前的全样本模型。 |
| 推理统一 MUAD | 混合类别 | 鲁棒性强 | 首次系统性地研究了在混合类别下使用单一阈值进行异常检测的挑战,Dinomaly2 表现出强大的鲁棒性。 |
3. 可扩展性分析
研究人员首次对 UAD 框架的可扩展性进行了系统性研究。结果表明,Dinomaly2 在模型尺寸、输入分辨率和基础模型质量方面都表现出强烈的正向扩展行为,这意味着随着计算资源的增加和基础模型的改进,Dinomaly2 的性能将持续提升。
结论:迈向通用异常检测的里程碑
Dinomaly2 不仅仅是一个高性能的异常检测模型,它更代表了 UAD 领域方法论的一次重要转变。它挑战了通过增加复杂性来解决问题的传统思路,转而倡导极简主义和统一性。
通过 Dinomaly2,研究人员证明了精心设计的简单组件的组合,能够构建出一个计算可扩展、应用普遍适用的统一解决方案,从而覆盖现实世界异常检测应用的全谱范围。对于希望在工业、医疗或任何需要高精度异常检测的领域部署统一模型的工程师和研究人员来说,Dinomaly2 无疑提供了一个强大的、开箱即用的新范式。

参考文献
[1] Jia Guo, Shuai Lu, Lei Fan, Zelin Li, Donglin Di, Yang Song, Weihang Zhang, Wenbing Zhu, Hong Yan, Fang Chen, Huiqi Li, Hongen Liao. One Dinomaly2 Detect Them All: A Unified Framework for Full-Spectrum Unsupervised Anomaly Detection. arXiv:2510.17611. https://arxiv.org/pdf/2510.17611
