图像AUROC和像素AUROC
图像AUROC(Area Under the Receiver Operating Characteristic curve for images)和像素AUROC(Pixel AUROC)是评估二分类模型性能的两个重要指标,它们在计算机视觉领域,尤其是在异常检测、图像分割等任务中被广泛使用。理解这两个指标的差异及其应用场景,对于准确评估模型性能至关重要。
图像AUROC (Image AUROC)
图像AUROC用于评估模型在整个图像级别上区分正常图像和异常图像的能力。在图像异常检测任务中,模型的目标是判断一张完整的图片是正常的还是包含异常。Image AUROC通过计算图像级别的真阳性率(True Positive Rate, TPR)和假阳性率(False Positive Rate, FPR)来构建ROC曲线,并计算曲线下的面积。TPR表示模型正确识别出的异常图像占所有实际异常图像的比例,而FPR表示模型错误地将正常图像识别为异常图像的比例。Image AUROC的值越高(越接近1),表示模型在图像级别上的分类性能越好。
例如,在纳米抗体-抗原相互作用预测中,研究人员使用AUROC来评估模型对不同生物体和实验条件下的二分类任务性能。图AUROC for Different Organisms展示了针对鼠(M. musculus)、果蝇(D. melanogaster)、线虫(C. elegans)、酿酒酵母(S. cerevisiae)和大肠杆菌(E. coli)等生物体的AUROC值,其范围在0.857到0.985之间,表明模型在图像识别任务中表现出色。在另一个出分布检测(OOD)方法的比较研究中,MSP(Maximum Softmax Probability)方法在小规模数据集上的AUROC值接近95,而MLS(Margin of Logits Score)也接近95,表明这些方法在区分正常和异常图像方面表现良好。
AUROC for Different Organisms
Small-scale vs Large-scale OOD...
此外,在工业异常检测的背景下,图像AUROC被用来衡量模型是否能够正确识别出产品中是否存在缺陷,例如在激光功率计传感器缺陷检测和工业视觉异常检测等任务中。
像素AUROC (Pixel AUROC)
像素AUROC用于评估模型在像素级别上识别图像中异常区域的能力,这通常与异常定位或图像分割任务相关。与图像AUROC不同,像素AUROC关注的是图像中每个像素点的分类准确性,即判断每个像素是属于正常区域还是异常区域。计算像素AUROC时,模型为每个像素生成一个异常分数,然后根据这些分数和像素级别的真实标签(通常是异常区域的掩码)来构建ROC曲线。像素AUROC对于需要精确定位异常的任务至关重要,例如工业产品表面缺陷检测,医学图像中的病灶分割等。
例如,在工业异常检测和定位中,研究人员发现“图像AUROC”通常比“像素AUROC”表现出更高的值。在样本百分比为0.5时,“图像AUROC”达到约0.99,而“像素AUROC”约为0.985。这表明在某些情况下,模型更容易在整体图像级别上识别异常,而不是在像素级别上精确地分割出异常区域。在另一项研究中,比较了不同掩膜块大小(k)和掩膜概率(p)对图像级AUROC和像素级AUROC的影响,结果显示图像级AUROC通常高于像素级AUROC,但两者都随参数变化而变化,例如,当掩膜块大小k从1增加到5时,图像级AUROC从97.5%上升到98.6%,而像素级AUROC从96.4%上升到97.0%。
Image AUROC vs Pixel AUROC
Impact of Mask Block Size and ...
异同与应用场景
- 相同点:两者都是基于接收者操作特征曲线(ROC曲线)下面积的评价指标,用于衡量二分类模型的性能。它们的值域都在0到1之间,值越高表示模型性能越好。
- 不同点:
- 粒度:图像AUROC关注的是整个图像的分类结果,而像素AUROC关注的是图像中每个像素点的分类结果。
- 应用目的:图像AUROC适用于判断图像是否存在异常(即异常检测),而像素AUROC适用于定位图像中的异常区域(即异常分割或定位)。
- 选择依据:在实际应用中,选择哪个AUROC指标取决于任务的具体需求。如果只需要知道图像是否异常,则图像AUROC是更合适的指标。如果需要知道异常在图像中的具体位置,则像素AUROC更为关键。例如,在乳腺癌检测中,AUROC用于评估模型对乳腺肿块的检测和分类能力,通常会同时关注图像级别和区域级别的性能。
最新研究和进展
当前研究正致力于提高异常检测和分割的准确性,并解决AUROC指标在某些情况下的局限性。
- 长尾语义分割中的AUC优化:传统的AUC优化方法在像素级长尾语义分割中面临挑战,因为每个像素的损失计算以及长尾分布下样本量的不平衡会影响性能。因此,AUCSeg等方法被提出,以实现面向AUC的像素级长尾语义分割,这表明研究人员正在探索更精细的指标优化方法。
- 统一异常分割:传统的AUROC指标在不平衡的无监督异常检测(UAD)设置下可能会掩盖精确分割的意义。因此,研究人员提出需要更精确的分割方法,并强调了统一异常分割的重要性。
- 领域泛化与自监督学习:为了克服训练数据中噪声样本对出分布检测(OOD)性能的影响,一些方法如ACRE(Ours)被提出,它们在不同比例下展示出较高的AUROC值,显示了对噪声环境的鲁棒性。自监督学习(Self-supervised Learning)在异常检测领域取得了显著进展,其算法性能已超越现有最先进方法。在MvTecAD数据集上的AUROC排名显示,SSL-AD(半监督AD)方法,如“Spatial-Scale”,AUROC值高达97.0,远高于传统的浅层AD和生成式AD方法。
- 新的评估框架:为了更好地评估深度神经网络的未知检测能力,研究人员提出了一个统一的基准测试,涵盖了误分类检测、开集识别和出分布检测等任务,这些任务都广泛使用AUROC作为关键评估指标。
- 生成模型与重构:基于重构的异常检测方法,特别是利用生成模型(如自编码器和GANs),在工业图像异常检测中仍是热门研究方向。例如,结合高频和低频信息增强的一步去噪扩散模型以及频率感知扩散模型等,都致力于提高重建图像的质量,从而提升异常检测的性能。这些方法通过学习正常数据的分布,识别与正常模式偏离的异常样本,其性能通常通过AUROC进行评估。
综上所述,图像AUROC和像素AUROC是评估模型在不同粒度上识别异常能力的关键指标,它们在计算机视觉及其相关应用中发挥着不可替代的作用。随着深度学习技术的发展,研究人员正不断探索更先进的模型架构和评估策略,以提高这两个指标的性能,尤其是在复杂和挑战性的场景下。