图像分类数据集难度怎么评?
一、为啥要评估数据集难度?
你可能会发现:用 MNIST 训练模型,随便搭个简单网络就能准确率 99%;但换了 CIFAR-100,调半天参数可能还在 50% 徘徊。这其实是数据集本身的 “难度” 在搞鬼。
评估数据集难度很重要:
- 选对数据集:新手练手用简单的,研究复杂模型用有挑战性的
- 解释模型性能:不是模型差,可能是数据太难了
- 指导训练策略:难的数据集可能需要更多数据增强或更复杂的模型
但难度这东西很主观,比如 “猫” 和 “狗” 的图片,对模型来说可能比 “数字 0” 和 “数字 1” 难 10 倍,但怎么量化这种差距呢?
二、评估难度的核心指标
看距离:同类像不像,异类差多少?
最直观的想法:同一类的图片越像(类内距离小),不同类的图片越不像(类间距离大),数据集就越简单。
- 类内距离:计算通常采用余弦相似度的变体。比如所有 “猫” 的图片,长得越像,这个值越小,训练越容易
- 类间距离:反映了同一类中样本的聚集程度。比如 “猫” 和 “狗” 的图片差异越大,这个值越大,越容易区分
- 类分离度:综合上面两个指标,分离度越高,分类越简单
在实际应用中,研究者还提出了基于轮廓系数的相似度分数(SimSS)来评估数据集难度。该指标综合考虑了类内紧密度和类间距离,
举个例子:MNIST 里的数字,同类(比如都是 “3”)写法再变也差不远,不同类(比如 “3” 和 “8”)差异明显,所以分离度高,难度低。
看信息:图片越复杂越难?
用 “熵” 来衡量图片的复杂程度:
- 香农熵:图片里像素颜色分布越乱,熵越高(比如杂草丛生的照片比纯色背景难)
- 纹理熵:考虑像素之间的关系,比如斑马的条纹比纯色 T 恤的纹理熵高
比如自动驾驶数据集里,Cityscapes 的熵是 6.85,而 Vistas 达到 7.39,说明后者的街景更复杂,模型更难学。
看分离度:类间差异 vs 类内差异
- 经典的Fisher 判别比就干这事:类间均值差异大、类内方差小,说明数据容易分。
- 反过来,逆 Fisher 判别比(IFDR) 越大,数据集越难。比如 CIFAR-100 比 CIFAR-10 难,就是因为类别太多,同类差异大、异类差异小。
看平衡:类别样本数差太多也难
如果一个数据集里,“猫” 有 1000 张图,“老虎” 只有 10 张,模型很容易学偏(只认识猫)。这种类别不平衡用 “类别不平衡系数(CIR)” 衡量,值越大越难。
比如 iNaturalist 数据集,有的物种有上万张图,有的只有几十张,训练起来特别考验模型。
三、经典数据集难度大比拼
用这些指标看下来,常见数据集的难度排序大概是这样:
- MNIST:最简单!28x28 的手写数字,类内差异小,随便练手
- Fashion-MNIST:比 MNIST 难,衣服鞋子的区别比数字小
- CIFAR-10:32x32 彩色图,10 个类别,背景复杂
- CIFAR-100:100 个类别,很多类别长得像(比如不同种类的鸟)
- ImageNet:巨难!1000 个类别,图片质量参差不齐,还有 46% 的 “简单图” 和 11% 的 “神仙难图”
有意思的是,研究发现:模型 90% 的好成绩都来自那些 “简单图”,难图才是真正考验模型能力的地方!
四、基准测试平台的发展
基准测试平台的建设是推动数据集难度评估标准化的关键。
SELECT 基准是第一个大规模的图像分类数据策展策略基准。该基准包含 5 个新的 ImageNet 训练数据偏移,每个偏移都使用不同的策展策略组装,规模约等于 ImageNet-1K。SELECT 基准通过训练超过 130 个模型,系统评估了不同策展策略的效果,为数据策展研究提供了重要资源。
ImageNet++ 数据集代表了数据集构建的新方向。该数据集是 ImageNet-1K 迄今为止最大的超集,通过 5 种不同的策展策略扩展了 ImageNet,包括众包、基于嵌入的搜索和合成数据生成等。ImageNet++ 不仅提供了更多的数据,更重要的是展示了不同策展策略对模型性能的影响。
DataPerf 生态系统持续扩展。作为由 MLCommons 协会支持的社区主导基准套件,DataPerf 已经从最初的 5 个基准扩展到涵盖视觉、语音、采集、调试和扩散提示等多个领域。该平台通过竞争、可比性和可重现性促进数据中心 AI 的创新,为数据集难度评估提供了统一的评估框架。
五、 现有指标的改进
对现有指标的改进主要集中在提高准确性、降低计算复杂度和增强鲁棒性等方面。
改进的特征选择方法解决了现有基于特征的复杂度度量方法的不足。研究者提出了 F5 度量,通过识别同一类的不间断实例长序列来评估每个类特征的判别能力。实验表明,F5 度量能够更好地表示数据集的特征复杂度,特别是在处理具有多个类别的合成分类数据集时表现出色。
轻量级分类难度度量显著提高了评估效率。研究者提出了一种基于余弦相似度的分类难度度量 S,仅需单次训练和测试就能预测不同数据集和同系列模型的相对性能。该方法在 8 个 CNN 和 ViT 模型以及 7 个数据集上的实验表明,S 与模型准确率的相关系数达到 0.796,优于基线欧氏距离的 0.66。
自适应加权融合方法提高了多指标融合的灵活性。例如,自适应加权深度融合架构(AWDF)能够根据不同模态数据的重要性动态调整权重。在三个真实数据集上的实验结果证明了 AWDF 相对于其他融合方法的优越性。