当前位置：首页 > news >正文

深度学习图像分类

news 2025/9/26 11:56:20

通用多类别分类：最基础的 “大类区分”

这是图像分类的入门级任务，核心是区分差异显著的宏观类别。最经典的案例是 CIFAR-10 数据集，包含飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车 10 个类别 —— 模型只需判断一张图像属于这 10 类中的哪一类即可。这类任务中，类别间特征差异明显，比如 “飞机” 的机翼形状、“船” 的水上形态，模型较易学习到区分特征，是入门者的常用练习场景。

子类细粒度分类：更精细的 “同类区分”

当分类需求从 “大类” 转向 “子类”，难度便大幅提升。细粒度分类要求区分同一大类下的不同子类，比如在 “鸟类” 大类中，要进一步识别是麻雀、画眉、老鹰；在 “花卉” 大类中，要区分玫瑰、百合、郁金香。这类任务的难点在于子类间特征差异微小，可能仅体现在羽毛的纹路、花瓣的数量、叶片的形状等细节上，需要模型具备更强的局部特征提取能力。

实例级分类：最高阶的 “个体区分”

实例级分类是图像分类的最高层次，目标是区分同一子类下的不同个体。典型场景如人脸识别（区分不同人的面部）、商品溯源（区分同一品牌同一型号的不同商品）、动物个体识别（区分同一群羊中的某一只）。这类任务中，个体间的差异可能极其细微（如人脸的眼角弧度、商品的细微划痕），对模型的特征精细化学习能力提出了极高要求，也是当前研究的热点方向之一。

混淆矩阵：分类结果的 “全景地图”。

二分类场景：混淆矩阵为 2×2 矩阵，包含四个核心指标：TP（True Positive，真正例）：正类样本被正确预测为正类的数量。FP（False Positive，假正例）：反类样本被错误预测为正类的数量（误判）。TN（True Negative，真反例）：反类样本被正确预测为反类的数量。FN（False Negative，假反例）：正类样本被错误预测为反类的数量（漏判）。
多分类场景：若为 k 分类任务，混淆矩阵为 k×k 矩阵，元素 Cij 表示第 i 类样本被预测为第 j 类的数量。其中，主对角线元素之和是正确分类的样本数，非对角线元素之和是错误分类的样本数。主对角线元素值越大，说明模型对对应类别的分类准确率越高。

核心指标：精准度与全面性的平衡

精确率（Accuracy）：最常用的整体指标，计算公式为 **（正确分类的样本数 / 总样本数）×100%**。它反映模型在所有样本中的整体正确比例，但对 “类别不均衡” 敏感 —— 若数据中 90% 是正类，模型即使将所有样本预测为正类，精确率也能达到 90%，但实际对反类的分类能力为 0。准确率（Precision，查准率）：聚焦 “预测为正类的样本中，真正为正类的比例”，计算公式为TP / (TP + FP)。适用于对 “误判” 敏感的场景，比如垃圾邮件检测 —— 将正常邮件误判为垃圾邮件（FP）会影响用户体验，需高准确率。召回率（Recall，查全率）：聚焦 “所有真实正类样本中，被正确预测的比例”，计算公式为TP / (TP + FN)。适用于对 “漏判” 敏感的场景，比如癌症诊断 —— 漏判癌症患者（FN）可能延误治疗，需高召回率。F1-Score：由于准确率和召回率通常 “此消彼长”，F1-Score 作为两者的调和平均数，能综合衡量模型性能，计算公式为2×(Precision×Recall) / (Precision + Recall)。F1-Score 越高，说明模型在 “精准” 和 “全面” 之间的平衡越好。