图像分类项目
一、图像分类核心定义
图像分类的核心目标是将不同图像划分到对应类别标签,最终实现分类误差最小化。
二、图像分类的三层境界
根据分类粒度的不同,图像分类分为三个层级,从粗到细逐步递进:
- 通用多类别图像分类:针对大范围、粗分类别,例如 PPT 中提及的 10 类常见物体(飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船、卡车)。
- 子类细粒度图像分类:对 “通用类别” 进一步细分,聚焦同一大类下的不同子类别(PPT 中以图像示例,未明确文字类别,推测为如 “不同品种的狗”“不同型号的汽车” 等细分类场景)。
- 实例级图片分类:区分同一子类别下的不同个体实例(如 “同一只猫的不同照片”“同一台工业设备的不同角度图像”),分类粒度最细。
三、图像分类核心评估指标
评估指标是衡量模型分类效果的关键,PPT 重点讲解了基于 “混淆矩阵” 延伸的系列指标及可视化工具:
1. 混淆矩阵基础概念
混淆矩阵是评估分类结果的核心工具,定义了四类核心统计量:
- TP(True Positive,真正例):将正类样本正确预测为正类的数量。
- FP(False Positive,假正例):将反类样本错误预测为正类的数量。
- TN(True Negative,真反例):将反类样本正确预测为反类的数量。
- FN(False Negative,假反例):将正类样本错误预测为反类的数量。
2. 关键评估指标定义
指标名称 | 核心定义 | 计算逻辑(基于 TP/FP/TN/FN) |
---|---|---|
精确率(Accuracy) | 模型整体分类精度,即 “识别正确的样本数占总样本数的比例”,是最常用的基础指标 | (TP+TN)/(TP+FP+TN+FN) |
准确率(Precision,查准率) | 模型预测为 “正类” 的样本中,真正为正类的比例(聚焦 “预测正类的准确性”) | TP /(TP+FP) |
召回率(Recall,查全率) | 所有真实正类样本中,被模型正确识别为正类的比例(聚焦 “正类的覆盖度”) | TP /(TP+FN) |
F1-Score | 平衡 Precision 与 Recall 的指标,为两者的调和平均数(避免单一指标偏差) | 2×(Precision×Recall)/(Precision+Recall) |
3. P-R 曲线(Precision-Recall 曲线)
- 核心特点:召回率(Recall)提升时,精确率(Precision)通常会下降,呈反向变化趋势。
- 模型优劣判断:曲线与坐标轴围成的 “面积越大”,模型分类性能越好。
- 局限性:对 “正负样本不均衡” 场景敏感,此类场景下曲线参考价值降低。
4. 多类别分类的混淆矩阵
对于 k 分类问题(需区分 k 个类别),混淆矩阵为k×k 矩阵:
- 矩阵元素 Cij:表示第 i 类样本被模型预测为第 j 类的数量。
- 关键判断依据:主对角线元素之和为 “正确分类的样本总数”,其余元素之和为 “错误分类的样本总数”;主对角线元素值越大,模型整体分类准确率越高。
四、模型基本概念
PPT 聚焦 “网络深度” 与 “网络宽度” 两个核心属性,以经典 LeNet 网络为例进行说明:
网络的深度:
- 定义:深度学习模型的核心属性,指 “计算最长路径的卷积层 + 全连接层数量”。
- 示例:LeNet 网络的深度为 5 层,由 C1(卷积层 1)、C3(卷积层 3)、C5(卷积层 5)、F6(全连接层 6)、Output(输出层)组成。
网络的宽度:
- 定义:指 “每一层网络的通道数”,计算时以卷积网络层为基准。
- 示例:LeNet 网络中,C1 层通道数为 6,C3 层通道数为 16,即两层的宽度分别为 6 和 16。
五、样本量过少的问题与解决方案
样本量过少是图像分类(尤其工业产品、医疗领域)的常见难题,原因是 “样本获取难度大”,PPT 提供两类核心解决方案:
1. 迁移学习
- 核心逻辑:利用 “通用数据集预训练模型”(如 ImageNet 数据集,含海量通用图像),将预训练模型的参数作为基础,迁移到目标分类任务中。
- 优势:无需从零训练模型,可大幅加速模型收敛,提升小样本场景下的分类效果。
2. 数据增强
通过技术手段扩充样本数量,分为两类方法:
- 有监督方法:基于原始样本进行简单变换,不改变样本类别标签,包括平移、翻转、调整亮度 / 对比度、裁剪、缩放等。
- 无监督方法:通过生成式模型(如 GAN 网络,生成对抗网络)生成 “与原始样本分布一致的新样本”,再将生成样本用于模型训练,进一步扩充数据量。