深度学习-图像分类
一、图像分类基础
(一)核心定义
图像分类是指将不同图像划分到对应类别标签,核心目标是实现最小分类误差,即让模型对图像类别的判断尽可能准确。
(二)三层境界
- 通用多类别图像分类:针对常见且差异明显的大类图像进行分类,例如将图像分为飞机(airplane)、汽车(automobile)、鸟(bird)、猫(cat)、鹿(deer)、狗(dog)、青蛙(frog)、马(horse)、船(ship)、卡车(truck)等类别,各类别间特征区分度较高。
- 子类细粒度图像分类:聚焦同一大类下的不同子类,需区分更细微的特征差异。比如在 “汽车” 大类中,进一步区分不同品牌、型号的汽车,这类分类对图像细节特征的提取要求更高。
- 实例级图片分类:针对同一物体的不同实例进行分类,例如区分同一品牌、同一型号但不同个体的汽车,需要捕捉到每个实例独有的、极其细微的特征,分类难度最大。
二、图像分类评估指标
(一)基础概念:混淆矩阵
混淆矩阵是评估分类模型性能的基础工具,通过它可明确四类关键数据:
- TP(True Positive,真正例):将正类样本正确预测为正类的数量。
- FP(False Positive,假正例):将反类样本错误预测为正类的数量。
- TN(True Negative,真反例):将反类样本正确预测为反类的数量。
- FN(False Negative,假反例):将正类样本错误预测为反类的数量。
(二)核心评估指标
指标名称 | 定义 | 计算公式 | 核心意义 |
---|---|---|---|
精确率(Accuracy) | 模型识别正确的样本个数占总样本个数的比例 | (TP + TN)/(TP + FP + TN + FN) | 衡量模型整体的分类准确性,适用于样本类别分布相对均衡的场景 |
准确率(Precision,查准率) | 模型预测为正类的样本中,真正为正类的样本所占比例 | TP /(TP + FP) | 关注预测为正类的样本质量,避免将过多反类误判为正类 |
召回率(Recall,查全率) | 模型正确识别出的正类样本数量占总正类样本数量的比值 | TP /(TP + FN) | 关注正类样本的覆盖程度,避免遗漏过多正类样本 |
F1-Score | 精确率和召回率的调和平均数 | 2×(Precision×Recall)/(Precision + Recall) | 综合考虑精确率和召回率,当两者存在矛盾时,可平衡模型性能,避免单一指标的局限性 |
(三)P-R 曲线
- 曲线特征:P-R 曲线以召回率为横轴、精确率为纵轴。随着召回率的增加,精确率通常会下降,这是因为扩大正类样本的识别范围时,难免会引入更多反类样本。
- 模型评估标准:曲线与坐标轴围成的面积越大,说明模型在精确率和召回率的平衡上表现越好,整体性能更优。
- 局限性:对正负样本不均衡的情况较为敏感,在这类数据集中,P-R 曲线可能无法准确反映模型的真实性能。
(四)多类别分类评估:k×k 混淆矩阵
- 矩阵结构:对于 k 分类问题,混淆矩阵为 k 行 k 列的矩阵,其中元素 Cij 表示第 i 类样本被分类器判定为第 j 类的数量。
- 评估逻辑:矩阵主对角线的元素之和为正确分类的样本数,其余元素之和为错误分类的样本数。主对角线元素值越大,说明模型对对应类别的分类准确性越高,整体分类器准确率也越高。
三、模型基本概念
(一)网络的深度
- 定义:深度学习模型最重要的属性之一,指计算网络中最长路径的卷积层与全连接层数量之和。
- 示例:LeNet 网络的深度计算为 C1(卷积层)+ C3(卷积层)+ C5(卷积层)+ F6(全连接层)+ Output(全连接层),共 5 层。
(二)网络的宽度
- 定义:指网络中每一层的通道数,通常以卷积网络层的通道数来衡量。
- 示例:LeNet 网络中,C1 层的通道数为 6,C3 层的通道数为 16,这两个数值分别代表了对应卷积层的宽度。
四、图像分类中的问题与解决方案
(一)核心问题:样本量过少
- 问题成因:在部分场景中,样本获取难度较大,导致总体样本量过少,如工业产品缺陷图像(需特定缺陷场景,获取成本高)、医疗图像(受隐私保护、病例数量限制等影响),样本量不足会导致模型训练不充分,泛化能力差。
(二)解决方案
- 迁移学习
- 原理:利用在大规模通用数据集(如 ImageNet 数据集)上预训练好的模型,将其学习到的通用特征迁移到当前图像分类任务中。
- 优势:ImageNet 数据集包含海量多样的图像,预训练模型已掌握丰富的基础图像特征,可大幅加速当前模型的收敛速度,减少对当前任务样本量的依赖,提升模型性能。
- 数据增强
- 有监督方法:通过对已有样本进行人工干预的变换,生成新的训练样本,常见方式包括平移(将图像沿水平或垂直方向移动一定距离)、翻转(水平翻转或垂直翻转图像)、调整亮度 / 对比度(改变图像的亮度和色彩对比度)、裁剪(从图像中裁剪出部分区域作为新样本)、缩放(放大或缩小图像尺寸)等,这些方法不改变样本的类别标签,仅增加样本的多样性。
- 无监督方法:借助生成式模型(如 GAN 网络,生成对抗网络)自动生成符合当前任务需求的新样本,无需人工标注类别标签,然后将生成的样本用于模型训练,补充样本数量,提升模型的泛化能力。