当前位置：首页 > news >正文

深度学习-图像分类

news 2025/9/28 12:58:46

一、图像分类基础

（一）核心定义

图像分类是指将不同图像划分到对应类别标签，核心目标是实现最小分类误差，即让模型对图像类别的判断尽可能准确。

（二）三层境界

通用多类别图像分类：针对常见且差异明显的大类图像进行分类，例如将图像分为飞机（airplane）、汽车（automobile）、鸟（bird）、猫（cat）、鹿（deer）、狗（dog）、青蛙（frog）、马（horse）、船（ship）、卡车（truck）等类别，各类别间特征区分度较高。
子类细粒度图像分类：聚焦同一大类下的不同子类，需区分更细微的特征差异。比如在 “汽车” 大类中，进一步区分不同品牌、型号的汽车，这类分类对图像细节特征的提取要求更高。
实例级图片分类：针对同一物体的不同实例进行分类，例如区分同一品牌、同一型号但不同个体的汽车，需要捕捉到每个实例独有的、极其细微的特征，分类难度最大。

二、图像分类评估指标

（一）基础概念：混淆矩阵

混淆矩阵是评估分类模型性能的基础工具，通过它可明确四类关键数据：

TP（True Positive，真正例）：将正类样本正确预测为正类的数量。
FP（False Positive，假正例）：将反类样本错误预测为正类的数量。
TN（True Negative，真反例）：将反类样本正确预测为反类的数量。
FN（False Negative，假反例）：将正类样本错误预测为反类的数量。

（二）核心评估指标

指标名称	定义	计算公式	核心意义
精确率（Accuracy）	模型识别正确的样本个数占总样本个数的比例	（TP + TN）/（TP + FP + TN + FN）	衡量模型整体的分类准确性，适用于样本类别分布相对均衡的场景
准确率（Precision，查准率）	模型预测为正类的样本中，真正为正类的样本所占比例	TP /（TP + FP）	关注预测为正类的样本质量，避免将过多反类误判为正类
召回率（Recall，查全率）	模型正确识别出的正类样本数量占总正类样本数量的比值	TP /（TP + FN）	关注正类样本的覆盖程度，避免遗漏过多正类样本
F1-Score	精确率和召回率的调和平均数	2×(Precision×Recall)/(Precision + Recall)	综合考虑精确率和召回率，当两者存在矛盾时，可平衡模型性能，避免单一指标的局限性

（三）P-R 曲线

曲线特征：P-R 曲线以召回率为横轴、精确率为纵轴。随着召回率的增加，精确率通常会下降，这是因为扩大正类样本的识别范围时，难免会引入更多反类样本。
模型评估标准：曲线与坐标轴围成的面积越大，说明模型在精确率和召回率的平衡上表现越好，整体性能更优。
局限性：对正负样本不均衡的情况较为敏感，在这类数据集中，P-R 曲线可能无法准确反映模型的真实性能。

（四）多类别分类评估：k×k 混淆矩阵

矩阵结构：对于 k 分类问题，混淆矩阵为 k 行 k 列的矩阵，其中元素 Cij 表示第 i 类样本被分类器判定为第 j 类的数量。
评估逻辑：矩阵主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。主对角线元素值越大，说明模型对对应类别的分类准确性越高，整体分类器准确率也越高。

三、模型基本概念

（一）网络的深度

定义：深度学习模型最重要的属性之一，指计算网络中最长路径的卷积层与全连接层数量之和。
示例：LeNet 网络的深度计算为 C1（卷积层）+ C3（卷积层）+ C5（卷积层）+ F6（全连接层）+ Output（全连接层），共 5 层。

（二）网络的宽度

定义：指网络中每一层的通道数，通常以卷积网络层的通道数来衡量。
示例：LeNet 网络中，C1 层的通道数为 6，C3 层的通道数为 16，这两个数值分别代表了对应卷积层的宽度。

四、图像分类中的问题与解决方案

（一）核心问题：样本量过少

问题成因：在部分场景中，样本获取难度较大，导致总体样本量过少，如工业产品缺陷图像（需特定缺陷场景，获取成本高）、医疗图像（受隐私保护、病例数量限制等影响），样本量不足会导致模型训练不充分，泛化能力差。

（二）解决方案

迁移学习
- 原理：利用在大规模通用数据集（如 ImageNet 数据集）上预训练好的模型，将其学习到的通用特征迁移到当前图像分类任务中。
- 优势：ImageNet 数据集包含海量多样的图像，预训练模型已掌握丰富的基础图像特征，可大幅加速当前模型的收敛速度，减少对当前任务样本量的依赖，提升模型性能。
数据增强
- 有监督方法：通过对已有样本进行人工干预的变换，生成新的训练样本，常见方式包括平移（将图像沿水平或垂直方向移动一定距离）、翻转（水平翻转或垂直翻转图像）、调整亮度 / 对比度（改变图像的亮度和色彩对比度）、裁剪（从图像中裁剪出部分区域作为新样本）、缩放（放大或缩小图像尺寸）等，这些方法不改变样本的类别标签，仅增加样本的多样性。
- 无监督方法：借助生成式模型（如 GAN 网络，生成对抗网络）自动生成符合当前任务需求的新样本，无需人工标注类别标签，然后将生成的样本用于模型训练，补充样本数量，提升模型的泛化能力。

http://www.dtcms.com/a/416068.html

相关文章：

深圳宝安美容医院网站建设做网站贴吧

手机网站后台wordpress教程网视频

大型门户网站建设特点厦门企业网站制作

网站的js效果代码那些网站做的非常好看的

书籍网站建设规划书怎么提高网站收录

【OpenGL】简单的渲染架构设计与封装

制作企业网站的秘诀腾讯云服务器新人优惠

【系统架构设计（38）】数据库规范化理论

合肥专业手机网站制作价格anaconda可以做网站吗

商业网站可以选择.org域名吗江苏专业网站建设费用

服装工厂软件有哪些，如何合理控制服装软件费用？

学会建网站如何做网络营销外包网站开发合同

3C电子企业柔性制造转型：如何通过MES管理系统实现快速换线与弹性生产？

BOM与DOM

广东外贸网站推广公司wordpress去除下一页

网站运营与网络推广方案二手房网站开发

莞城区做网站山西网站建设服务

做外贸有哪些好的网站有哪些湘潭做网站用户多磐石网络

数据结构与算法7：树和二叉树

婚纱网站模板下载建电影网站程序

医疗设备响应式网站临沂网站推广排名

Lazarus结合Lazserial多线程方式的串口采集实操心得

nano工具

专门做西装网站wordpress alipay

网络公司企业网站源码aso优化违法吗

中国建设法律法规网官方网站手机可以搭建网站吗

怎么用网站做文案wordpress网站有支付功能吗

手工做皮具国外的网站工信部网站报备

上海高端品牌网站建设专家郑州东区做网站电话

手表网站起名网站常用插件