当前位置: 首页 > news >正文

深度学习之图像分类笔记

一、图像分类核心定义

图像分类是将不同图像划分到对应类别标签的任务,核心目标是实现最小分类误差,即让模型对图像类别的判断尽可能准确。

二、图像分类的三层境界

图像分类根据分类粒度和任务目标,可分为三个层次,难度与精细度逐层提升:

  1. 通用多类别图像分类面向通用性、差异明显的类别划分,典型案例为包含 10 类常见物体的分类任务,类别包括:airplane(飞机)、automobile(汽车)、bird(鸟类)、cat(猫)、deer(鹿)、dog(狗)、frog(青蛙)、horse(马)、ship(船)、truck(卡车)。

  2. 子类细粒度图像分类针对同一大类下的细分子类进行区分,需捕捉更细微的特征差异(例如:同属 “鸟类” 下的不同物种、同属 “汽车” 下的不同车型)。

  3. 实例级图片分类对同一物体的不同实例进行识别(例如:同一款手机的不同个体、同一人不同角度的照片),要求模型区分个体间的独特特征。

三、图像分类核心评估指标

评估指标用于衡量模型分类性能,核心指标围绕 “混淆矩阵” 展开,具体包括以下几类:

1. 混淆矩阵基础概念

混淆矩阵是评估二分类模型的基础工具,通过 4 个核心指标描述分类结果:

  • TP(True Positive,真正例):将正类样本正确预测为正类的数量。
  • FP(False Positive,假正例):将反类样本错误预测为正类的数量(误判)。
  • TN(True Negative,真反例):将反类样本正确预测为反类的数量。
  • FN(False Negative,假反例):将正类样本错误预测为反类的数量(漏判)。

2. 核心单指标

指标名称定义公式(基于二分类)核心意义
精确率(Accuracy)模型识别正确的样本数占总样本数的比例,是最常用的基础精度指标。Accuracy = (TP + TN) / (TP + FP + TN + FN)整体分类准确性
准确率(Precision)模型预测为正类的样本中,真正为正类的比例(“查准”)。Precision = TP / (TP + FP)减少 “误判”,保证正类纯度
召回率(Recall)模型正确识别的正类样本占所有真实正类样本的比例(“查全”)。Recall = TP / (TP + FN)减少 “漏判”,覆盖更多正类
F1-Score精确率与召回率的调和平均数,平衡两者矛盾,避免单一指标偏差。F1 = 2×(Precision×Recall) / (Precision + Recall)综合衡量模型性能

3. P-R 曲线(精确率 - 召回率曲线)

  • 核心特点:召回率增加时,精确率通常会下降(两者存在 trade-off)。
  • 评价标准:曲线与坐标轴围成的面积越大,模型综合性能越好。
  • 局限性:对正负样本不均衡的数据敏感,易出现偏差。

4. 多类别分类的评估(k 分类问题)

  • 多类别混淆矩阵:为 k×k 矩阵,其中元素 Cij 表示 “第 i 类真实样本被预测为第 j 类” 的数量。
  • 核心判断
    • 主对角线元素之和 = 正确分类的样本总数;
    • 非主对角线元素之和 = 错误分类的样本总数;
    • 主对角线元素值越大,模型对对应类别的分类准确率越高,整体性能越好。

四、深度学习模型基本概念(以卷积神经网络为例)

1. 网络的深度

  • 定义:深度学习的核心属性,指模型中最长路径的卷积层 + 全连接层数量(仅统计有效计算层,不含池化层等非参数层)。
  • 实例:LeNet 网络的深度为 5 层,具体构成:C1(卷积层 1)+ C3(卷积层 3)+ C5(卷积层 5)+ F6(全连接层 6)+ Output(输出层)。

2. 网络的宽度

  • 定义:指网络中每一层的通道数,主要针对卷积层(通道数决定该层提取的特征维度)。
  • 实例:LeNet 网络的宽度:C1 层通道数为 6,C3 层通道数为 16。

五、图像分类中的关键问题:样本量过少及解决方案

1. 样本量过少的原因

核心原因是样本获取难度大,典型场景包括:

  • 工业产品:特殊工业部件、缺陷样本等,采集成本高、数量有限;
  • 医疗领域:稀有病例图像、医学影像(如 CT、MRI)等,受伦理和病例数量限制。

2. 解决方案

方案 1:迁移学习
  • 核心思路:利用 “预训练模型” 的已有特征提取能力,避免从零开始训练(减少对小样本的依赖)。
  • 关键依据:ImageNet 数据集包含海量通用图像,基于该数据集预训练的模型已具备强大的通用特征提取能力,可加速目标任务的模型收敛,提升小样本场景下的性能。
方案 2:数据增强

通过人工手段扩充样本数量,分为有监督和无监督两类方法:

  • 有监督方法:基于原始样本进行规则化变换(不改变样本类别标签),常见手段包括:平移、翻转(水平 / 垂直)、调整亮度 / 对比度、随机裁剪、缩放等;
  • 无监督方法:通过生成模型创造新样本,典型技术为GAN(生成对抗网络),可生成与真实样本分布一致的新样本,补充训练数据。
http://www.dtcms.com/a/415066.html

相关文章:

  • ping 概念及题目
  • PyTorch 模型评估与全局平均池化的应用实践
  • 什么是大型门户网站软件开发公司app
  • 构建AI智能体:四十六、Codebuddy MCP 实践:用高德地图搭建旅游攻略系统
  • Sychronized和ReentrantLock的区别
  • 【mdBook】4 mdBook 命令行工具详解
  • 在 Kali Linux 上配置 MySQL 服务器并实现 Windows 远程连接
  • 记录在vps上搭建Rocket.Chat实现centos系统和手机android通联(一)
  • 档案网站建设外包公司vue seo 优化方案
  • 推广营销方式有哪些wordpress百度seo插件
  • Scikit-learn Python机器学习 - 聚类分析算法 - K-Means(K均值)
  • Spring Boot 配置类注解@Configuration详解:从基础到实战
  • python怎么做网站建站工具评测 discuz
  • ReAct 框架
  • 网站怎么做301重定向如何把做的网站发布到网上
  • 网站维护公司苏宁网站建设
  • 2.1 通信基础 (答案见原书 P38)
  • (附源码)基于Spring Boot的宿舍管理系统设计与实现0007
  • 【FreeRTOS】第七课(4):任务间的通信——一个设备的数据写入多个队列
  • js的this—13
  • 从“全量”到“增量”:Diff解析器如何彻底优化数据处理效率?
  • steamGame——饥荒联机版(2025)
  • 网站服务器连接被重置中网可信网站查询
  • 【Qt】Windows下Qt+MSVC的使用
  • STL容器:vector
  • 网站什么时候备案好wordpress 新浪博客模板
  • 嵌入式面试高频(十二)!!!C++语言(嵌入式八股文,嵌入式面经)c++11新特性
  • iptables 详解
  • 基于dify搭建的论文查询和内容提取应用(可加群)
  • elasticsearch面试八股文