当前位置：首页 > news >正文

深度学习之图像分类笔记

news 2025/9/28 7:49:13

一、图像分类核心定义

图像分类是将不同图像划分到对应类别标签的任务，核心目标是实现最小分类误差，即让模型对图像类别的判断尽可能准确。

二、图像分类的三层境界

图像分类根据分类粒度和任务目标，可分为三个层次，难度与精细度逐层提升：

通用多类别图像分类面向通用性、差异明显的类别划分，典型案例为包含 10 类常见物体的分类任务，类别包括：airplane（飞机）、automobile（汽车）、bird（鸟类）、cat（猫）、deer（鹿）、dog（狗）、frog（青蛙）、horse（马）、ship（船）、truck（卡车）。
子类细粒度图像分类针对同一大类下的细分子类进行区分，需捕捉更细微的特征差异（例如：同属 “鸟类” 下的不同物种、同属 “汽车” 下的不同车型）。
实例级图片分类对同一物体的不同实例进行识别（例如：同一款手机的不同个体、同一人不同角度的照片），要求模型区分个体间的独特特征。

三、图像分类核心评估指标

评估指标用于衡量模型分类性能，核心指标围绕 “混淆矩阵” 展开，具体包括以下几类：

1. 混淆矩阵基础概念

混淆矩阵是评估二分类模型的基础工具，通过 4 个核心指标描述分类结果：

TP（True Positive，真正例）：将正类样本正确预测为正类的数量。
FP（False Positive，假正例）：将反类样本错误预测为正类的数量（误判）。
TN（True Negative，真反例）：将反类样本正确预测为反类的数量。
FN（False Negative，假反例）：将正类样本错误预测为反类的数量（漏判）。

2. 核心单指标

指标名称	定义	公式（基于二分类）	核心意义
精确率（Accuracy）	模型识别正确的样本数占总样本数的比例，是最常用的基础精度指标。	Accuracy = (TP + TN) / (TP + FP + TN + FN)	整体分类准确性
准确率（Precision）	模型预测为正类的样本中，真正为正类的比例（“查准”）。	Precision = TP / (TP + FP)	减少 “误判”，保证正类纯度
召回率（Recall）	模型正确识别的正类样本占所有真实正类样本的比例（“查全”）。	Recall = TP / (TP + FN)	减少 “漏判”，覆盖更多正类
F1-Score	精确率与召回率的调和平均数，平衡两者矛盾，避免单一指标偏差。	F1 = 2×(Precision×Recall) / (Precision + Recall)	综合衡量模型性能

3. P-R 曲线（精确率 - 召回率曲线）

核心特点：召回率增加时，精确率通常会下降（两者存在 trade-off）。
评价标准：曲线与坐标轴围成的面积越大，模型综合性能越好。
局限性：对正负样本不均衡的数据敏感，易出现偏差。

4. 多类别分类的评估（k 分类问题）

多类别混淆矩阵：为 k×k 矩阵，其中元素 Cij 表示 “第 i 类真实样本被预测为第 j 类” 的数量。
核心判断：
- 主对角线元素之和 = 正确分类的样本总数；
- 非主对角线元素之和 = 错误分类的样本总数；
- 主对角线元素值越大，模型对对应类别的分类准确率越高，整体性能越好。

四、深度学习模型基本概念（以卷积神经网络为例）

1. 网络的深度

定义：深度学习的核心属性，指模型中最长路径的卷积层 + 全连接层数量（仅统计有效计算层，不含池化层等非参数层）。
实例：LeNet 网络的深度为 5 层，具体构成：C1（卷积层 1）+ C3（卷积层 3）+ C5（卷积层 5）+ F6（全连接层 6）+ Output（输出层）。

2. 网络的宽度

定义：指网络中每一层的通道数，主要针对卷积层（通道数决定该层提取的特征维度）。
实例：LeNet 网络的宽度：C1 层通道数为 6，C3 层通道数为 16。

五、图像分类中的关键问题：样本量过少及解决方案

1. 样本量过少的原因

核心原因是样本获取难度大，典型场景包括：

工业产品：特殊工业部件、缺陷样本等，采集成本高、数量有限；
医疗领域：稀有病例图像、医学影像（如 CT、MRI）等，受伦理和病例数量限制。

2. 解决方案

方案 1：迁移学习

核心思路：利用 “预训练模型” 的已有特征提取能力，避免从零开始训练（减少对小样本的依赖）。
关键依据：ImageNet 数据集包含海量通用图像，基于该数据集预训练的模型已具备强大的通用特征提取能力，可加速目标任务的模型收敛，提升小样本场景下的性能。

方案 2：数据增强

通过人工手段扩充样本数量，分为有监督和无监督两类方法：

有监督方法：基于原始样本进行规则化变换（不改变样本类别标签），常见手段包括：平移、翻转（水平 / 垂直）、调整亮度 / 对比度、随机裁剪、缩放等；
无监督方法：通过生成模型创造新样本，典型技术为GAN（生成对抗网络），可生成与真实样本分布一致的新样本，补充训练数据。

http://www.dtcms.com/a/415066.html

相关文章：

ping 概念及题目

PyTorch 模型评估与全局平均池化的应用实践

什么是大型门户网站软件开发公司app

构建AI智能体：四十六、Codebuddy MCP 实践：用高德地图搭建旅游攻略系统

Sychronized和ReentrantLock的区别

【mdBook】4 mdBook 命令行工具详解

在 Kali Linux 上配置 MySQL 服务器并实现 Windows 远程连接

记录在vps上搭建Rocket.Chat实现centos系统和手机android通联（一）

档案网站建设外包公司vue seo 优化方案

推广营销方式有哪些wordpress百度seo插件

Scikit-learn Python机器学习 - 聚类分析算法 - K-Means（K均值）

Spring Boot 配置类注解@Configuration详解：从基础到实战

python怎么做网站建站工具评测 discuz

ReAct 框架

网站怎么做301重定向如何把做的网站发布到网上

网站维护公司苏宁网站建设

2.1 通信基础 (答案见原书 P38)

(附源码)基于Spring Boot的宿舍管理系统设计与实现0007

【FreeRTOS】第七课（4）：任务间的通信——一个设备的数据写入多个队列

js的this—13

从“全量”到“增量”：Diff解析器如何彻底优化数据处理效率？

steamGame——饥荒联机版（2025）

网站服务器连接被重置中网可信网站查询

【Qt】Windows下Qt+MSVC的使用

STL容器：vector

网站什么时候备案好wordpress 新浪博客模板

嵌入式面试高频（十二）！！！C++语言（嵌入式八股文，嵌入式面经）c++11新特性

iptables 详解

基于dify搭建的论文查询和内容提取应用（可加群）

elasticsearch面试八股文