当前位置: 首页 > news >正文

《深度学习实战》第2集-补充:卷积神经网络(CNN)与图像分类 实战代码解析和改进

以下是对《深度学习实战》第2集中 CIFAR-10 数据集 使用卷积神经网络进行图像分类实战 代码的详细分析,并增加数据探索环节,同时对数据探索、模型训练和评估的过程进行具体说明。所有代码都附上了运行结果配图,方便对比。


《深度学习实战》第2集 补充:数据探索与分析

在深度学习项目中,数据探索(Exploratory Data Analysis, EDA)是至关重要的一步。通过数据探索,我们可以了解数据集的基本特性、分布情况以及潜在问题,从而为后续的模型设计和优化提供指导。

1. 数据探索的目标

  • 了解 CIFAR-10 数据集的类别分布。
  • 可视化样本图像,观察其特征。
  • 分析数据预处理的效果。

2. 数据探索实现

2.1 类别分布分析

CIFAR-10 数据集包含 10 个类别,每个类别的样本数量应均匀分布。我们可以通过以下代码统计类别分布:

import matplotlib.pyplot as plt

# 统计类别分布
train_labels = [label for _, label in train_dataset]
class_names = ['airplane', 'automobile', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck']
label_counts = {class_names[i]: train_labels.count(i) for i in range(10)}

# 可视化类别分布
plt.bar(label_counts.keys(), label_counts.values())
plt.title("Class Distribution in CIFAR-10")
plt.xlabel("Class")
plt.ylabel("Number of Samples")
plt.xticks(rotation=45)
plt.show()

代码运行结果输出:

在这里插入图片描述

结果分析

  • 如果类别分布均匀,说明数据集没有类别不平衡问题。
  • 在 CIFAR-10 中,每个类别有 5,000 张训练图像,分布均衡。
2.2 样本可视化

为了直观了解数据集中的图像特征,我们可以随机抽取一些样本并可视化:

import numpy as np

# 可视化样本图像
def imshow(img):
    img = img / 2 + 0.5  # 反归一化
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))
    plt.axis('off')
    plt.show()

# 获取一批数据
dataiter = iter(train_loader)
images, labels = next(dataiter)

# 显示图像
imshow(torchvision.utils.make_grid(images[:16]))  # 显示前 16 张图像
print("Labels:", [class_names[label] for label in labels[:16]])

代码运行结果输出:

在这里插入图片描述

Labels: ['bird', 'ship', 'automobile', 'ship', 'cat', 'truck', 'airplane', 'bird', 'airplane', 'frog', 'ship', 'bird', 'automobile', 'bird', 'automobile', 'truck']

结果分析

  • 图像大小为 32x32,分辨率较低,但足以捕捉基本特征。
  • 不同类别的图像具有明显的视觉差异(如飞机与汽车、猫与狗等),这有助于模型学习区分不同类别。
2.3 数据预处理效果

数据预处理包括调整大小、归一化等操作。我们可以通过打印预处理后的图像张量来验证其效果:

print("Preprocessed Image Shape:", images.shape)  # 输出形状
print("Preprocessed Image Values:", images[0].min().item(), images[0].max().item())  # 输出归一化范围

代码运行输出结果:

Preprocessed Image Shape: torch.Size([64, 3, 224, 224])
Preprocessed Image Values: -0.929411768913269 1.0

结果分析

  • 预处理后图像被调整为 224x224(ResNet 输入要求),并归一化到 [-1, 1] 范围。
  • 这些操作确保了输入数据的一致性和模型的稳定性。

原代码分析与改进

1. 数据加载与预处理

代码中使用 torchvision.transforms 对数据进行了标准化和尺寸调整。以下是关键步骤的解释:

  • Resize(224):将图像从原始的 32x32 调整为 ResNet 的输入尺寸 224x224。
  • Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)):将像素值归一化到 [-1, 1] 范围,以加速收敛。

改进建议

  • 添加数据增强(Data Augmentation),如随机裁剪、水平翻转等,以提高模型的泛化能力:
    transform = transforms.Compose([
        transforms.RandomHorizontalFlip(),
        transforms.RandomCrop(32, padding=4),
        transforms.Resize(224),
        transforms.ToTensor(),
        transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
    ])
    

改进后代码替换原代码,运行后输出:

Epoch 1, Loss: 0.6051
Epoch 2, Loss: 0.3872
Epoch 3, Loss: 0.3126
Epoch 4, Loss: 0.2649
Epoch 5, Loss: 0.2316
Test Accuracy: 0.9022
可以看到损失系数不同,但精确率最终结果差不多。

2. 模型训练

代码中使用了预训练的 ResNet-18 模型,并修改了最后一层以适应 CIFAR-10 的 10 个类别。以下是训练过程的关键点:

2.1 模型结构
  • ResNet-18 是一个轻量级的 CNN 架构,包含 18 层卷积网络。
  • 修改全连接层(model.fc)以输出 10 个类别的概率。
2.2 训练过程
  • 使用 Adam 优化器,学习率为 0.001。
  • 损失函数为交叉熵损失(nn.CrossEntropyLoss),适用于多分类任务。
  • 每个 epoch 后打印平均损失,便于监控训练进度。

改进建议

  • 增加学习率调度器(Learning Rate Scheduler),例如余弦退火或 StepLR,以动态调整学习率。
  • 保存最佳模型权重,避免过拟合。

3. 模型评估

代码中通过测试集计算了模型的准确率。以下是评估过程的关键点:

3.1 测试过程
  • 将模型切换为评估模式(model.eval()),关闭 Dropout 和 BatchNorm 的随机性。
  • 使用 torch.no_grad() 禁用梯度计算,减少内存消耗。
3.2 结果分析

假设测试准确率为 75%,说明模型在 CIFAR-10 上表现良好,但仍有一定的提升空间。

改进建议

  • 计算混淆矩阵(Confusion Matrix),分析模型在不同类别上的表现:
    from sklearn.metrics import confusion_matrix
    import seaborn as sns
    
    all_preds, all_labels = [], []
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, preds = torch.max(outputs, 1)
            all_preds.extend(preds.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())
    
    cm = confusion_matrix(all_labels, all_preds)
    sns.heatmap(cm, annot=True, fmt="d", xticklabels=class_names, yticklabels=class_names)
    plt.title("Confusion Matrix")
    plt.xlabel("Predicted")
    plt.ylabel("True")
    plt.show()
    

代码运行输出结果:
在这里插入图片描述

  • 分析上图混淆矩阵可以发现模型在某些类别(如“猫”与“狗”)上容易混淆,Cat 和 Dog 的矩阵交汇数值相对偏高,从而指导进一步优化。

总结

通过增加数据探索环节,我们深入了解了 CIFAR-10 数据集的特性,并验证了数据预处理的有效性。在模型训练和评估过程中,我们分析了代码的实现细节,并提出了改进建议,包括数据增强、学习率调度器和混淆矩阵分析。这些改进可以帮助模型更好地适应数据集,并提升性能。

希望这些内容能为你提供更全面的理解!如果你有任何问题或想法,欢迎在评论区留言讨论。

相关文章:

  • 【接口封装】——13、登录窗口的标题栏内容设置
  • 基于Spring Boot的党员学习交流平台设计与实现(LW+源码+讲解)
  • 蓝桥杯学习笔记04-滑动窗口不定长(最短/最小)
  • 插入排序(详解)c++
  • 低功耗设计:(3)架构级优化
  • ChātGPT赋能的“SolidWorks工具箱”:重塑3D设计效率新标杆
  • 【Python LeetCode 专题】树
  • 动手学深度学习2025.2.23-预备知识之-线性代数
  • 【C++】list 链表的使用+模拟实现
  • superset
  • CDefView::_InitViewMenuWhenBarrierNotDisplayed函数分析之删除自定义文件夹
  • 一题学会Java入门语法(需C\C++基础)
  • 计算机毕业设计SpringBoot+Vue.jst网上购物商城系统(源码+LW文档+PPT+讲解)
  • UE5销毁Actor,移动Actor,简单的空气墙的制作
  • Linux 命令大全完整版(10)
  • TCP初始化序列号为什么要不一样
  • `sh` 与 `bash` 的区别详解
  • 重学SpringBoot3-怎样优雅停机
  • 什么是HTTP/2协议?NGINX如何支持HTTP/2并提升网站性能?
  • mac 下 java 调用 gurobi 不能加载 jar
  • 百度站长平台推出网站移动化大赛/沈阳seo排名优化软件
  • 广州美容网站建设/营销型网站的类型有哪些
  • 怎样注册网站账号申请/公司官网模板
  • 做网站一般什么问题/张雷明履新河南省委常委
  • 网站后台如何做下载连接/灰色行业seo
  • 树莓派 做网站/seo全称英文怎么说