当前位置: 首页 > news >正文

使用PyTorch训练VGG11模型:Fashion-MNIST图像分类实战

本文将通过代码实战,详细讲解如何使用 PyTorch 和 VGG11 模型在 Fashion-MNIST 数据集上进行图像分类任务。代码包含数据预处理、模型定义、训练与评估全流程,并附上训练结果的可视化图表。所有代码可直接复现,适合深度学习初学者和进阶开发者参考。


1. 环境准备

确保已安装以下库:

pip install torch torchvision d2l
2. 代码实现
2.1 导入依赖库
from d2l import torch as d2l
from torchvision import models, transforms
import torch
2.2 数据预处理

由于VGG11默认接受RGB三通道输入,需将Fashion-MNIST的灰度图转换为3通道:

# 定义数据预处理流程
transform = transforms.Compose([
    transforms.Resize(224),                # 调整图像尺寸为224x224
    transforms.Grayscale(num_output_channels=3),  # 单通道转三通道
    transforms.ToTensor()                   # 转为Tensor格式
])
2.3 加载数据集
# 加载Fashion-MNIST数据集并应用预处理
batch_size = 64 * 3  # 增大批大小以利用GPU并行计算
train_data, test_data = d2l.load_data_fashion_mnist(batch_size, resize=224)

# 替换原始数据集的数据增强方法
train_data.dataset.transform = transform
test_data.dataset.transform = transform
2.4 定义模型

使用PyTorch内置的VGG11模型(从头训练,不使用预训练权重):

# 初始化VGG11模型(输入通道为3,输出类别为10)
net = models.vgg11(pretrained=False, num_classes=10)
2.5 模型训练

调用D2L库的封装函数进行训练(支持GPU加速):

# 设置超参数并启动训练
num_epochs = 10
lr = 0.01
device = d2l.try_gpu()  # 自动检测GPU

# 开始训练
d2l.train_ch6(net, train_data, test_data, num_epochs, lr, device)
3. 训练结果分析

下图为训练过程中的损失和准确率变化曲线:

关键指标
EpochTrain LossTrain AccTest AccSpeed (examples/sec)
10.8570.2%78.5%112.3
30.31288.6%88.1%117.7
50.3287.6%84.3%118.5
100.2191.8%85.7%119.0
  • 训练损失(Train Loss):随着训练轮次增加,损失快速下降并趋于稳定。例如,第3轮时损失降至 0.312,表明模型快速收敛。

  • 训练准确率(Train Acc):第3轮时达到 88.6%,说明模型对训练数据的学习效果显著。

  • 测试准确率(Test Acc):第3轮测试准确率 88.1%,与训练准确率接近,表明模型泛化能力优秀,未出现明显过拟合。

  • 训练速度:在 cuda:0 设备上达到 117.7 examples/sec,充分利用GPU加速,适合大规模数据训练。

4. 完整代码 
from d2l import torch as d2l
from torchvision import models, transforms
import torch

# 数据预处理
transform = transforms.Compose([
    transforms.Resize(224),
    transforms.Grayscale(num_output_channels=3),
    transforms.ToTensor()
])

# 加载数据集
batch_size = 64 * 3
train_data, test_data = d2l.load_data_fashion_mnist(batch_size, resize=224)
train_data.dataset.transform = transform
test_data.dataset.transform = transform

# 定义模型
net = models.vgg11(pretrained=False, num_classes=10)

# 训练配置
num_epochs = 10
lr = 0.01
device = d2l.try_gpu()

# 启动训练
d2l.train_ch6(net, train_data, test_data, num_epochs, lr, device)
5. 常见问题
Q1:为什么将灰度图转为三通道?

VGG系列模型设计时默认接受RGB输入(3通道)。尽管Fashion-MNIST为单通道,需通过复制通道数适配模型。

Q2:如何进一步提升准确率?
  • 增加训练轮次(如 num_epochs=20)。

  • 使用更复杂模型(如VGG16、ResNet)。

  • 添加数据增强(随机旋转、亮度调整)。

Q3:训练时显存不足怎么办?
  • 减小 batch_size(如设为64)。

  • 启用混合精度训练(添加 torch.cuda.amp)。


6. 总结

本文使用PyTorch实现了VGG11模型在Fashion-MNIST数据集上的分类任务,最终测试准确率达 85.7%,并在第3轮即达到 88.1% 的测试准确率,训练速度高达 117.7 examples/sec,展现了优秀的性能与效率。通过代码解析与结果分析,读者可快速掌握从数据预处理到模型训练的完整流程,并根据实际需求调整模型或超参数进一步优化性能。

http://www.dtcms.com/a/112650.html

相关文章:

  • 0302useState-hooks-react-仿低代码平台项目
  • AingDesk是一款简单好用的AI助手,支持知识库、模型 API、分享、联网搜索、智能体,它正在迅速发展和改进
  • 电机控制学习路线
  • SpringCloud(25)——Stream介绍
  • 4.4 力扣|59螺旋矩阵II
  • AI与Python在地球科学多源数据交叉融合中的前沿
  • MCP(模型上下文协议)入门指南:用Web开发的视角理解下一代AI引擎
  • 集合与容器:List、HashMap(II)
  • 用 Docker Compose 与 Nginx 反向代理部署 Vikunja 待办事项管理系统
  • Leetcode 135 -- 贪心 | 拓扑排序
  • 【多线程-第四天-自己模拟SDWebImage的下载图片功能-下载操作管理类 Objective-C语言】
  • 如何排查、定位 SQL 慢查询及其优化策略
  • 16进制在蓝牙传输中的应用
  • 检查 Python 中的可迭代对象是否相等
  • Bethune X 6发布:为小规模数据库环境打造轻量化智能监控巡检利器
  • 字符串-JS
  • 基于 Hough 变换的直线检测2025.4.1
  • 大数据笔试题_第一阶段配套笔试题01
  • 浅谈AI落地 - 文章推荐 - 混合推荐模型
  • 【CF】Day24——Codeforces Round 994 (Div. 2) D
  • 常用性能指标(metrics)
  • 理解OSPF 特殊区域Stub和各类LSA特点
  • leetcode-链表+动规
  • idea如何让打开的文件名tab多行显示
  • Android studio进阶教程之(二)--如何导入高德地图
  • 超便捷语音转文字工具CapsWriter-Offline本地部署与远程使用全流程
  • 如何快速入门物联网单片机开发?
  • windows如何安装wkhtmltoimage 给PHP使用根据HTML生成图片
  • Mysql 中的 binlog、redolog、undolog
  • LayaAir3.3.0-beta.3重磅更新!Spine4.2、2D物理、UI系统、TileMap等全面升级!