打卡第43天
作业: kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 进阶:并拆分成多个文件
一、数据集准备
-
Kaggle 选数据集
- 登录 Kaggle,搜索关键词如 “image classification dataset”(例:CIFAR-10、猫狗分类、MNIST)。
- 下载数据集(需注册账号,部分需同意协议)。
-
数据拆分文件
- 用 Python 脚本拆分数据集为:
train/
(训练集,约 80%)val/
(验证集,约 10%)test/
(测试集,约 10%)
- 代码:
- 用 Python 脚本拆分数据集为:
from sklearn.model_selection import train_test_split
import shutil, os# 假设原始数据在data/目录下,每个类别一个子文件夹
classes = os.listdir('data/')
for cls in classes:img_paths = [os.path.join('data/', cls, f) for f in os.listdir(f'data/{cls}/')]train_val, test = train_test_split(img_paths, test_size=0.1, random_state=42)train, val = train_test_split(train_val, test_size=0.111, random_state=42) # 10%/90%拆验证集# 创建文件夹os.makedirs(f'train/{cls}', exist_ok=True)os.makedirs(f'val/{cls}', exist_ok=True)os.makedirs(f'test/{cls}', exist_ok=True)# 移动文件for path in train: shutil.move(path, f'train/{cls}/')for path in val: shutil.move(path, f'val/{cls}/')for path in test: shutil.move(path, f'test/{cls}/')
二、CNN 模型训练
-
环境搭建
- 安装库:
pip install torch torchvision torchaudio matplotlib grad-cam
(PyTorch 版)。
- 安装库:
-
构建 CNN 模型
- 示例:
import torch
import torch.nn as nn
import torch.optim as optimclass CustomCNN(nn.Module):def __init__(self, num_classes=10):super().__init__()self.conv_layers = nn.Sequential(nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1),nn.ReLU(),nn.MaxPool2d(kernel_size=2, stride=2),nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1),nn.ReLU(),nn.MaxPool2d(kernel_size=2, stride=2))self.fc_layers = nn.Sequential(nn.Linear(32*7*7, 128),nn.ReLU(),nn.Dropout(0.5),nn.Linear(128, num_classes))def forward(self, x):x = self.conv_layers(x)x = x.view(x.size(0), -1)x = self.fc_layers(x)return xmodel = CustomCNN(num_classes=数据集类别数).to('cuda' if torch.cuda.is_available() else 'cpu')
3.训练流程
- 定义损失函数、优化器、数据加载器,循环训练:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
epochs = 10for epoch in range(epochs):model.train()for inputs, labels in train_loader:inputs, labels = inputs.to(device), labels.to(device)optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()# 验证集评估...
三、Grad-CAM 可视化
-
安装工具
pip install grad-cam
。
-
生成热力图
- 代码:
from grad_cam import GradCAM
from torchvision import transforms
import matplotlib.pyplot as plt# 加载单张测试图像
img_path = 'test/某类别/某图片.jpg'
img = Image.open(img_path).convert('RGB')
transform = transforms.Compose([transforms.Resize((224, 224)), # 需与模型输入尺寸一致transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
input_tensor = transform(img).unsqueeze(0).to(device)# 指定目标层(通常取最后一个卷积层)
target_layer = model.conv_layers[-1] # 根据模型结构调整
cam = GradCAM(model=model, target_layer=target_layer)
grayscale_cam = cam(input_tensor=input_tensor)
grayscale_cam = grayscale_cam[0, :] # 取第一个样本的热力图# 可视化
plt.imshow(img)
plt.imshow(grayscale_cam, cmap='jet', alpha=0.5)
plt.axis('off')
plt.savefig('grad_cam_visualization.jpg')
plt.show()
四、文件结构建议
项目根目录/
├─ data/ # 原始数据集(Kaggle下载)
├─ train/ # 训练集(拆分后)
├─ val/ # 验证集(拆分后)
├─ test/ # 测试集(拆分后)
├─ models/ # 保存训练好的模型
├─ visualizations/ # 保存Grad-CAM结果
├─ train.py # 训练脚本
├─ split_data.py # 数据拆分脚本
├─ grad_cam.py # 可视化脚本
└─ requirements.txt # 依赖库列表(pip freeze > requirements.txt)
进阶
- 数据拆分工具:也可使用 Kaggle 自带的 “Split Data” 插件或 Python 的
split-folders
库简化操作。 - 模型优化:尝试预训练模型(如 ResNet、VGG)迁移学习,提升准确率。
- 可视化优化:用
matplotlib
调整热力图透明度、颜色映射,或叠加原始图像增强效果。
@浙大疏锦行