当前位置：首页 > news >正文

5.29打卡

news 来源：原创 2025/5/30 6:56:26

@浙大疏锦行

DAY 38 Dataset和Dataloader类

知识点回顾：

1. Dataset类的__getitem__和__len__方法（本质是python的特殊方法）

2. Dataloader类

3. minist手写数据集的了解

作业：了解下cifar数据集，尝试获取其中一张图片

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader , Dataset # DataLoader 是 PyTorch 中用于加载数据的工具
from torchvision import datasets, transforms # torchvision 是一个用于计算机视觉的库，datasets 和 transforms 是其中的模块
import matplotlib.pyplot as plt# 设置随机种子，确保结果可复现
torch.manual_seed(42)
# 定义数据预处理
transform = transforms.Compose([transforms.ToTensor(),  # 将图像转换为Tensortransforms.Normalize((0.5, 0.5,0.5), (0.5, 0.5,0.5))  # 归一化处理，将像素值从[0,1]缩放到[-1,1]
])
# 加载训练集
train_dataset = datasets.CIFAR10(root='./data',  # 数据存放路径train=True,  # 是否为训练集download=True,  # 如果数据不存在，是否自动下载transform=transform  # 数据预处理
)# 加载测试集
test_dataset = datasets.CIFAR10(root='./data',  # 数据存放路径train=False,  # 是否为测试集transform=transform  # 数据预处理
)
import matplotlib.pyplot as plt
# 类别名称
classes = ('plane', 'car', 'bird', 'cat', 'deer', 'dog', 'frog', 'horse', 'ship', 'truck')
# 随机选择一张图片，可以重复运行，每次都会随机选择
sample_idx = torch.randint(0, len(train_dataset), size=(1,)).item() # 随机选择一张图片的索引
# len(train_dataset) 表示训练集的图片数量；size=(1,)表示返回一个索引；torch.randint() 函数用于生成一个指定范围内的随机数,item() 方法将张量转换为 Python 数字
image, label = train_dataset[sample_idx] # 获取图片和标签
# 可视化原始图像（需要反归一化）
def imshow(img, title=None):img = img / 2 + 0.5  # 反归一化：将[-1,1]范围转回[0,1]npimg = img.numpy()plt.figure(figsize=(4, 4))plt.imshow(np.transpose(npimg, (1, 2, 0)))  # 调整通道顺序：从[C,H,W]到[H,W,C]if title:plt.title(title)plt.axis('off')plt.show()print(f"Label: {label} ({classes[label]})")
imshow(image, f"Label: {classes[label]}")