当前位置：首页 > news >正文

DAY 39 超大力王爱学Python

news 2025/9/15 4:37:34

知识点回顾

图像数据的格式：灰度和彩色数据
模型的定义
显存占用的4种地方
1. 模型参数+梯度参数
2. 优化器参数
3. 数据批量所占显存
4. 神经元输出中间状态
batchisize和训练的关系

作业：今日代码较少，理解内容即可

以下是根据你提供的 4 个核心要点进行的总结，结合历史对话中的技术细节和代码示例：

一、图像数据的格式：灰度与彩色图像

1. 灰度图像（以 MNIST 为例）

通道数：1（仅亮度信息，无颜色）。
形状：(通道, 高, 宽)，如 MNIST 为(1, 28, 28)。
数据范围：原始像素值为0-255（uint8），经ToTensor()转换后归一化为[0, 1]的float32类型。
显示方式：需反归一化并调整维度顺序（PyTorch 默认通道优先，Matplotlib 需转为(高, 宽, 通道)）。

2. 彩色图像（以 CIFAR-10 为例）

通道数：3（RGB 三通道）。
形状：(3, 32, 32)（CIFAR-10），展平后为3×32×32=3072维向量。
标准化：通常使用transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))将像素值从[0, 1]缩放到[-1, 1]。

二、模型的定义：以 MLP 为例

1. 灰度图像模型（MNIST）

python

class MLP(nn.Module):def __init__(self):super().__init__()self.flatten = nn.Flatten()  # 展平为784维self.fc1 = nn.Linear(784, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 10)  # 10个数字类别def forward(self, x):x = self.flatten(x)  # 输入形状：(batch, 1, 28, 28) → (batch, 784)x = self.fc1(x) → (batch, 128)x = self.relu(x)x = self.fc2(x) → (batch, 10)

2. 彩色图像模型（CIFAR-10）

python

class MLP(nn.Module):def __init__(self):super().__init__()self.flatten = nn.Flatten()  # 展平为3×32×32=3072维self.fc1 = nn.Linear(3072, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 10)  # 10个物体类别

关键差异

输入维度：灰度图展平后为784维，彩色图为3072维。
模型参数：彩色图模型参数更多（如第一层权重：3072×128 vs 784×128）。
batch 维度：模型定义不涉及batch_size，由DataLoader处理，如DataLoader(dataset, batch_size=64)。

三、显存占用的 4 个主要部分

1. 模型参数与梯度（必占）

参数：模型权重（如fc1.weight），单精度（float32）下每个参数占 4 字节。
- 例：MNIST 的 MLP 参数总量101,770，占用约101770×4≈403 KB。
梯度：反向传播时自动计算，占用与参数相同空间（总占用≈806 KB）。

2. 优化器状态（可选，如 Adam）

SGD：无额外占用。
Adam：每个参数存储动量（m）和平方梯度（v），额外占用2×参数大小。
- 例：MNIST 模型使用 Adam 时，额外占用101770×8≈806 KB。

3. 数据批量（batch_size 直接影响）

单张图像：灰度图（1×28×28×4）占 3 KB，彩色图（3×32×32×4）占 12 KB。
批量占用：batch_size×单张占用。
- 例：batch_size=1024时，CIFAR-10 数据占用1024×12 KB≈12 MB。

4. 中间变量（前向 / 反向传播）

隐藏层输出：如 MLP 的fc1输出为(batch, 128)，占batch×128×4字节。
- 例：batch_size=1024时，中间变量占1024×128×4≈512 KB。

四、batch_size 与训练的关系

1. 核心影响

batch_size	优势	风险 / 缺点
小（如 16）	显存占用小，适合小显存设备	梯度噪声大，训练波动大，迭代次数多
大（如 1024）	并行计算效率高，梯度更稳定（平均效应）	可能触发 OOM，收敛速度可能变慢