当前位置：首页 > news >正文

【深度学习-Day 22】框架入门：告别数据瓶颈 - 掌握PyTorch Dataset、DataLoader与TensorFlow tf.data实战

news 2025/9/7 9:34:50

Langchain系列文章目录

01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南
02-玩转 LangChain Memory 模块：四种记忆类型详解及应用场景全覆盖
03-全面掌握 LangChain：从核心链条构建到动态任务分配的实战指南
04-玩转 LangChain：从文档加载到高效问答系统构建的全程实战
05-玩转 LangChain：深度评估问答系统的三种高效方法（示例生成、手动评估与LLM辅助评估）
06-从 0 到 1 掌握 LangChain Agents：自定义工具 + LLM 打造智能工作流！
07-【深度解析】从GPT-1到GPT-4：ChatGPT背后的核心原理全揭秘
08-【万字长文】MCP深度解析：打通AI与世界的“USB-C”，模型上下文协议原理、实践与未来

Python系列文章目录

PyTorch系列文章目录

机器学习系列文章目录

深度学习系列文章目录

Java系列文章目录

JavaScript系列文章目录

深度学习系列文章目录

01-【深度学习-Day 1】为什么深度学习是未来？一探究竟AI、ML、DL关系与应用
02-【深度学习-Day 2】图解线性代数：从标量到张量，理解深度学习的数据表示与运算
03-【深度学习-Day 3】搞懂微积分关键：导数、偏导数、链式法则与梯度详解
04-【深度学习-Day 4】掌握深度学习的“概率”视角：基础概念与应用解析
05-【深度学习-Day 5】Python 快速入门：深度学习的“瑞士军刀”实战指南
06-【深度学习-Day 6】掌握 NumPy：ndarray 创建、索引、运算与性能优化指南
07-【深度学习-Day 7】精通Pandas：从Series、DataFrame入门到数据清洗实战
08-【深度学习-Day 8】让数据说话：Python 可视化双雄 Matplotlib 与 Seaborn 教程
09-【深度学习-Day 9】机器学习核心概念入门：监督、无监督与强化学习全解析
10-【深度学习-Day 10】机器学习基石：从零入门线性回归与逻辑回归
11-【深度学习-Day 11】Scikit-learn实战：手把手教你完成鸢尾花分类项目
12-【深度学习-Day 12】从零认识神经网络：感知器原理、实现与局限性深度剖析
13-【深度学习-Day 13】激活函数选型指南：一文搞懂Sigmoid、Tanh、ReLU、Softmax的核心原理与应用场景
14-【深度学习-Day 14】从零搭建你的第一个神经网络：多层感知器(MLP)详解
15-【深度学习-Day 15】告别“盲猜”：一文读懂深度学习损失函数
16-【深度学习-Day 16】梯度下降法 - 如何让模型自动变聪明？
17-【深度学习-Day 17】神经网络的心脏：反向传播算法全解析
18-【深度学习-Day 18】从SGD到Adam：深度学习优化器进阶指南与实战选择
19-【深度学习-Day 19】入门必读：全面解析 TensorFlow 与 PyTorch 的核心差异与选择指南
20-【深度学习-Day 20】PyTorch入门：核心数据结构张量(Tensor)详解与操作
21-【深度学习-Day 21】框架入门：神经网络模型构建核心指南 (Keras & PyTorch)
22-【深度学习-Day 22】框架入门：告别数据瓶颈 - 掌握PyTorch Dataset、DataLoader与TensorFlow tf.data实战

文章目录

Langchain系列文章目录
Python系列文章目录
PyTorch系列文章目录
机器学习系列文章目录
深度学习系列文章目录
Java系列文章目录
JavaScript系列文章目录
深度学习系列文章目录
前言
一、为什么需要高效的数据加载与处理?
- 1.1 深度学习与“数据饥饿”
- - - （1）数据规模的重要性
    - （2）数据多样性的挑战
- 1.2 训练效率的瓶颈：CPU 与 GPU 的“鸿沟”
- - - （1）数据加载的耗时操作
    - （2）GPU 等待的代价
- 1.3 数据预处理：模型的“消化系统”
- - - （1）标准化与归一化
    - （2）格式转换与编码
    - （3）数据清洗与增强
二、框架内置数据集：快速上手
- 2.1 什么是内置数据集?
- - - （1）优点
    - （2）常见的内置数据集
- 2.2 如何使用框架加载内置数据集
- - 2.2.1 以 PyTorch 为例 (`torchvision.datasets`)
  - 2.2.2 以 TensorFlow (Keras) 为例 (`tf.keras.datasets`)
- 2.3 内置数据集的优势与局限
- - - （1）优势
    - （2）局限性
三、自定义数据集：掌控你的数据
- 3.1 为什么需要自定义数据集?
- 3.2 PyTorch 中的 `Dataset` 类
- - 3.2.1 核心方法解析
  - - （1）`__init__(self, data_root, transform=None, ...)`
    - （2）`__len__(self)`
    - （3）`__getitem__(self, idx)`
  - 3.2.2 示例：构建一个简单的图像文件夹数据集
- 3.3 TensorFlow 中的 `tf.data` API
- - 3.3.1 `tf.data.Dataset.from_tensor_slices`
  - 3.3.2 使用 `list_files` 和 `map` 处理图像文件夹
四、数据加载器 `DataLoader`：高效批处理与数据打乱
- 4.1 为什么需要 `DataLoader`?
- - - （1）批处理 (Batching)
    - （2）数据打乱 (Shuffling)
    - （3）并行加载 (Parallel Loading)
    - （4）其他功能
- 4.2 PyTorch 中的 `DataLoader`
- - 4.2.1 核心参数
  - 4.2.2 示例：使用 `DataLoader` 加载自定义数据集
- 4.3 TensorFlow 中的 `tf.data` 的等效功能
- - 4.3.1 `.batch()` 方法
  - 4.3.2 `.shuffle()` 方法
  - 4.3.3 `.prefetch()` 方法
  - 4.3.4 链式操作示例
- 4.4 `DataLoader` / `tf.data` 管道的优势
五、实战：加载并处理 MNIST 数据集
- 5.1 场景设定
- 5.2 使用 PyTorch 实现
- - 5.2.1 导入库
  - 5.2.2 定义数据转换
  - 5.2.3 加载训练集和测试集 (`Dataset`)
  - 5.2.4 创建数据加载器 (`DataLoader`)
  - 5.2.5 迭代数据并可视化一个批次
- 5.3 使用 TensorFlow (Keras) 实现
- - 5.3.1 导入库
  - 5.3.2 加载数据并预处理
  - 5.3.3 使用 `tf.data` 构建数据管道
  - 5.3.4 迭代数据并可视化一个批次
六、常见问题与排查建议
- 6.1 数据加载速度慢
- - - （1）原因分析
    - （2）排查与解决建议
- 6.2 内存不足 (Out of Memory, OOM)
- - - （1）原因分析
    - （2）排查与解决建议
- 6.3 数据格式错误/不一致
- - - （1）原因分析
    - （2）排查与解决建议
- 6.4 `shuffle=True` 的重要性及误用
- - - （1）重要性
    - （2）常见误用
    - （3）建议
七、总结

前言

本篇文章将聚焦于数据加载与处理这一关键环节。我们将深入探讨如何在主流深度学习框架（以 PyTorch 和 TensorFlow 为例）中管理、加载和预处理数据，确保模型能够“吃饱喝足”，并以最佳状态投入训练。无论您是初学者还是有一定经验的开发者，掌握这些技能都将为您的深度学习项目打下坚实的基础。

主要内容将包括：

为什么高效的数据加载与处理至关重要？
如何使用框架提供的内置数据集进行快速实验？
如何针对特定需求创建自定义数据集（Dataset）？
数据加载器（DataLoader）在批处理、数据打乱和并行加载中的核心作用。
通过实战案例（如加载并处理MNIST数据集）巩固所学。

让我们一起揭开高效数据通道的秘密吧！

一、为什么需要高效的数据加载与处理?

在启动任何深度学习项目时，数据准备往往是最耗时也最关键的步骤之一。模型性能的上限很大程度上取决于数据的质量和供给效率。

1.1 深度学习与“数据饥饿”

深度学习模型，尤其是复杂的模型如大型卷积网络或 Transformer，通常包含数百万甚至数十亿的参数。为了有效训练这些参数，避免过拟合，并使模型具备良好的泛化能力，往往需要海量的数据。

（1）数据规模的重要性

参数学习：足够的数据才能让模型从多样化的样本中学习到普适的特征和模式。
泛化能力：数据量越大，模型越能从“偶然”的噪声中区分出“必然”的规律，从而在未见过的数据上表现更好。

（2）数据多样性的挑战

覆盖广泛场景：数据需要覆盖各种可能出现的情况，以增强模型的鲁棒性。
类别均衡：对于分类任务，各类别样本数量的均衡性对模型训练至关重要。

1.2 训练效率的瓶颈：CPU 与 GPU 的“鸿沟”

现代深度学习严重依赖 GPU 进行高速并行计算。然而，如果数据加载和预处理的速度跟不上 GPU 的计算速度，GPU 就会花费大量时间等待数据，这种情况被称为“I/O 瓶颈”或“CPU 瓶颈”。

（1）数据加载的耗时操作

磁盘读取：从磁盘读取大量小文件（如图像）通常比读取少量大文件慢得多。
数据解码：如 JPEG 图片解码。
数据转换：将原始数据转换为模型可接受的张量格式。
数据增强：在训练过程中实时应用随机变换（如旋转、裁剪）以增加数据多样性。

（2）GPU 等待的代价

如果数据加载太慢，GPU 利用率会很低，导致训练时间大大延长，增加了计算成本。高效的数据加载流程旨在最大限度地利用硬件资源。

1.3 数据预处理：模型的“消化系统”

原始数据往往不能直接输入神经网络。需要进行一系列预处理步骤，使其更适合模型学习。

（1）标准化与归一化

目的：将数据调整到相似的尺度范围，有助于加速模型收敛并提高稳定性。例如，将像素值从 [0, 255] 缩放到 [0, 1] 或进行 Z-score 标准化 $x_{norm} = (x - \mu) / \sigma$ 。
重要性：对于使用梯度下降算法的模型尤为重要，可以避免某些特征因数值范围过大而主导梯度更新。

（2）格式转换与编码

张量化：将数据（如图像、文本）转换为框架可操作的张量（Tensor）格式。
标签编码：将类别标签（如字符串）转换为数字索引或独热编码（One-hot encoding）。

（3）数据清洗与增强

处理缺失值/异常值：确保数据质量。

数据增强 (Data Augmentation)：通过对现有数据进行微小变换（如图像的旋转、翻转、裁剪、颜色抖动等）来人工增加训练样本的数量和多样性，是提高模型泛化能力、防止过拟合的有效手段。我们会在后续图像处理章节详细介绍。

因此，一个高效的数据加载与处理管道，不仅能确保模型获得高质量的“食粮”，还能显著提升训练效率，是深度学习项目中不可或缺的一环。

二、框架内置数据集：快速上手

主流深度学习框架如 PyTorch 和 TensorFlow 为了方便用户学习、测试算法和进行基准比较，通常会提供一系列常用的标准数据集。这些内置数据集可以直接通过几行代码下载和加载，极大地简化了数据获取的流程。

2.1 什么是内置数据集?

内置数据集是指由框架的特定模块（例如 PyTorch 的 torchvision.datasets 或 TensorFlow 的 tf.keras.datasets）直接提供和管理的数据集。用户通常只需要指定数据集名称和一些可选参数（如存储路径、是否下载、应用何种转换等），框架会自动处理下载、解压和加载的逻辑。

（1）优点

便捷性：无需手动下载和整理数据文件。
标准化：数据集格式统一，方便复现研究成果和进行模型比较。
快速原型验证：非常适合快速搭建原型，验证模型或算法的有效性。

（2）常见的内置数据集

图像分类：MNIST (手写数字), CIFAR-10/CIFAR-100 (小型彩色图像), ImageNet (大规模图像)。
文本数据：IMDb (电影评论情感分析), Penn Treebank (语言模型)。
其他：各种语音数据集、推荐系统数据集等。

2.2 如何使用框架加载内置数据集

下面我们以加载经典的 MNIST 手写数字数据集为例，分别展示在 PyTorch 和 TensorFlow 中的实现方法。

2.2.1 以 PyTorch 为例 (`torchvision.datasets`)

PyTorch 通过 torchvision.datasets 模块提供常用的计算机视觉数据集。同时，torchvision.transforms 模块用于对数据进行预处理。

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt # 用于可视化# 定义数据预处理：转换为张量，并进行归一化
# MNIST数据集是灰度图，均值和标准差可以近似为0.1307和0.3081
# (这些值是根据MNIST训练集的像素值计算得到的)
transform = transforms.Compose([transforms.ToTensor(), # 将 PIL Image 或 numpy.ndarray 转换为 torch.FloatTensor，并将像素值从 [0, 255] 缩放到 [0, 1]transforms.Normalize((0.1307,), (0.3081,)) # 使用均值和标准差进行归一化
])# 下载/加载训练数据集
# root: 数据集存储路径
# train: True 表示加载训练集, False 表示加载测试集
# download: True 表示如果本地没有数据集则自动下载
# transform: 应用于每个样本的预处理操作
trainset = torchvision.datasets.MNIST(root='./data',train=True,download=True,transform=transform)# 下载/加载测试数据集
testset = torchvision.datasets.MNIST(root='./data',train=False,download=True,transform=transform)print(f"训练集样本数量: {len(trainset)}")
print(f"测试集样本数量: {len(testset)}")# 查看一个样本
image, label = trainset[0] # 获取第一个样本
print(f"图像张量形状: {image.shape}") # 通常是 (通道数, 高度, 宽度)，MNIST是 (1, 28, 28)
print(f"图像标签: {label}")# 可视化一个样本 (需要反归一化或在归一化前显示)
# 为了简单，我们直接显示原始ToTensor()后的图像
raw_trainset = torchvision.datasets.MNIST(root='./data_raw', train=True, download=True, transform=transforms.ToTensor())
raw_image, raw_label = raw_trainset[0]
plt.imshow(raw_image.squeeze().numpy(), cmap='gray') # squeeze() 去掉单通道维度，numpy() 转为numpy数组
plt.title(f"Label: {raw_label}")
# plt.show() # 在脚本中运行时取消注释以显示图像

关键行注释：

transforms.ToTensor(): 将图像数据从 PIL 图像或 NumPy 数组格式转换为 PyTorch 张量，并且会自动将像素值从 [0, 255] 的范围归一化到 [0, 1]。
transforms.Normalize((0.1307,), (0.3081,)): 使用给定的均值和标准差对张量进行归一化。这对于许多模型（如卷积神经网络）的稳定训练非常重要。
torchvision.datasets.MNIST(...): 这是加载 MNIST 数据集的核心函数。root 参数指定数据存放的目录，train=True/False 指定加载训练集还是测试集，download=True 允许在本地找不到数据时自动下载，transform 参数接收一个转换函数（或组合函数），用于在数据加载时对每个样本进行预处理。

2.2.2 以 TensorFlow (Keras) 为例 (`tf.keras.datasets`)

TensorFlow 通过 tf.keras.datasets 模块提供类似的内置数据集功能。

import tensorflow as tf
import matplotlib.pyplot as plt # 用于可视化
import numpy as np# 加载 MNIST 数据集
# load_data() 返回两个元组：(训练图像, 训练标签), (测试图像, 测试标签)
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()# 数据预处理：归一化像素值到 [0, 1] 范围，并添加通道维度（对于CNN）
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0# Keras的卷积层通常期望输入形状为 (batch_size, height, width, channels)
# MNIST原始数据是 (num_samples, 28, 28)，需要扩展为 (num_samples, 28, 28, 1)
if len(x_train.shape) == 3: # 如果没有通道维度x_train = np.expand_dims(x_train, -1) # 在最后一个维度添加通道x_test = np.expand_dims(x_test, -1)print(f"训练集图像形状: {x_train.shape}") # (60000, 28, 28, 1)
print(f"训练集标签形状: {y_train.shape}") # (60000,)
print(f"测试集图像形状: {x_test.shape}")   # (10000, 28, 28, 1)
print(f"测试集标签形状: {y_test.shape}")   # (10000,)# 查看一个样本
print(f"第一个训练图像的标签: {y_train[0]}")# 可视化一个样本
plt.imshow(x_train[0].squeeze(), cmap='gray') # squeeze() 去掉单通道维度
plt.title(f"Label: {y_train[0]}")
# plt.show() # 在脚本中运行时取消注释以显示图像

关键行注释：

tf.keras.datasets.mnist.load_data(): 直接加载 MNIST 数据集，并将其划分为训练集和测试集。返回的数据是 NumPy 数组。
x_train.astype('float32') / 255.0: 将像素值从 [0, 255] 的整数类型转换为 [0, 1] 的浮点数类型，这是常用的归一化方法。
np.expand_dims(x_train, -1): TensorFlow (尤其是 Keras API 中的卷积层) 通常期望图像数据具有通道维度。对于灰度图 MNIST，原始数据形状是 (样本数, 高, 宽)，需要扩展为 (样本数, 高, 宽, 通道数)，这里通道数为1。

2.3 内置数据集的优势与局限

（1）优势

快速启动：对于学习和教学，可以快速跳过数据收集和预处理的繁琐步骤，直接关注模型和算法本身。
可复现性：使用标准数据集使得实验结果更容易被他人复现和比较。
基准测试：许多经典模型都是在这些标准数据集上进行性能评估的。

（2）局限性

不代表真实世界问题：内置数据集通常经过精心整理，与实际项目中遇到的复杂、噪声大、不均衡的数据有较大差异。
规模有限：虽然 ImageNet 规模较大，但多数内置数据集相对较小，可能不足以训练出能解决复杂实际问题的SOTA模型。
特定领域缺乏：对于很多特定应用领域（如医疗影像、工业检测），往往没有现成的内置数据集。

因此，虽然内置数据集是入门和实验的好帮手，但在处理实际项目时，我们几乎总是需要创建或使用自定义的数据集。

三、自定义数据集：掌控你的数据

当内置数据集无法满足我们的需求时，例如处理私有数据、特定格式数据，或者需要更复杂的预处理逻辑时，我们就需要创建自定义数据集。主流框架都提供了灵活的机制来构建自定义数据加载流程。

3.1 为什么需要自定义数据集?

特定数据源：数据可能存储在特定的文件结构（如按类别分文件夹的图像）、数据库、云存储或通过特定API获取。
复杂预处理：可能需要复杂的预处理步骤，如特定领域的特征提取、非标准的数据增强、多模态数据的融合等。
流式数据处理：对于无法一次性加载到内存的超大规模数据集，需要实现流式读取和处理。
与特定标签格式集成：标签可能存储在CSV文件、JSON文件或XML文件中，需要解析并与数据样本对应。

3.2 PyTorch 中的 `Dataset` 类

PyTorch 通过 torch.utils.data.Dataset 类提供了创建自定义数据集的标准接口。要创建一个自定义数据集，你需要继承 Dataset 类并重写以下三个核心方法：

__init__(self, ...): 初始化方法，通常用于执行一次性的设置操作，如加载数据路径列表、读取标签文件、定义预处理转换等。
__len__(self): 返回数据集中样本的总数。这是 DataLoader 等工具确定迭代次数所必需的。
__getitem__(self, index): 根据给定的索引 index（从0到 len(self)-1），加载并返回一个数据样本（通常是数据和对应的标签）。这里会执行具体的磁盘读取、数据解码、预处理转换等操作。

3.2.1 核心方法解析

（1）`init(self, data_root, transform=None, ...)`

data_root (示例参数): 数据集所在的根目录。
transform (示例参数): 一个可选的 callable 对象（通常是 torchvision.transforms.Compose 的实例），用于对加载的数据样本进行预处理。
在此方法中，你可以扫描 data_root，收集所有数据文件的路径和对应的标签，并将它们存储为类的成员变量（如列表）。

（2）`len(self)`

简单地返回在 __init__ 中确定的样本总数。例如，return len(self.image_paths)。

（3）`getitem(self, idx)`

这是 Dataset 的核心。它接收一个索引 idx。
根据 idx 获取对应的数据文件路径（例如 img_path = self.image_paths[idx]）和标签（例如 label = self.labels[idx]）。
从磁盘读取数据（例如，使用 PIL 库读取图像：image = Image.open(img_path).convert('RGB')）。
如果在 __init__ 中传入了 transform，则应用它：if self.transform: image = self.transform(image)。
返回处理后的数据样本，通常是一个元组 (data, label)。

3.2.2 示例：构建一个简单的图像文件夹数据集

假设我们的图像数据按类别存储在不同的文件夹中，结构如下：

dataset_root/
├── class_A/
│   ├── image_001.jpg
│   ├── image_002.jpg
│   └── ...
├── class_B/
│   ├── image_101.jpg
│   ├── image_102.jpg
│   └── ...
└── class_C/├── image_201.jpg└── ...

我们可以这样实现一个自定义 Dataset：

import os
from PIL import Image
from torch.utils.data import Dataset
import torchvision.transforms as transformsclass CustomImageFolderDataset(Dataset):def __init__(self, root_dir, transform=None):"""Args:root_dir (string): 包含所有类别文件夹的根目录。transform (callable, optional): 应用于样本的可选转换。"""self.root_dir = root_dirself.transform = transformself.classes = sorted([d.name for d in os.scandir(root_dir) if d.is_dir()]) # 获取类别名self.class_to_idx = {cls_name: i for i, cls_name in enumerate(self.classes)} # 类别名到索引的映射self.image_paths = []self.image_labels = []for class_name in self.classes:class_path = os.path.join(root_dir, class_name)for img_name in os.listdir(class_path):if img_name.lower().endswith(('.png', '.jpg', '.jpeg')): # 确保是图片文件self.image_paths.append(os.path.join(class_path, img_name))self.image_labels.append(self.class_to_idx[class_name])def __len__(self):return len(self.image_paths) # 返回样本总数def __getitem__(self, idx):img_path = self.image_paths[idx] # 根据索引获取图片路径label = self.image_labels[idx]   # 根据索引获取标签try:image = Image.open(img_path).convert('RGB') # 使用Pillow库读取图片并转为RGBexcept Exception as e:print(f"Error loading image {img_path}: {e}")# 可以返回一个占位符图像和标签，或者跳过这个样本（但这会使DataLoader行为复杂）# 更稳健的做法是在__init__时就过滤掉损坏的图像# 这里为了演示，我们简单地在出错时返回None, None，实际项目中需要更好处理# 或者，如果图片损坏，可以尝试加载下一个，但这会改变idx的映射，不推荐# 更好的做法是预先清洗数据或在__init__时进行检查placeholder_image = Image.new('RGB', (224, 224), color = 'red') # 示例占位符if self.transform:placeholder_image = self.transform(placeholder_image)return placeholder_image, -1 # 返回一个特殊标签表示错误if self.transform:image = self.transform(image) # 应用预定义的转换return image, label # 返回图片张量和标签# 使用示例：
# 定义转换
custom_transform = transforms.Compose([transforms.Resize((256, 256)),transforms.RandomCrop(224),transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) # ImageNet 均值和标准差
])# 假设你的数据集在 './my_custom_data/' 目录下
# custom_dataset = CustomImageFolderDataset(root_dir='./my_custom_data/', transform=custom_transform)# print(f"自定义数据集中的样本数量: {len(custom_dataset)}")
# if len(custom_dataset) > 0:
#     img, lbl = custom_dataset[0]
#     print(f"第一个样本的图像形状: {img.shape}, 标签: {lbl}")
# else:
#     print("自定义数据集中没有样本或路径不正确。")

关键行注释：

self.classes = sorted(...): 扫描根目录，自动发现所有子文件夹作为类别名称。
self.class_to_idx = {...}: 创建一个从类别名称到整数索引的映射，如 {'class_A': 0, 'class_B': 1}。
os.listdir(class_path): 遍历每个类别文件夹中的所有文件。
Image.open(img_path).convert('RGB'): 使用 Pillow (PIL) 库打开图像文件，并确保其为 RGB 格式。
if self.transform: image = self.transform(image): 如果定义了转换操作，就将其应用于加载的图像。

注意：PyTorch 的 torchvision.datasets.ImageFolder 已经实现了类似上述结构文件夹的加载逻辑，并且更为健壮。在实际项目中，如果你的数据恰好是这种结构，优先使用 ImageFolder。自定义 Dataset 更适用于 ImageFolder 无法满足的复杂场景。

3.3 TensorFlow 中的 `tf.data` API

TensorFlow 使用 tf.data API 来构建高效、灵活的数据输入管道。它与 PyTorch 的 Dataset 和 DataLoader 的概念有所不同，但目标一致。tf.data API 侧重于构建一个数据转换图，可以进行高效的并行处理。

核心组件是 tf.data.Dataset 对象，它代表了一系列元素（样本）。你可以通过以下几种主要方式创建 Dataset：

从内存中的张量创建：tf.data.Dataset.from_tensor_slices((features, labels))，适用于数据能完全载入内存的情况。
从生成器创建：tf.data.Dataset.from_generator(my_generator_func, output_signature=...)，适用于数据需要动态生成或从Python迭代器读取的情况。
从文件创建：如 tf.data.TFRecordDataset (读取TFRecord文件), tf.data.TextLineDataset (读取文本文件每行)。
针对特定文件模式：tf.data.Dataset.list_files(file_pattern) 结合 .interleave() 或 .map() 来读取匹配模式的文件 (如一组图片)。

3.3.1 `tf.data.Dataset.from_tensor_slices`

如果你的特征和标签已经是 NumPy 数组或 TensorFlow 张量，并且可以放入内存：

import tensorflow as tf
import numpy as np# 假设我们有 NumPy 数组的特征和标签
features_np = np.random.rand(100, 224, 224, 3).astype(np.float32) # 100个224x224x3的图像
labels_np = np.random.randint(0, 10, size=(100,)).astype(np.int32)   # 100个标签# 从 NumPy 数组创建 tf.data.Dataset
dataset_from_slices = tf.data.Dataset.from_tensor_slices((features_np, labels_np))# dataset_from_slices 现在是一个 tf.data.Dataset 对象
# 我们可以像迭代Python可迭代对象一样迭代它 (通常在模型训练中框架会处理)
# for feature_batch, label_batch in dataset_from_slices.batch(32).take(1): # 取一个批次看看
#     print(feature_batch.shape, label_batch.shape)

3.3.2 使用 `list_files` 和 `map` 处理图像文件夹

对于类似 PyTorch CustomImageFolderDataset 的场景，TensorFlow 中通常使用 tf.data.Dataset.list_files 结合 map 函数来实现。

import tensorflow as tf
import os# 假设图像文件夹结构与PyTorch示例相同
# DATASET_ROOT = './my_custom_data/'def parse_image(filename):# parts = tf.strings.split(filename, os.sep) # 在TF 2.x中，os.sep可能导致非Tensor错误# TensorFlow的路径操作倾向于使用'/'作为分隔符，即使在Windows上# 假设路径类似 "dataset_root/class_A/image_001.jpg"# 我们需要从路径中提取标签# 注意：这部分标签提取逻辑需要根据实际路径结构精确调整# 一个简单（但不通用）的例子，假设类别是倒数第二个路径部分：# path_parts = tf.strings.split(filename, '/') # 用'/'分割# label_str = path_parts[-2] # 取倒数第二个元素作为类别字符串# 更健壮的方式通常是在 list_files 之前就为每个文件准备好标签# 或者使用 tf.keras.preprocessing.image_dataset_from_directory# 这里我们简化，假设有一个函数能从文件名得到标签（或标签已与文件列表配对）# 假设我们已经有了一个 file_paths 列表和对应的 labels_int 列表image_string = tf.io.read_file(filename) # 读取文件内容为字节串image_decoded = tf.image.decode_jpeg(image_string, channels=3) # 解码JPEGimage_resized = tf.image.resize(image_decoded, [224, 224]) # 调整大小image_normalized = image_resized / 255.0 # 归一化return image_normalized # 这里我们只返回图像，标签通常与文件路径列表分开处理或一起传入map# 假设我们已经有了所有图片路径列表和对应的整数标签列表
# file_paths = [...] # 所有图片文件的路径列表
# labels_int = [...] # 对应的整数标签列表# 如果要实现类似 ImageFolder 的自动标签推断，推荐使用：
# train_dataset = tf.keras.utils.image_dataset_from_directory(
#     DATASET_ROOT,
#     labels='inferred', # 从目录结构推断标签
#     label_mode='int',    # 整数标签
#     image_size=(224, 224),
#     batch_size=None, # 先不批处理，后续再 .batch()
#     shuffle=False # 先不打乱
# )
# def preprocess_image_label(image, label):
#     image = tf.image.convert_image_dtype(image, dtype=tf.float32) # 归一化到[0,1]
#     return image, label
# train_dataset = train_dataset.map(preprocess_image_label, num_parallel_calls=tf.data.AUTOTUNE)# 手动方式示例（如果不用 image_dataset_from_directory）：
# 1. 获取所有文件路径和标签
# image_paths = []
# image_labels = []
# classes_tf = sorted([d.name for d in os.scandir(DATASET_ROOT) if d.is_dir()])
# class_to_idx_tf = {cls_name: i for i, cls_name in enumerate(classes_tf)}
# for class_name in classes_tf:
#     class_path = os.path.join(DATASET_ROOT, class_name)
#     for img_name in os.listdir(class_path):
#         if img_name.lower().endswith(('.png', '.jpg', '.jpeg')):
#             image_paths.append(os.path.join(class_path, img_name))
#             image_labels.append(class_to_idx_tf[class_name])# path_ds = tf.data.Dataset.from_tensor_slices(image_paths)
# label_ds = tf.data.Dataset.from_tensor_slices(tf.cast(image_labels, tf.int64)) # 确保标签是tf支持的整数类型
# image_ds = path_ds.map(parse_image, num_parallel_calls=tf.data.AUTOTUNE) # AUTOTUNE让TF动态调整并行数
# # 将图像数据集和标签数据集合并
# custom_tf_dataset = tf.data.Dataset.zip((image_ds, label_ds))# print("TensorFlow 自定义数据集 (如果成功创建):")
# if 'custom_tf_dataset' in locals() and custom_tf_dataset:
#    for img_tensor, lbl_tensor in custom_tf_dataset.take(1): # 取一个样本看看
#        print(img_tensor.shape, lbl_tensor.numpy())
# else:
#    print("TensorFlow 自定义数据集未创建或路径不正确。请确保 DATASET_ROOT 指向有效数据。")
#    print("推荐使用 tf.keras.utils.image_dataset_from_directory 以简化操作。")

关键行注释 (手动方式)：

tf.io.read_file(filename): 读取文件的原始字节内容。
tf.image.decode_jpeg(image_string, channels=3): 将 JPEG 字节串解码为图像张量。类似的有 decode_png 等。
tf.image.resize(image_decoded, [224, 224]): 调整图像大小。
image_normalized = image_resized / 255.0: 简单的归一化。
path_ds.map(parse_image, num_parallel_calls=tf.data.AUTOTUNE): map 操作会将 parse_image 函数应用于 path_ds 中的每个元素（文件名）。num_parallel_calls=tf.data.AUTOTUNE 允许 TensorFlow 自动调整并行处理的线程数以优化性能。
tf.data.Dataset.zip((image_ds, label_ds)): 如果图像数据和标签数据是分别处理后得到的两个 Dataset，可以使用 zip 将它们合并成一个包含 (image, label) 对的 Dataset。

强烈推荐：对于常见的图像文件夹结构，TensorFlow 提供了 tf.keras.utils.image_dataset_from_directory 函数，它可以非常方便地直接从目录创建 tf.data.Dataset，自动处理标签推断和初步的图像加载与调整大小，大大简化了自定义代码的需求。

# 使用 tf.keras.utils.image_dataset_from_directory (推荐方式)
# DATASET_ROOT = './my_custom_data/' # 确保这个路径下有类别子文件夹
# BATCH_SIZE_TF = 32
# IMG_SIZE = (224, 224)# try:
#     train_dataset_tf = tf.keras.utils.image_dataset_from_directory(
#         DATASET_ROOT,
#         labels='inferred',         # 从目录名推断标签
#         label_mode='int',          # 整数标签 (0, 1, 2...)
#         image_size=IMG_SIZE,       # 统一调整图像大小
#         interpolation='nearest',   # 调整大小时的插值方法
#         batch_size=BATCH_SIZE_TF,  # 直接在这里指定批大小
#         shuffle=True,              # 是否打乱数据
#         seed=42,                   # 打乱的随机种子，保证可复现
#         validation_split=0.2,      # 可选：从训练数据中划分一部分作为验证集
#         subset='training'          # 可选：如果使用了validation_split，指定这是训练子集
#     )#     val_dataset_tf = tf.keras.utils.image_dataset_from_directory(
#         DATASET_ROOT,
#         labels='inferred',
#         label_mode='int',
#         image_size=IMG_SIZE,
#         interpolation='nearest',
#         batch_size=BATCH_SIZE_TF,
#         shuffle=False, # 验证集通常不打乱
#         seed=42,
#         validation_split=0.2,
#         subset='validation'
#     )# 定义一个预处理函数 (例如归一化)
#     def preprocess_tf(image, label):
#         image = tf.image.convert_image_dtype(image, dtype=tf.float32) # 归一化到[0,1]
#         return image, label#     train_dataset_tf = train_dataset_tf.map(preprocess_tf, num_parallel_calls=tf.data.AUTOTUNE)
#     val_dataset_tf = val_dataset_tf.map(preprocess_tf, num_parallel_calls=tf.data.AUTOTUNE)# 优化性能
#     train_dataset_tf = train_dataset_tf.prefetch(buffer_size=tf.data.AUTOTUNE)
#     val_dataset_tf = val_dataset_tf.prefetch(buffer_size=tf.data.AUTOTUNE)#     print("使用 image_dataset_from_directory 创建的数据集:")
#     for images, labels in train_dataset_tf.take(1): # 取一个批次看看
#         print(images.shape, labels.shape)# except Exception as e:
#     print(f"创建 TensorFlow 数据集失败，请检查 DATASET_ROOT ('./my_custom_data/') 是否存在且包含类别子文件夹: {e}")

自定义数据集是深度学习项目中非常关键的一步，它使得我们可以灵活处理各种来源和格式的数据。

四、数据加载器 `DataLoader`：高效批处理与数据打乱

一旦我们有了 Dataset 对象（无论是内置的还是自定义的），它定义了如何访问单个数据样本。但在训练神经网络时，我们通常不会逐个样本进行训练，而是采用小批量（mini-batch）梯度下降。此外，为了提高训练效率和模型泛化能力，我们还需要打乱数据顺序、并行加载数据等。这些功能就是由数据加载器（DataLoader）提供的。

4.1 为什么需要 `DataLoader`?

Dataset 解决了“数据在哪里”和“如何获取单个数据”的问题，而 DataLoader 则解决了“如何高效地将这些数据组织起来喂给模型”的问题。

（1）批处理 (Batching)

梯度平滑：使用一个小批量的平均梯度来更新参数，比单个样本的梯度更稳定，有助于模型收敛。
计算效率：GPU 等并行计算设备在处理一批数据时能更好地发挥其并行计算能力，远比逐个处理样本高效。

（2）数据打乱 (Shuffling)

避免局部最优：在每个训练周期（epoch）开始时打乱数据顺序，可以防止模型学到数据顺序本身带来的偏差，有助于跳出局部最优，提高泛化能力。通常只在训练时打乱，验证和测试时不需要。

（3）并行加载 (Parallel Loading)

减少 GPU 等待：DataLoader 可以使用多个子进程（workers）在后台预先加载和处理下一个批次的数据，当 GPU 完成当前批次的计算后，下一批数据已经准备就绪，从而最大限度地减少 GPU 的空闲等待时间，提升整体训练速度。

（4）其他功能

自定义采样策略 (Sampler)：可以定义更复杂的采样逻辑，例如处理类别不均衡问题时的过采样或欠采样。
自定义批次整理 (Collate Function)：对于长度不一的序列数据（如文本），可以自定义如何将多个样本整理（padding、stacking）成一个批次。

4.2 PyTorch 中的 `DataLoader`

PyTorch 的 torch.utils.data.DataLoader 是实现上述功能的关键类。它接收一个 Dataset 对象以及一些配置参数。

4.2.1 核心参数

from torch.utils.data import DataLoader# 假设我们已经有了一个 Dataset 对象，例如之前创建的 trainset 或 custom_dataset
# train_dataset = ... (例如 torchvision.datasets.MNIST(...) 或 CustomImageFolderDataset(...))# dataloader = DataLoader(
#     dataset,             # Dataset对象，从中加载数据
#     batch_size=32,       # 每个批次加载的样本数
#     shuffle=True,        # 是否在每个epoch开始时打乱数据顺序 (训练时通常为True)
#     num_workers=0,       # 用于数据加载的子进程数。0表示在主进程中加载。
#                          # 在Linux/macOS上，通常设为大于0的数（如CPU核心数）可以加速。
#                          # Windows上多进程支持可能有限或需要特殊处理(__main__保护)。
#     pin_memory=False,    # 如果为True，并且num_workers > 0，DataLoader会将张量复制到CUDA固定内存中，
#                          # 这可以加速数据从CPU到GPU的传输。通常在有GPU时设为True。
#     drop_last=False,     # 如果数据集大小不能被batch_size整除，是否丢弃最后一个不完整的批次。
#                          # False表示最后一个批次可能较小。True则丢弃。
#     collate_fn=None      # 自定义如何将样本列表组合成一个批次。
# )

dataset: 必须提供的参数，是你创建的 Dataset 实例。
batch_size: 定义了每个批次中包含的样本数量。是训练中一个重要的超参数。
shuffle: 布尔值。如果为 True，则在每个 epoch 开始前都会打乱数据的顺序。这对于训练过程非常重要，可以防止模型记住数据的特定顺序。通常在训练时设为 True，在验证/测试时设为 False。
num_workers: 指定用于数据加载的子进程数量。
- 0 (默认值): 数据将在主进程中加载。
- >0: 将使用指定数量的子进程并行加载数据。这可以显著加快数据加载速度，尤其是在数据预处理比较耗时的情况下。设置的值通常取决于CPU核心数和具体任务。在Windows上使用多进程时，需要将数据加载和模型训练代码放在 if __name__ == '__main__': 块中。
pin_memory: 布尔值。如果为 True，DataLoader 会将加载的数据张量放入CUDA的“固定内存”（pinned memory）中。这样做可以加快数据从CPU内存到GPU显存的传输速度。通常在GPU训练且 num_workers > 0 时设为 True 会有性能提升。
drop_last: 布尔值。如果数据集的总样本数不能被 batch_size 整除，最后一个批次的样本数会小于 batch_size。如果 drop_last=True，则这个不完整的批次会被丢弃。如果为 False（默认），则会保留这个较小的批次。
collate_fn: 一个 callable 对象，用于将从 Dataset 中获取的多个单独样本（一个列表）合并成一个批次张量。默认的 collate_fn 能够处理大部分情况（如将多个张量堆叠起来）。但对于包含变长序列等复杂数据结构时，你可能需要提供自定义的 collate_fn。

4.2.2 示例：使用 `DataLoader` 加载自定义数据集

import torch
import torchvision.transforms as transforms
from torch.utils.data import DataLoader #, Dataset # (Dataset 和 CustomImageFolderDataset 定义见上文)
# from PIL import Image # (CustomImageFolderDataset 中用到)
# import os # (CustomImageFolderDataset 中用到)# --- 假设 CustomImageFolderDataset 类已定义如上 ---
# class CustomImageFolderDataset(Dataset): ... (略)# 准备一些虚拟数据用于演示 CustomImageFolderDataset
# (实际项目中，请替换为你的真实数据路径)
def create_dummy_data(root_dir='./dummy_data', num_classes=2, images_per_class=5):if os.path.exists(root_dir):import shutilshutil.rmtree(root_dir) # 清理旧数据os.makedirs(root_dir, exist_ok=True)for i in range(num_classes):class_name = f"class_{chr(65+i)}" # class_A, class_Bclass_path = os.path.join(root_dir, class_name)os.makedirs(class_path, exist_ok=True)for j in range(images_per_class):try:# 创建一个简单的虚拟PNG图片img = Image.new('RGB', (60, 30), color = 'blue' if i==0 else 'red')img.save(os.path.join(class_path, f"img_{j}.png"))except Exception as e:print(f"创建虚拟图片失败: {e}. 请确保Pillow已安装。")return Falsereturn True# if create_dummy_data(): # 确保虚拟数据创建成功
#     custom_transform_loader = transforms.Compose([
#         transforms.Resize((32, 32)), # 调整大小
#         transforms.ToTensor(),         # 转为张量
#         transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)) # 归一化
#     ])#     dummy_dataset = CustomImageFolderDataset(root_dir='./dummy_data', transform=custom_transform_loader)#     if len(dummy_dataset) > 0:
#         # 创建 DataLoader
#         # 在Windows上，如果 num_workers > 0, 需要把调用代码放到 if __name__ == '__main__': 中
#         # 为了通用性，这里设为0
#         dummy_dataloader = DataLoader(dataset=dummy_dataset,
#                                       batch_size=4,
#                                       shuffle=True,
#                                       num_workers=0) # Windows 用户注意num_workers#         print(f"Dummy DataLoader创建成功，每个批次包含 {dummy_dataloader.batch_size} 个样本。")#         # 迭代 DataLoader 获取批次数据
#         # 通常在训练循环中这样做
#         # for epoch in range(num_epochs):
#         #     for i, (images_batch, labels_batch) in enumerate(dummy_dataloader):
#         #         # images_batch 的形状: (batch_size, channels, height, width)
#         #         # labels_batch 的形状: (batch_size)
#         #         print(f"批次 {i}: 图像形状 {images_batch.shape}, 标签形状 {labels_batch.shape}")
#         #         # 在这里进行模型训练...
#         #         if i == 1: # 只演示两个批次
#         #             break
#         #     break # 只演示一个epoch
#     else:
#         print("Dummy dataset 为空，无法创建 DataLoader。")
# else:
#     print("创建虚拟数据失败，DataLoader 示例无法运行。")

关键行注释：

DataLoader(...): 实例化数据加载器，传入准备好的 Dataset 对象、批大小、是否打乱等参数。
迭代 dummy_dataloader：当你在一个 for 循环中迭代 DataLoader 时，它会在每个迭代步骤返回一个数据批次（images_batch, labels_batch）。

4.3 TensorFlow 中的 `tf.data` 的等效功能

TensorFlow 的 tf.data.Dataset 对象自身就集成了一系列方法来实现批处理、打乱和预取等功能，不需要一个单独的 DataLoader 类。这些操作通常是链式调用的。

4.3.1 `.batch()` 方法

将数据集中的连续元素组合成批次。

# tf_dataset = ... (一个 tf.data.Dataset 对象)
# batched_dataset = tf_dataset.batch(batch_size=32, drop_remainder=False)

drop_remainder: 类似于 PyTorch 的 drop_last。如果为 True，则在数据集大小不能被 batch_size 整除时，丢弃最后一个不完整的批次。

4.3.2 `.shuffle()` 方法

随机打乱数据集中的元素。

# tf_dataset = ...
# BUFFER_SIZE = 10000 # 缓冲区大小，tf会从这个缓冲区中随机采样
# shuffled_dataset = tf_dataset.shuffle(buffer_size=BUFFER_SIZE, seed=None, reshuffle_each_iteration=True)

buffer_size: shuffle 方法会维护一个固定大小的缓冲区，并从该缓冲区中随机抽取元素进行输出。理想情况下，buffer_size 应大于或等于数据集的总大小，以实现完全打乱。如果内存不足以容纳整个数据集，可以选择一个合适的较小值，它仍然能提供一定程度的随机性。
seed: 可选的随机种子，用于可复现的打乱。
reshuffle_each_iteration: 如果为 True (默认)，则在每次迭代（epoch）时都会重新打乱。

4.3.3 `.prefetch()` 方法

在模型训练当前批次数据时，并行地准备（预取）后续一个或多个批次的数据。这可以显著减少 GPU 等待时间，提高训练吞吐量。

# tf_dataset = ...
# optimized_dataset = tf_dataset.prefetch(buffer_size=tf.data.AUTOTUNE)

buffer_size: 指定要预取的批次数。tf.data.AUTOTUNE 会让 TensorFlow 在运行时动态调整这个值以达到最佳性能。

4.3.4 链式操作示例

import tensorflow as tf# 假设 train_dataset_tf 是一个已经创建好的 tf.data.Dataset 对象
# (例如通过 tf.keras.utils.image_dataset_from_directory 或 from_tensor_slices 创建)# # 示例：先创建一个简单的 tf.data.Dataset
# elements = list(range(100))
# train_dataset_tf_example = tf.data.Dataset.from_tensor_slices(elements)# BATCH_SIZE = 16
# SHUFFLE_BUFFER_SIZE = 100 # 对于这个小例子，100足够了# train_pipeline = (
#     train_dataset_tf_example
#     .shuffle(SHUFFLE_BUFFER_SIZE)  # 打乱数据
#     .batch(BATCH_SIZE)             # 组合成批次
#     .prefetch(tf.data.AUTOTUNE)    # 预取数据以优化性能
# )# print("TensorFlow 数据管道配置完毕。")
# for batch_data in train_pipeline.take(2): # 取两个批次看看
#    print(f"批次数据: {batch_data.numpy()}, 形状: {batch_data.shape}")

这种链式API使得 tf.data 的数据管道构建非常灵活和强大。顺序通常是：

创建基础 Dataset (e.g., from_tensor_slices, list_files then map for loading and preprocessing).
.cache() (可选): 如果数据和预处理结果能放入内存，可以在第一次epoch后缓存，后续epoch直接从内存读取。
.shuffle(): 打乱数据。
.batch(): 组合成批次。
.map() (如果某些预处理是批处理更高效，可以在batch后进行)。
.prefetch(): 放在管道末端，用于并行准备数据。

4.4 `DataLoader` / `tf.data` 管道的优势

性能：通过并行化和预取，显著减少数据加载瓶颈，提升训练速度。
易用性：封装了复杂的底层逻辑，用户只需配置几个参数即可。
灵活性：支持自定义采样、批次整理等高级功能，适应各种复杂数据场景。
内存效率：对于大规模数据集，数据是按需加载和处理的，而不是一次性全部读入内存。

掌握数据加载器的使用是高效进行深度学习模型训练的关键一步。

五、实战：加载并处理 MNIST 数据集

理论学习后，最好的巩固方式就是实战。本节我们将以经典的 MNIST 手写数字数据集为例，演示如何在 PyTorch 和 TensorFlow 中构建完整的数据加载和预处理流程，并为后续的模型训练做好准备。

5.1 场景设定

我们的目标是加载 MNIST 数据集，对其进行必要的预处理（如转换为张量、归一化），然后通过数据加载器将其组织成批次，以便后续可以输入到一个分类模型中进行训练。

5.2 使用 PyTorch 实现

我们将使用 torchvision.datasets.MNIST 和 torch.utils.data.DataLoader。

5.2.1 导入库

import torch
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
import numpy as np # 用于可视化时的 .numpy()

5.2.2 定义数据转换

数据转换 (transforms) 是在加载每个样本时对其进行的预处理操作。

transforms.ToTensor(): 将 PIL Image 或 numpy.ndarray (H x W x C) 转换为 torch.FloatTensor (C x H x W)，并将像素值从 [0, 255] 缩放到 [0, 1]。
transforms.Normalize(mean, std): 用给定的均值和标准差对张量进行逐通道归一化。公式为 output[channel] = (input[channel] - mean[channel]) / std[channel]。对于 MNIST，它是单通道灰度图，常用的均值和标准差是 (0.1307,) 和 (0.3081,)。这些值是根据 MNIST 训练集计算得出的。

# 定义数据预处理流程
transform_mnist = transforms.Compose([transforms.ToTensor(),                             # 转换为张量，并自动归一化到 [0,1]transforms.Normalize((0.1307,), (0.3081,))         # 标准化
])

5.2.3 加载训练集和测试集 (`Dataset`)

使用 torchvision.datasets.MNIST 创建训练集和测试集的 Dataset 实例。

# 路径设置
DATA_ROOT_PYTORCH = './data_pytorch_mnist'# 创建训练集 Dataset
train_dataset_pt = torchvision.datasets.MNIST(root=DATA_ROOT_PYTORCH,train=True,                # 加载训练数据download=True,             # 如果本地没有，则下载transform=transform_mnist  # 应用定义的转换
)# 创建测试集 Dataset
test_dataset_pt = torchvision.datasets.MNIST(root=DATA_ROOT_PYTORCH,train=False,               # 加载测试数据download=True,transform=transform_mnist
)print(f"PyTorch 训练集大小: {len(train_dataset_pt)}")
print(f"PyTorch 测试集大小: {len(test_dataset_pt)}")

5.2.4 创建数据加载器 (`DataLoader`)

使用 DataLoader 将 Dataset 包装起来，以实现批处理、打乱等功能。

BATCH_SIZE_PT = 64train_loader_pt = DataLoader(dataset=train_dataset_pt,batch_size=BATCH_SIZE_PT,shuffle=True,              # 打乱训练数据num_workers=0              # Windows 下建议为0或在if __name__ == '__main__'下调整
)test_loader_pt = DataLoader(dataset=test_dataset_pt,batch_size=BATCH_SIZE_PT,shuffle=False,             # 测试数据通常不打乱num_workers=0
)print(f"PyTorch 训练 DataLoader 创建完毕，每个批次大小: {train_loader_pt.batch_size}")

5.2.5 迭代数据并可视化一个批次

我们可以从 DataLoader 中取出一个批次的数据来看看它们的形状和内容。

# 获取一个批次的训练数据
try:data_iter_pt = iter(train_loader_pt)images_pt, labels_pt = next(data_iter_pt)print(f"\nPyTorch - 一个批次的图像张量形状: {images_pt.shape}") # 应为 (BATCH_SIZE_PT, 1, 28, 28)print(f"PyTorch - 一个批次的标签张量形状: {labels_pt.shape}")   # 应为 (BATCH_SIZE_PT)# 可视化批次中的几张图片def imshow_pytorch(tensor_img, title=None):# 反归一化 (可选，但为了正确显示原始感觉的图像)# mean = torch.tensor([0.1307])# std = torch.tensor([0.3081])# tensor_img = tensor_img * std[:, None, None] + mean[:, None, None] # 反归一化# tensor_img = torch.clamp(tensor_img, 0, 1) # 确保在[0,1]范围npimg = tensor_img.numpy()plt.imshow(np.transpose(npimg, (1, 2, 0)).squeeze(), cmap='gray') # C x H x W -> H x W x C, then squeeze if C=1if title is not None:plt.title(title)# # 创建一个图像网格进行显示# plt.figure(figsize=(10, 4))# for i in range(min(BATCH_SIZE_PT, 10)): # 最多显示10张#     plt.subplot(2, 5, i+1)#     # 注意：images_pt[i] 已经是经过Normalize的，直接显示可能不是原始灰度感觉#     # 如果想看更原始的，需要从没有Normalize的Dataset中取，或者反Normalize#     # 这里我们直接显示Normalize后的第一个通道#     imshow_pytorch(images_pt[i], title=f"Label: {labels_pt[i].item()}")#     plt.axis('off')# plt.suptitle("PyTorch MNIST Batch Visualization (Normalized)")# # plt.show() # 在脚本中运行时取消注释except Exception as e:print(f"PyTorch 数据迭代或可视化失败: {e}")

下面是一个简单的 Mermaid 流程图，展示了 PyTorch 数据加载的基本流程：

graph TDA[原始MNIST数据文件] -->|torchvision.datasets.MNIST| B(PyTorch Dataset 对象);B -->|transforms.Compose([...])| C{样本预处理\n(ToTensor, Normalize)};C -->|DataLoader| D(PyTorch DataLoader 对象);D -->|shuffle, batch_size, num_workers| E{按批次、打乱、并行加载};E --> F[模型训练循环];

5.3 使用 TensorFlow (Keras) 实现

我们将使用 tf.keras.datasets.mnist 和 tf.data API。

5.3.1 导入库

import tensorflow as tf
import matplotlib.pyplot as plt
import numpy as np # TensorFlow 有时也需要 numpy 辅助

5.3.2 加载数据并预处理

tf.keras.datasets.mnist.load_data() 直接返回 NumPy 数组格式的训练和测试数据。
预处理步骤：

将像素值从整数 [0, 255] 转换为浮点数 [0, 1]。
为灰度图像添加通道维度 (从 (28, 28) 到 (28, 28, 1))，因为卷积层通常期望这个格式。

# 加载数据
(x_train_tf, y_train_tf), (x_test_tf, y_test_tf) = tf.keras.datasets.mnist.load_data()# 预处理函数
def preprocess_mnist_tf(images, labels):images = tf.cast(images, tf.float32) / 255.0 # 转换为float32并归一化到[0,1]images = tf.expand_dims(images, axis=-1)     # 添加通道维度return images, labelsprint(f"TensorFlow 原始训练集图像形状: {x_train_tf.shape}")
print(f"TensorFlow 原始训练集标签形状: {y_train_tf.shape}")

5.3.3 使用 `tf.data` 构建数据管道

使用 tf.data.Dataset.from_tensor_slices 创建 Dataset 对象，然后应用 map, shuffle, batch, 和 prefetch。

BATCH_SIZE_TF = 64
SHUFFLE_BUFFER_SIZE_TF = len(x_train_tf) # 使用整个训练集大小作为shuffle buffer# 创建训练数据管道
train_dataset_tf = tf.data.Dataset.from_tensor_slices((x_train_tf, y_train_tf))
train_dataset_tf = (train_dataset_tf.map(preprocess_mnist_tf, num_parallel_calls=tf.data.AUTOTUNE) # 应用预处理.shuffle(SHUFFLE_BUFFER_SIZE_TF)                               # 打乱数据.batch(BATCH_SIZE_TF)                                          # 组合成批次.prefetch(tf.data.AUTOTUNE)                                    # 性能优化：预取数据
)# 创建测试数据管道 (测试数据通常不需要shuffle)
test_dataset_tf = tf.data.Dataset.from_tensor_slices((x_test_tf, y_test_tf))
test_dataset_tf = (test_dataset_tf.map(preprocess_mnist_tf, num_parallel_calls=tf.data.AUTOTUNE).batch(BATCH_SIZE_TF).prefetch(tf.data.AUTOTUNE)
)print(f"\nTensorFlow 训练数据管道创建完毕，每个批次大小: {BATCH_SIZE_TF}") # batch_size 不是直接属性

5.3.4 迭代数据并可视化一个批次

从 tf.data.Dataset 对象中获取一个批次的数据。

# 获取一个批次的训练数据
try:for images_tf_batch, labels_tf_batch in train_dataset_tf.take(1): # take(1) 获取一个批次print(f"TensorFlow - 一个批次的图像张量形状: {images_tf_batch.shape}") # 应为 (BATCH_SIZE_TF, 28, 28, 1)print(f"TensorFlow - 一个批次的标签张量形状: {labels_tf_batch.shape}")   # 应为 (BATCH_SIZE_TF,)# # 可视化批次中的几张图片# plt.figure(figsize=(10, 4))# for i in range(min(BATCH_SIZE_TF, 10)): # 最多显示10张#     plt.subplot(2, 5, i+1)#     # images_tf_batch[i] 已经是 [0,1] 范围的浮点数#     plt.imshow(images_tf_batch[i].numpy().squeeze(), cmap='gray') # squeeze() 去掉最后的通道维度#     plt.title(f"Label: {labels_tf_batch[i].numpy()}")#     plt.axis('off')# plt.suptitle("TensorFlow MNIST Batch Visualization (Normalized)")# # plt.show() # 在脚本中运行时取消注释break # 确保只迭代一次获取一个批次
except Exception as e:print(f"TensorFlow 数据迭代或可视化失败: {e}")

下面是一个简单的 Mermaid 流程图，展示了 TensorFlow (tf.data) 数据加载的基本流程：

graph TDA[原始MNIST NumPy数组 (x_train, y_train)] -->|tf.data.Dataset.from_tensor_slices| B(tf.data.Dataset 对象);B -->|map(preprocess_fn, AUTOTUNE)| C{样本预处理\n(cast, normalize, expand_dims)};C -->|shuffle(BUFFER_SIZE)| D{数据打乱};D -->|batch(BATCH_SIZE)| E{按批次组合};E -->|prefetch(AUTOTUNE)| F{并行预取数据};F --> G[模型训练循环 (model.fit)];

通过这个实战案例，我们可以看到 PyTorch 和 TensorFlow 在数据加载和处理方面虽然 API 设计有所不同，但核心目标和功能是相似的：都是为了高效、灵活地为模型训练提供数据。掌握这些基础操作对于后续更复杂的项目至关重要。

六、常见问题与排查建议

在使用数据加载器和构建数据处理管道时，开发者可能会遇到一些常见的问题。了解这些问题及其排查方法有助于提高开发效率。

6.1 数据加载速度慢

这是最常见的问题之一，尤其是在处理大规模数据集或复杂预处理时。

（1）原因分析

num_workers (PyTorch) / 并行调用 (num_parallel_calls in map for TF) 设置不当：
- PyTorch DataLoader 的 num_workers 如果为0，则数据加载在主进程中进行，无法利用多核CPU。
- TensorFlow tf.data.Dataset.map 的 num_parallel_calls 如果未设置或设置过小，预处理并行度不够。
磁盘I/O瓶颈：大量小文件的读取速度远慢于少量大文件。
预处理操作耗时：某些转换（如复杂的图像增强、解码）本身计算量大。
__getitem__ (PyTorch) / map 函数 (TF) 实现低效：例如，在 __getitem__ 中执行了不必要的重复计算或低效的文件操作。
内存交换 (Swapping)：如果 batch_size 过大或预加载数据过多，导致物理内存不足，系统可能进行频繁的内存交换，严重拖慢速度。

（2）排查与解决建议

调整 num_workers (PyTorch) / num_parallel_calls (TF)：
- PyTorch: 逐渐增加 num_workers 的值（通常建议从CPU核心数的一半开始尝试，但不宜过大，否则进程间通信开销可能抵消收益）。注意：在Windows上，num_workers > 0 时，需要将使用 DataLoader 的代码（尤其是训练循环）放在 if __name__ == '__main__': 块内，以避免多进程相关错误。
- TensorFlow: 在 map 函数中使用 num_parallel_calls=tf.data.AUTOTUNE，让 TensorFlow 动态调整最佳并行数。
使用 prefetch (TF) / pin_memory=True (PyTorch, 配合GPU)：
- TensorFlow: 在数据管道末尾添加 .prefetch(tf.data.AUTOTUNE)。
- PyTorch: 当使用GPU时，设置 DataLoader(..., pin_memory=True) 可以加速数据从CPU到GPU的传输。
优化数据存储格式：
- 对于大量小图像文件，可以考虑将其预先打包成更大的二进制文件格式，如 TFRecords (TensorFlow), HDF5, LMDB, 或 WebDataset (PyTorch 生态)。这样可以显著提高磁盘读取效率。
优化预处理逻辑：
- 检查 __getitem__ 或 map 中的代码，避免不必要的计算。
- 将一些可以在整个数据集上一次性完成的预处理（如标签编码）提前完成，而不是在每次获取样本时都做。
- 对于图像解码，确保使用高效的库。
使用性能分析工具：
- PyTorch Profiler 或 TensorFlow Profiler 可以帮助定位数据加载过程中的瓶颈。
检查数据增强库的效率：某些第三方数据增强库可能比框架内置的更耗时。
使用 SSD：如果条件允许，将数据存储在固态硬盘 (SSD) 上通常比机械硬盘 (HDD) 快得多。

6.2 内存不足 (Out of Memory, OOM)

当程序尝试分配的内存超过可用物理内存或GPU显存时，会发生OOM错误。

（1）原因分析

batch_size 过大：每个批次包含的样本太多，导致一个批次的张量就非常大。
num_workers 过多 (PyTorch)：每个 worker 都会消耗一定的内存来加载和处理数据，过多的 worker 可能导致主内存OOM。
Dataset 实现问题：如果在 Dataset 的 __init__ 中尝试一次性加载所有数据到内存（对于小数据集可以，但对大数据集不行），或者 __getitem__ 返回了非常大的对象。
数据本身巨大：例如高分辨率图像、长序列。
prefetch 或 cache (TF) 使用不当：缓存了过多的数据到内存。

（2）排查与解决建议

减小 batch_size：这是最直接的方法。
减少 num_workers (PyTorch)：如果主内存OOM。
优化 Dataset 实现：确保 __init__ 只加载元数据（如文件路径列表），实际数据在 __getitem__ 中按需加载。
数据预处理中进行降维/压缩：例如，降低图像分辨率，对数据进行有损或无损压缩（但需在 __getitem__ 中解压）。
检查 tf.data.Dataset.cache() (TF)：如果使用了 .cache()，确保缓存的数据量不会超出内存限制。可以考虑 .cache(filename) 将缓存写入磁盘文件，但这会牺牲一些速度。
逐步加载和释放：确保在处理完一批数据后，相关的内存能够被Python的垃圾回收机制或框架的内存管理器回收。
使用梯度累积：如果想用大批量的效果但显存不足，可以通过多次小批量的前向和反向传播累积梯度，然后进行一次参数更新，从而模拟大批量训练。

6.3 数据格式错误/不一致

模型期望特定形状、类型的数据，但数据加载器提供的与之不符。

（1）原因分析

__getitem__ / map 函数返回的数据类型或形状错误：例如，忘记将图像转换为张量，或者通道顺序不正确 (HWC vs CHW)，或者标签未转换为正确的数字格式。
数据集中存在损坏或格式异常的文件：例如，一个图像文件损坏无法打开，或者CSV文件中某行格式错乱。
collate_fn (PyTorch) 问题：默认的 collate_fn 可能无法正确处理包含不同形状张量（如变长序列）的批次。

（2）排查与解决建议

仔细检查 __getitem__ / map 的输出：在送入模型前，打印一两个样本或一个批次的形状和数据类型，与模型期望的输入进行核对。
添加数据校验逻辑：在 __init__ 或 __getitem__ 的早期阶段对数据文件或内容进行校验，对于损坏或格式异常的数据进行跳过、替换或记录错误。
使用 try-except 块：在文件读取和预处理代码块（尤其是在 __getitem__ 中）使用 try-except 来捕获潜在错误，并给出明确的错误信息（如哪个文件出错了）。
自定义 collate_fn (PyTorch)：对于变长序列，需要自定义 collate_fn 来实现填充 (padding) 操作，使同一批次内的序列长度一致。TensorFlow 的 tf.data.Dataset.padded_batch 方法可以处理这种情况。
确保标签编码正确：分类任务的标签通常需要是整数索引或独热编码。

6.4 `shuffle=True` 的重要性及误用

打乱数据对于训练的随机性至关重要，但也可能被误用。

（1）重要性

避免过拟合：如果数据总按固定顺序排列，模型可能会学到顺序相关的虚假特征。
改善收敛性：随机性有助于优化算法（如SGD）跳出局部最优点。

（2）常见误用

在验证集/测试集上打乱：验证集和测试集的目的是评估模型在固定数据分布上的性能，打乱它们没有意义，还可能导致评估结果不稳定（虽然通常影响不大，但不是标准做法）。标准做法：验证集和测试集不打乱 (shuffle=False)。
shuffle 的 buffer_size (TF) 设置过小：在 TensorFlow 的 tf.data.Dataset.shuffle(buffer_size) 中，如果 buffer_size 远小于数据集总大小，打乱的随机性会大大降低。理想情况是 buffer_size 等于或大于数据集总样本数。

（3）建议

训练集：始终设置 shuffle=True (PyTorch) 或使用 .shuffle() (TF) 并配合足够大的 buffer_size。
验证/测试集：始终设置 shuffle=False (PyTorch) 或不使用 .shuffle() (TF)。
可复现性：如果需要严格复现打乱顺序（例如调试时），可以为 DataLoader (PyTorch, 通过 worker_init_fn 和 torch.manual_seed) 或 tf.data.Dataset.shuffle (TF, 通过 seed 参数) 设置固定的随机种子。

通过注意这些常见问题并采取相应的解决措施，可以确保数据加载和处理流程的健壮性和高效性，为深度学习模型的成功训练奠定坚实基础。

七、总结

本文深入探讨了数据加载与处理这一核心环节。高效且正确地将数据输入模型是深度学习项目成功的关键前提。我们学习了以下核心内容：

数据加载与处理的重要性：
- 深度学习模型对大量、多样化数据的依赖性。
- 数据加载是训练效率的关键瓶颈，直接影响GPU利用率。
- 数据预处理（如归一化、格式转换）对模型训练的稳定性和性能至关重要。
框架内置数据集的使用：
- PyTorch (torchvision.datasets) 和 TensorFlow (tf.keras.datasets) 都提供了方便的标准数据集接口（如MNIST, CIFAR）。
- 这使得快速原型验证和算法测试变得简单，但其局限性在于无法覆盖所有真实世界的复杂数据场景。
自定义数据集的构建：
- PyTorch: 通过继承 torch.utils.data.Dataset 并实现 __init__, __len__, __getitem__ 方法，可以灵活加载任意来源和格式的数据。
- TensorFlow: 利用 tf.data API，通过 tf.data.Dataset.from_tensor_slices, from_generator, 或 list_files 结合 map 等方式构建数据读取和预处理逻辑。对于常见的图像文件夹结构，tf.keras.utils.image_dataset_from_directory 是一个便捷高效的选择。
数据加载器 (DataLoader / tf.data 管道)：
- PyTorch DataLoader: 提供了批处理 (batch_size)、数据打乱 (shuffle)、并行加载 (num_workers)、内存固定 (pin_memory) 等核心功能。
- TensorFlow tf.data.Dataset: 通过链式调用 .batch(), .shuffle(), .map(), .prefetch() 等方法，构建高效的数据输入管道，tf.data.AUTOTUNE 可以自动优化并行数和预取缓冲区大小。
实战演练：
- 通过加载和处理 MNIST 数据集的具体代码示例，我们直观地对比了 PyTorch 和 TensorFlow 在数据处理流程上的异同和核心操作。
常见问题与排查：
- 讨论了数据加载速度慢、内存不足、数据格式错误以及 shuffle 使用不当等常见问题，并给出了相应的分析和解决建议。

掌握了数据加载与处理的技术，我们就为神经网络准备好了充足且高质量的“燃料”。这将使我们能够更专注于模型架构的设计、训练过程的优化以及最终性能的提升。

在下一篇文章 [深度学习-Day 23] [框架]入门（四）：模型训练与评估 中，我们将把前面学到的模型构建和数据加载知识结合起来，真正开始训练我们的第一个深度学习模型，并学习如何评估其性能。敬请期待！

文章转载自：

http://ps4vcQlN.nhdkk.cn
http://xvagk6AM.nhdkk.cn
http://wD5s690i.nhdkk.cn
http://h5ly4Tet.nhdkk.cn
http://gAO0AFux.nhdkk.cn
http://n4uY3oCc.nhdkk.cn
http://ZoXVfO8b.nhdkk.cn
http://23GdifG2.nhdkk.cn
http://r91ntdDY.nhdkk.cn
http://vZVo9rD3.nhdkk.cn
http://hDVtWx1Y.nhdkk.cn
http://C5CpKlzA.nhdkk.cn
http://6iirnA97.nhdkk.cn
http://YXrCHre6.nhdkk.cn
http://RxTubaVC.nhdkk.cn
http://WgzsnXmO.nhdkk.cn
http://oU9Ve0G8.nhdkk.cn
http://dqBMxj13.nhdkk.cn
http://0Micifmg.nhdkk.cn
http://bwzfjCHF.nhdkk.cn
http://ywMXsrH8.nhdkk.cn
http://Z5XKMVuy.nhdkk.cn
http://1pKdYQDt.nhdkk.cn
http://clAO20xd.nhdkk.cn
http://HmENsJLI.nhdkk.cn
http://RaAsLJRA.nhdkk.cn
http://Mj7nH80S.nhdkk.cn
http://zb6So6q8.nhdkk.cn
http://meJUs4uT.nhdkk.cn
http://HEKg1tWQ.nhdkk.cn

查看全文

http://www.dtcms.com/a/229635.html

多模态知识图谱可视化构建（neo4j+python+flask+vue环境搭建与示例）

飞书常用功能（留档）

Linux入门(十四)rpmyum

什么是 Docker Compose 的网络（network），为什么你需要它，它是怎么工作的

Windows Server部署Vue3+Spring Boot项目

6个月Python学习计划 Day 13 - 文件操作基础

移动网页调试的多元路径：WebDebugX 与其他调试工具的组合使用策略

【搭建 Transformer】

亚马逊Woot提报常见问题第一弹

十五、【测试执行篇】异步与并发：使用 Celery 实现测试任务的后台执行与结果回调

Go语言学习--＞编译器安装

leetcode47.全排列II：HashSet层去重与used数组枝去重的双重保障

种草平台：重新定义购物的乐趣革命

什么是“音节”？——语言构成的节拍单位

【25.06】FISCOBCOS使用caliper自定义测试通过webase 单机四节点 helloworld等进行测试

FreeRTOS的简单介绍

现场总线结构在楼宇自控系统中的技术要求与实施要点分析

Kettle连接MySQL 8.0解决方案

Vue内置组件Teleport和Suspense

【开发心得】筑梦上海：项目风云录（18）

IT运维工具推荐

【OCCT+ImGUI系列】012-Geom2d_AxisPlacement

大模型：从基座构建到应用落地--预训练与后训练及个人解析-2025.6

CentOS Stream 8 Unit network.service not found

java类的生命周期

【请关注】VC内存泄露的排除及处理

基于wifi的室内定位算法设计与实现

双周报Vol.73：移除使用方法实现 trait 、新增了 “错误多态” 功能、.语法支持使用 _ 的匿名函数...

系统思考：短期利益与长期系统影响

vue实现点击单选或者多选模式

Langchain系列文章目录

Python系列文章目录

PyTorch系列文章目录

机器学习系列文章目录

深度学习系列文章目录

Java系列文章目录

JavaScript系列文章目录

深度学习系列文章目录

文章目录

前言

一、为什么需要高效的数据加载与处理?

1.1 深度学习与“数据饥饿”

（1）数据规模的重要性

（2）数据多样性的挑战

1.2 训练效率的瓶颈：CPU 与 GPU 的“鸿沟”

（1）数据加载的耗时操作

（2）GPU 等待的代价

1.3 数据预处理：模型的“消化系统”

（1）标准化与归一化

（2）格式转换与编码

（3）数据清洗与增强

二、框架内置数据集：快速上手

2.1 什么是内置数据集?

（1）优点

（2）常见的内置数据集

2.2 如何使用框架加载内置数据集

2.2.1 以 PyTorch 为例 (torchvision.datasets)

2.2.2 以 TensorFlow (Keras) 为例 (tf.keras.datasets)

2.3 内置数据集的优势与局限

（1）优势

（2）局限性

三、自定义数据集：掌控你的数据

3.1 为什么需要自定义数据集?

3.2 PyTorch 中的 Dataset 类

3.2.1 核心方法解析

（1）__init__(self, data_root, transform=None, ...)

（2）__len__(self)

（3）__getitem__(self, idx)

3.2.2 示例：构建一个简单的图像文件夹数据集

3.3 TensorFlow 中的 tf.data API

3.3.1 tf.data.Dataset.from_tensor_slices

3.3.2 使用 list_files 和 map 处理图像文件夹

四、数据加载器 DataLoader：高效批处理与数据打乱

4.1 为什么需要 DataLoader?

（1）批处理 (Batching)

（2）数据打乱 (Shuffling)

（3）并行加载 (Parallel Loading)

（4）其他功能

4.2 PyTorch 中的 DataLoader

4.2.1 核心参数

4.2.2 示例：使用 DataLoader 加载自定义数据集

4.3 TensorFlow 中的 tf.data 的等效功能

4.3.1 .batch() 方法

4.3.2 .shuffle() 方法

4.3.3 .prefetch() 方法

4.3.4 链式操作示例

4.4 DataLoader / tf.data 管道的优势

五、实战：加载并处理 MNIST 数据集

5.1 场景设定

5.2 使用 PyTorch 实现

5.2.1 导入库

5.2.2 定义数据转换

5.2.3 加载训练集和测试集 (Dataset)

5.2.4 创建数据加载器 (DataLoader)

5.2.5 迭代数据并可视化一个批次

5.3 使用 TensorFlow (Keras) 实现

5.3.1 导入库

5.3.2 加载数据并预处理

5.3.3 使用 tf.data 构建数据管道

5.3.4 迭代数据并可视化一个批次

六、常见问题与排查建议

6.1 数据加载速度慢

（1）原因分析

（2）排查与解决建议

6.2 内存不足 (Out of Memory, OOM)

（1）原因分析

（2）排查与解决建议

6.3 数据格式错误/不一致

（1）原因分析

（2）排查与解决建议

2.2.1 以 PyTorch 为例 (`torchvision.datasets`)

2.2.2 以 TensorFlow (Keras) 为例 (`tf.keras.datasets`)

3.2 PyTorch 中的 `Dataset` 类

（1）`init(self, data_root, transform=None, ...)`

（2）`len(self)`

（3）`getitem(self, idx)`

3.3 TensorFlow 中的 `tf.data` API

3.3.1 `tf.data.Dataset.from_tensor_slices`

3.3.2 使用 `list_files` 和 `map` 处理图像文件夹

四、数据加载器 `DataLoader`：高效批处理与数据打乱

4.1 为什么需要 `DataLoader`?

4.2 PyTorch 中的 `DataLoader`

4.2.2 示例：使用 `DataLoader` 加载自定义数据集

4.3 TensorFlow 中的 `tf.data` 的等效功能

4.3.1 `.batch()` 方法

4.3.2 `.shuffle()` 方法

4.3.3 `.prefetch()` 方法

4.4 `DataLoader` / `tf.data` 管道的优势

5.2.3 加载训练集和测试集 (`Dataset`)

5.2.4 创建数据加载器 (`DataLoader`)

5.3.3 使用 `tf.data` 构建数据管道

6.4 `shuffle=True` 的重要性及误用