当前位置：首页 > news >正文

从代码学习深度学习 - 含并行连结的网络（GoogLeNet）PyTorch版

news 2025/10/21 21:57:29

文章目录

前言
一、GoogLeNet的理论基础
- 1.1 背景与创新点
- 1.2. Inception模块的工作原理
二、完整代码实现与解析
- 2.1. 环境准备与工具函数
- 2.2. 数据加载 - Fashion-MNIST
- 2.3. Inception模块设计
- 2.4. GoogLeNet完整模型
- 2.5. 训练函数
- 2.6. 运行训练
三、训练结果与分析
- 3.1. 性能分析
- 3.2. 可视化结果
- 3.3. 模型局限性
四、扩展与改进建议
总结

前言

深度学习近年来在计算机视觉、自然语言处理等领域取得了巨大成功，而卷积神经网络（CNN）作为其核心支柱之一，推动了许多突破性应用。GoogLeNet（Inception v1）是2014年ImageNet挑战赛（ILSVRC）的冠军模型，以其创新的Inception模块和高效设计脱颖而出。它不仅在性能上超越了当时的经典模型（如AlexNet和VGG），还在参数量和计算复杂度上实现了优化。

本文将通过PyTorch实现一个简化的GoogLeNet版本，并结合完整的代码和详细解析，帮助读者从实践中掌握深度学习的核心概念。我们将从GoogLeNet的理论基础讲起，逐步剖析代码实现，最后在Fashion-MNIST数据集上进行训练和结果分析。这不仅是一次从理论到实践的学习之旅，也是一个理解现代CNN设计思想的机会。

一、GoogLeNet的理论基础

1.1 背景与创新点

在GoogLeNet之前，CNN模型（如AlexNet、VGG）倾向于通过加深网络层数或增加卷积核大小来提升性能，但这往往导致参数量激增和计算资源浪费。GoogLeNet提出了一个全新的思路：通过多尺度特征提取和计算效率优化来提升性能。其核心创新是Inception模块，它通过并行使用不同大小的卷积核（1x1、3x3、5x5）和池化操作，在单一层内捕获多种尺度的特征。

此外，GoogLeNet引入了以下关键技术：

1x1卷积：用于降维，减少通道数，从而降低计算量。
全局平均池化：替换传统全连接层，减少参数量并增强泛化能力。
辅助分类器：在网络中间添加分支，增强梯度传播，缓解深层网络训练中的梯度消失问题。

原始GoogLeNet有22层，但参数量仅为VGG-19的1/12，展现了其高效性。在本文中，我们将实现一个简化版，如下图所示，专注于Inception模块，并省略辅助分类器，以适应Fashion-MNIST数据集的较小规模。
在这里插入图片描述

1.2. Inception模块的工作原理

Inception模块的核心思想是“多路径并行”，如下图所示。它通过以下四条路径提取特征：
在这里插入图片描述

1x1卷积：直接提取局部特征，降低计算成本。
1x1卷积 + 3x3卷积：先降维再进行中等尺度卷积。
1x1卷积 + 5x5卷积：先降维再捕获更大范围特征。
3x3最大池化 + 1x1卷积：保留空间信息并调整通道数。

这些路径的输出最后沿通道维度拼接，形成一个更丰富的特征表示。这种设计既增加了网络宽度（width），又避免了单纯加深网络带来的过拟合风险。

二、完整代码实现与解析

以下是完整的PyTorch代码实现，包括所有工具函数、数据加载、模型定义和训练逻辑。

2.1. 环境准备与工具函数

我们首先定义一些工具类，用于计时、累加指标和计算准确率。这些工具在深度学习实验中非常实用。

import time
import torch
import torch.nn as nn
import numpy as np
import torchvision
import torchvision.transforms as transforms
from torch.utils import data
import multiprocessing

class Timer:
    """记录多次运行时间"""
    def __init__(self):
        self.times = []
        self.start()

    def start(self):
        self.tik = time.time()

    def stop(self):
        self.times.append(time.time() - self.tik)
        return self.times[-1]

    def avg(self):
        return sum(self.times) / len(self.times)

    def sum(self):
        return sum(self.times)

    def cumsum(self):
        return np.array(self.times).cumsum().tolist()

class Accumulator:
    """在 n 个变量上累加"""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

def accuracy(y_hat, y):
    """计算预测正确的数量"""
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1)
    cmp = y_hat.to(y.dtype) == y
    return float(cmp.to(y.dtype).sum())

def evaluate_accuracy_gpu(net, data_iter, device=None):
    """使用GPU计算模型在数据集上的精度"""
    if isinstance(net, nn.Module):
        net.eval()
        if not device:
            device = next(iter(net.parameters())).device
    metric = Accumulator(2)
    with torch.no_grad():
        for X, y in data_iter:
            X, y = X.to(device), y.to(device)
            metric.add(accuracy(net(X), y), y.numel())