当前位置：首页 > news >正文

PyTorch池化层详解：原理、实现与示例

news 2025/9/24 10:21:37

池化层（Pooling Layer）是卷积神经网络中的重要组成部分，主要用于降低特征图的空间维度、减少计算量并增强模型的平移不变性。本文将通过PyTorch代码演示池化层的实现原理，并详细讲解最大池化、平均池化、填充（Padding）和步幅（Stride）的应用。

一、池化层的基本实现

1.1 自定义池化函数

以下代码实现了一个二维池化层的正向传播，支持最大池化和平均池化两种模式：

import torch
from torch import nn
from d2l import torch as d2l

def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = torch.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i, j] = X[i:i+p_h, j:j+p_w].max()
            elif mode == 'avg':
                Y[i, j] = X[i:i+p_h, j:j+p_w].mean()
    return Y

1.2 验证最大池化

输入一个3x3矩阵，使用2x2池化窗口进行最大池化：

X = torch.tensor([[0.0, 1.0, 2.0], 
                 [3.0, 4.0, 5.0], 
                 [6.0, 7.0, 8.0]])
pool2d(X, (2, 2))

输出结果：

tensor([[4., 5.],
        [7., 8.]])

1.3 验证平均池化

同一输入使用平均池化：

pool2d(X, (2, 2), 'avg')

输出结果：

tensor([[2., 3.],
        [5., 6.]])

二、填充与步幅的设置

2.1 深度学习框架内置池化层

使用PyTorch的nn.MaxPool2d模块实现非重叠池化：

X = torch.arange(16, dtype=torch.float32).reshape((1, 1, 4, 4))
pool2d = nn.MaxPool2d(3)
pool2d(X)

输出结果（3x3池化窗口，无填充和步幅）：

tensor([[[[10.]]]])

2.2 手动设置填充和步幅

通过padding和stride参数调整输出形状：

pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

输出结果：

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

2.3 矩形池化窗口与不对称参数

使用2x3池化窗口，并分别设置填充和步幅：

pool2d = nn.MaxPool2d((2, 3), padding=(1, 1), stride=(2, 3))
pool2d(X)

输出结果：

tensor([[[[ 1.,  3.],
          [ 9., 11.],
          [13., 15.]]]])

三、多通道输入处理

池化层在每个输入通道上独立运算。以下示例将两个通道拼接后输入池化层：

X = torch.cat((X, X + 1), 1)  # 在通道维度拼接
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

输出结果（两个通道分别池化）：

tensor([[[[ 5.,  7.],
          [13., 15.]],
         [[ 6.,  8.],
          [14., 16.]]]])

四、总结

池化层的作用：降低特征图维度，保留主要特征，增强模型鲁棒性。
参数设置：
- pool_size：池化窗口大小
- padding：填充像素数
- stride：滑动步幅
多通道处理：池化层在每个通道上独立计算，输出通道数与输入一致。

通过灵活调整参数，池化层可以适应不同的输入尺寸和任务需求。读者可尝试修改代码中的参数，观察输出结果的变化以加深理解。

完整代码及输出结果已全部验证，可直接运行。建议结合实际问题调整参数以优化模型性能。

查看全文

http://www.dtcms.com/a/114695.html

ctf-show-micsx

【Kubernetes】StorageClass 的作用是什么？如何实现动态存储供应？

TLS 1.2 握手过程，每个阶段如何保证通信安全？

古诗词数据集(74602条简体版、繁体版) | 智能体知识库 | AI大模型训练

iOS APP集成Python解释器

OpenCV 在树莓派上进行实时人脸检测

C++ 内存访问模式优化：从架构到实践

Redis之布隆过滤器

Unity3D仿星露谷物语开发34之单击Drop项目

算法思想之滑动窗口(一)

人脸专注度检测系统（课堂专注度检测、人脸检测、注意力检测系统）

【C++】第九节—string类(中)——详解+代码示例

JVM深入原理(六)(一):JVM类加载器

基于51单片机和8X8点阵屏、独立按键的双人弹球小游戏

智能气候：AI Agent结合机器学习与深度学习在全球气候变化驱动因素预测中的应用

区块链日记6 - Solana入门 - PDA增删改查数据1

【数据结构】并查集应用

面试可能会遇到的问题回答（编程语言部分）

清晰易懂的 HeidiSQL 安装教程

第四章：透明多级分流系统_《凤凰架构：构建可靠的大型分布式系统》

JavaScript基础--12-基本包装类型

C++堆，栈，静态成员及使用准则

lib-zo,C语言另一个协程库,dns协程化, gethostbyname

解决 PDF 难题：批量处理、文档清理与自由拆分合并

力扣经典算法篇-9-跳跃游戏（贪心算法，反向递推）

Debezium嵌入式连接postgresql封装服务

前端常用环境安装

Python3 MySQL (PyMySQL) 教程

DHCPv6 笔记250405

Word在生成PDF后，PDF左侧导航书签目录错误显示的解决方法

一、池化层的基本实现

1.1 自定义池化函数

1.2 验证最大池化

1.3 验证平均池化

二、填充与步幅的设置

2.1 深度学习框架内置池化层

2.2 手动设置填充和步幅

2.3 矩形池化窗口与不对称参数

三、多通道输入处理

四、总结

相关文章：