当前位置: 首页 > news >正文

从代码学习深度学习 - 转置卷积 PyTorch版

文章目录

  • 前言
  • 基本操作
  • 填充、步幅和多通道
    • 填充 (Padding)
    • 步幅 (Stride)
    • 多通道
  • 总结


前言

在卷积神经网络(CNN)的大家族中,我们熟悉的卷积层和汇聚(池化)层通常会降低输入特征图的空间维度(高度和宽度)。然而,在许多应用场景中,例如图像的语义分割(需要对每个像素进行分类)或生成对抗网络(GAN)中的图像生成,我们反而需要增加特征图的空间维度,即进行上采样。

转置卷积(Transposed Convolution),有时也被不那么准确地称为反卷积(Deconvolution),正是实现这一目标的关键操作。它能够将经过下采样的低分辨率特征图恢复到较高的分辨率,或者在生成模型中从低维噪声逐步生成高分辨率图像。

本文将通过具体的 PyTorch 代码示例,带您一步步理解转置卷积的基本原理、填充(Padding)、步幅(Stride)以及在多通道情况下的应用。

完整代码:下载连接

基本操作

让我们从最基础的转置卷积开始。假设我们有一个 2x2 的输入张量,并使用一个 2x2 的卷积核,步幅为1,没有填充。转置卷积的操作过程可以直观地理解为:将输入张量的每个元素作为标量,与卷积核相乘,得到多个中间结果;然后,将这些中间结果按照输入元素在原张量中的位置进行“放置”和叠加,从而得到最终的输出张量。

其核心思想可以看作是常规卷积操作的一种“逆向”映射,但它并非严格意义上的数学逆运算。

下图形象地展示了这个过程:

在这里插入图片描述

图中,输入是 2x2,卷积核是 2x2。

  1. 输入张量的左上角元素(0)与整个卷积核相乘,结果放置在输出张量的左上角。
  2. 输入张量的右上角元素(1)与整个卷积核相乘,结果向右移动一格放置。
  3. 输入张量的左下角元素(2)与整个卷积核相乘,结果向下移动一格放置。
  4. 输入张量的右下角元素(3)与整个卷积核相乘,结果向右和向下各移动一格放置。
  5. 所有这些放置的张量在重叠区域进行元素相加,得到最终的 3x3 输出。

输出张量的高度 (H_out) 和宽度 (W_out) 可以通过以下公式计算(当步幅为1,无填充时):

  • H_out = H_in + H_kernel - 1
  • W_out = W_in + W_kernel - 1

下面我们用代码来实现这个基本操作:

import torch
from torch import nndef transposed_convolution(input_tensor, kernel):"""实现转置卷积(反卷积)操作参数:input_tensor: 输入张量,维度为 (input_height, input_width)kernel: 卷积核,维度为 (kernel_height, kernel_width)返回:output_tensor: 转置卷积结果,维度为 (input_height + kernel_height - 1, input_width + kernel_width - 1)"""# 获取卷积核的高度和宽度,维度分别为 scalarkernel_height, kernel_width = kernel.shape# 初始化输出张量,维度为 (input_height + kernel_height - 1, input_width + kernel_width - 1)output_tensor = torch.zeros((input_tensor.shape[0] + kernel_height - 1, input_tensor.shape[1] + kernel_width - 1))# 对输入张量中的每个元素进行处理for i in range(input_tensor.shape[0]):  # 遍历输入张量的行for j in range(input_tensor.shape[1]):  # 遍历输入张量的列# 对于输入张量中的每个元素,将其与卷积核相乘,然后加到输出张量的对应区域# input_tensor[i, j] 是标量,维度为 ()# kernel 维度为 (kernel_height, kernel_width)# 输出区域 output_tensor[i:i+kernel_height, j:j+kernel_width] 维度为 (kernel_height, kernel_width)output_tensor[i:i + kernel_height, j:j + kernel_width] += input_tensor[i, j] * kernelreturn output_tensor# 示例使用
# 创建输入张量X,维度为 (2, 2)
X = torch.tensor([[0.0, 1.0], [2.0, 3.0]])# 创建卷积核K,维度为 (2, 2)
K = torch.tensor([

相关文章:

  • 远程服务器pycharm运行tensorboard显示训练轮次图
  • Python 自动化脚本开发秘籍:从入门到实战进阶(6/10)
  • 《算法导论(第4版)》阅读笔记:p18-p31
  • ALLinSSL:一站式SSL证书管理解决方案
  • 深入理解 Linux 权限控制机制
  • [思维模式-29]:《本质思考力》-9- 两种相反的构建与解构系统的思维模式:①自顶向下的规划、分解、牵引;②自底向上的堆叠、聚合。
  • Java--图书管理系统(简易版优化)
  • 基于zernike 拟合生成包裹训练数据-可自定义拟合的项数
  • MySQL数据库容灾设计案例与SQL实现
  • stm32week15
  • Linux之进程概念
  • 命令行解释器中shell、bash和zsh的区别
  • Linux中常见开发工具简单介绍
  • 微软向现实低头:悄悄延长Windows 10的Microsoft 365支持
  • Newton GPU 机器人仿真器入门教程(零)— NVIDIA、DeepMind、Disney 联合推出
  • k8s的flannel生产实战与常见问题排查
  • 设计模式简述(十八)享元模式
  • 游戏引擎学习第274天:基于弹簧的动态动画
  • 5.1.1 WPF中Command使用介绍
  • 2025第九届御网杯网络安全大赛线上赛 区域赛WP (MISC和Crypto)(详解-思路-脚本)
  • 耗资10亿潮汕豪宅“英之园”将强拆?区政府:非法占用集体土地
  • 继71路之后,上海中心城区将迎来第二条中运量公交
  • 事关心脏健康安全,经导管植入式人工心脏瓣膜国家标准发布
  • 海北州委常委、常务副州长桑本履新青海省供销社理事会主任
  • IPO周报|本周A股暂无新股网上申购,年内最低价股周二上市
  • 三大股份制银行入局AIC,一级市场再迎“活水”