当前位置: 首页 > news >正文

Pytorch中torch.nn的学习

1、torch.nn介绍

  torch.nn 是 PyTorch 中用于构建神经网络的核心模块,提供了构建、训练和部署神经网络所需的各种类和函数。

核心组件

(1) 层(Layers)
torch.nn 包含常见的神经网络层,例如:

  • 线性层(全连接层): nn.Linear(in_features, out_features)
  • 卷积层: nn.Conv1d/2d/3d(in_channels, out_channels, kernel_size)
  • 循环神经网络层: nn.RNN, nn.LSTM, nn.GRU
  • 归一化层: nn.BatchNorm1d/2d/3d, nn.LayerNorm
  • 池化层: nn.MaxPool2d, nn.AvgPool2d
  • 激活函数: nn.ReLU, nn.Sigmoid, nn.Softmax 等

(2) 损失函数(Loss Functions)

  • 分类任务: nn.CrossEntropyLoss, nn.BCELoss
  • 回归任务: nn.MSELoss, nn.L1Loss
  • 其他: nn.KLDivLoss, nn.HuberLoss 等

(3) 容器(Containers)

  • nn.Module: 所有神经网络模块的基类,自定义网络需继承此类。
  • nn.Sequential: 按顺序组合多个层(类似Keras的Sequential模型)。
  • nn.ModuleList: 动态存储子模块(如循环结构的层)。

关键特性

(1) 自动求导(Autograd)
torch.nn 与 PyTorch 的自动微分系统无缝集成。通过前向传播计算输出,反向传播自动计算梯度(通过loss.backward())。

(2) 参数管理
通过parameters()方法获取模型的所有可学习参数。
支持GPU加速(.to(device))和分布式训练。

(3) 预训练模型
通过torchvision.models或transformers库可直接加载预训练模型(如ResNet、BERT),这些模型均基于nn.Module实现。

示例代码
(1) 定义一个简单神经网络

import torch
import torch.nn as nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(784, 128)  # 输入784维,输出128维
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(128, 10)    # 输出10维(如分类类别数)

    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

model = Net()
print(model)

(2) 训练流程示例

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 假设data和target是训练数据
output = model(data)
loss = criterion(output, target)
loss.backward()          # 反向传播
optimizer.step()         # 更新参数
optimizer.zero_grad()    # 梯度清零

扩展工具

  • nn.functional: 包含无状态的函数式接口(如F.relu),适合动态计算。
  • nn.init: 提供参数初始化方法(如nn.init.xavier_uniform_)。
  • torch.nn.utils: 包含剪枝(prune)、权重裁剪(clip_grad_norm_)等工具。

适用场景

  • 计算机视觉(CNN)、自然语言处理(RNN/Transformer)、强化学习等。
  • 支持动态计算图(适合可变长度输入或复杂控制流)。

torch.nn官方文档

二、torch.nn使用实例

2.1 简单示例

import torch
from torch import nn

#继承nn.Module类,定义模型的结构
class My_module(nn.Module):
    def __init__(self):
        super().__init__()
    #前向传播,计算输出
    def forward(self, input):
        output = input * 2
        return output

#创建类实例
my_module = My_module()
#设置输入
x = torch.tensor([1.0, 2.1, 3.6, 2.5, 5.4])
#前向传播计算输出
output = my_module(x)
#打印输出
print(output)

创建继承自nn.module类的My_module类,并重新定义方法;接着创建类实例对象my_module;设置输入数据并通过前向传播计算模型输出;最后打印输出。
tip:重写方法时,如果记不清方法的名字,可以在Pycharm中找到”代码“–>”重写方法“:
在这里插入图片描述
在这里插入图片描述

运行结果:

tensor([ 2.0000,  4.2000,  7.2000,  5.0000, 10.8000])

2.2 断点调试

如果要清楚程序每一步具体是如何运行的,可以设置断点,使用”调试“:

  1. 在my_module = My_module()处设置断点,并进入调试状态:
    在这里插入图片描述
    在这里插入图片描述
    右侧是变量区和控制台。

  2. 单击调试栏中的"单步执行我的代码“
    在这里插入图片描述
    可以清楚地看到程序在我们代码中是如何运行的:

要创建实例对象,得先初始化类My_module:
在这里插入图片描述
执行完创建实例对象代码之后,可以在变量区看到一个实例my_moudle已经创建好了;并接着执行下一步:输入变量x
在这里插入图片描述
执行完之后可以看到变量区已经出现了输入变量x;接着执行下一步:计算模型输出
在这里插入图片描述
可以看到,为了计算模型输出,转去调用模型方法forward(),并将输入变量x传递给形参input;接着要执行方法中的计算输出,即将输入数据乘以2:
在这里插入图片描述
对imput乘以2之后,得到output,可以在变量区看到output了,此时程序还在方法forward中,要执行return output:
在这里插入图片描述
执行完return output后,程序跳出方法forward,且可以在变量区看到output和x;接下来要执行打印语句:
在这里插入图片描述
执行完打印结果,程序运行结束:
在这里插入图片描述

http://www.dtcms.com/a/99948.html

相关文章:

  • ‌19.思科路由器:OSPF协议引入直连路由的实验研究
  • keil自学笔记3(按键)
  • sqli-labs靶场 less 11
  • Qt warning LNK4042: 对象被多次指定;已忽略多余的指定
  • 机器学习的一百个概念(3)上采样
  • 创作领域“<em >一</em><em>分</em><em>快</em><em>3</em><em>官</em><em>网
  • Java 8 时区与历法处理指南:跨越全球的时间管理
  • Day50 单词规律
  • 小智机器人相关函数解析,BackgroundTask::Schedule (***)将一个回调函数添加到后台任务队列中等待执行
  • 多人协同进行qt应用程序开发应该注意什么?
  • ai画图flux redux图像文本双重引导生成。
  • Axios 相关的面试题
  • 注入工具SQLMAPTamper 编写指纹修改高权限操作目录架构
  • Nginx实现动静分离配置
  • JavaScript 网页开发设计案例:构建动态看板任务管理器 (Kanban Board)
  • 飞致云荣获“Alibaba Cloud Linux最佳AI镜像服务商”称号
  • GPT-4o 原生图像生成技术解析:从模型架构到吉卜力梦境的实现
  • 代码规范之空行思路和原则
  • python虚拟环境使用
  • 1500 字节 MTU | 溯源 / 技术权衡 / 应用影响
  • 代码随想录刷题day56|(回溯算法篇)46.全排列(非去重)、47.全排列 II(去重)
  • UE4学习笔记 FPS游戏制作32 主菜单,暂停游戏,显示鼠标指针
  • 学习threejs,使用Sprite精灵、SpriteMaterial精灵材质
  • 前端全局编程和模块化编程
  • [笔记.AI]大模型训练 与 向量值 的关系
  • vue3 + ant-design-vue4实现Select既可以当输入框也可以实现下拉选择
  • sqli-labs学习记录8
  • Spring 项目中跨数据源(多数据源)调用时 @DS 注解失效或不生效
  • Nginx RTMP 接收模块分析 (ngx_rtmp_receive.c)
  • 【数学建模】(智能优化算法)元胞自动机在数学建模中的应用