当前位置: 首页 > news >正文

2025-05-27 Python深度学习7——损失函数和反向传播

文章目录

  • 1 损失函数
    • 1.1 L1Loss
    • 1.2 MSELoss
    • 1.3 CrossEntropyLoss
  • 2 反向传播

本文环境:

  • Pycharm 2025.1
  • Python 3.12.9
  • Pytorch 2.6.0+cu124

1 损失函数

​ 损失函数 (loss function) 是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的"风险"或"损失"的函数。在机器学习中,损失函数通常作为学习准则与优化问题相联系,通过最小化损失函数来求解和评估模型。

​ 损失函数主要分为两类:

  • 回归问题:常用 L1 损失函数 (MAE) 和 L2 损失函数 (MSE)。
  • 分类问题:常用 0-1 损失函数及其代理损失 (如交叉熵损失、铰链损失等)。

1.1 L1Loss

image-20250527202547146

​ L1Loss 计算输入 ( x x x) 和目标 ( y y y) 之间的平均绝对误差 (MAE)。数学公式如下:
l n = ∣ x n − y n ∣ l_n=|x_n-y_n| ln=xnyn

参数类型说明
size_average(bool, 可选)已弃用(请使用reduction)。默认情况下,损失会对批中每个损失元素求平均。注意对于某些损失,每个样本可能有多个元素。如果设为False,则对每个minibatch的损失求和。当reduce为False时被忽略。默认: True
reduce(bool, 可选)已弃用(请使用reduction)。默认情况下,根据size_average对每个minibatch的观测值求平均或求和。当reduce为False时,返回每个批元素的损失并忽略size_average。默认: True
reduction(str, 可选)指定应用于输出的缩减方式: ‘none’|‘mean’|‘sum’。
- ‘none’: 不应用缩减,
- ‘mean’: 输出总和除以元素数量,
- ‘sum’: 输出求和。
注意: size_average和reduce正在被弃用,目前指定这两个参数中的任何一个都会覆盖reduction。默认: ‘mean’

​ 依据reduction的不同,输出结果也不同:
ℓ ( x , y ) = { 1 N ∑ n = 1 N l n , if reduction = ’mean’ . ∑ n = 1 N l n , if reduction = ’sum’ . \ell(x,y)= \begin{cases} \displaystyle\frac{1}{N}\sum_{n=1}^N l_n,&\text{if reduction}=\text{'mean'}.\\\\ \displaystyle\sum_{n=1}^N l_n,&\text{ if reduction}=\text{'sum'}. \end{cases} (x,y)= N1n=1Nln,n=1Nln,if reduction=’mean’. if reduction=’sum’.
​ 其中, N N N 为每个批次的数量。

  • 输入: (∗), 其中 ∗ 表示任意维数。
  • 目标: (∗), 与输入形状相同。
  • 输出: 标量。如果reduction为’none’,则形状与输入相同(∗)。
import torch
from torch import nninputs = torch.tensor([1., 2, 3])
targets = torch.tensor([1, 2, 5])loss = nn.L1Loss()
result = loss(inputs, targets)  # 计算平均绝对误差
print(result)  # tensor(0.6667) 计算:(0 + 0 + 2)/3 = 0.6667

特点:

  • 对异常值不敏感,具有较好的鲁棒性。
  • 梯度恒定(±1),在接近最优解时可能导致震荡。
  • 适用于对异常值敏感的场景。

1.2 MSELoss

image-20250527203806901

​ MSELoss 计算输入 ( x x x) 和目标 ( y y y) 之间的均方误差 (MSE)。
l n = ( x n − y n ) 2 l_n=(x_n-y_n)^2 ln=(xnyn)2

参数类型说明
size_average(bool, 可选)已弃用(请使用reduction)。默认对批中每个损失元素求平均。设为False则对每个minibatch的损失求和。当reduce为False时被忽略。默认: True
reduce(bool, 可选)已弃用(请使用reduction)。默认根据size_average对观测值求平均或求和。当reduce为False时,返回每个批元素的损失。默认: True
reduction(str, 可选)指定输出缩减方式: ‘none’|‘mean’|‘sum’。
- ‘none’: 不缩减,
- ‘mean’: 输出总和除以元素数量,
- ‘sum’: 输出求和。
注意: size_average和reduce将被弃用。默认: ‘mean’

​ 依据reduction的不同,输出结果也不同:
ℓ ( x , y ) = { 1 N ∑ n = 1 N l n , if reduction = ’mean’ . ∑ n = 1 N l n , if reduction = ’sum’ . \ell(x,y)= \begin{cases} \displaystyle\frac{1}{N}\sum_{n=1}^N l_n,&\text{if reduction}=\text{'mean'}.\\\\ \displaystyle\sum_{n=1}^N l_n,&\text{ if reduction}=\text{'sum'}. \end{cases} (x,y)= N1n=1Nln,n=1Nln,if reduction=’mean’. if reduction=’sum’.
​ 其中, N N N 为每个批次的数量。

  • 输入: (∗), 其中 ∗ 表示任意维数
  • 目标: (∗), 与输入形状相同
  • 输出: 标量。如果reduction为’none’,则形状与输入相同(∗)
解释import torch
from torch import nninputs = torch.tensor([1., 2, 3])
targets = torch.tensor([1, 2, 5])loss_mse = nn.MSELoss()
result_mse = loss_mse(inputs, targets)
print(result_mse)  # tensor(1.3333) 计算:(0 + 0 + 4)/3 = 1.3333

特点:

  • 对较大误差惩罚更重(平方放大效应)。
  • 对异常值敏感。
  • 梯度随误差减小而减小,收敛速度较快。
  • 适用于数据质量较好的场景。

1.3 CrossEntropyLoss

image-20250527214211838 ​ CrossEntropyLoss 计算输入 ($x$) 和目标 ($y$) 之间的交叉熵。该损失函数结合 LogSoftmax 和 NLLLoss (负对数似然损失) 的操作,适用于多类分类任务。

l n = − ∑ c = 1 C w c log ⁡ exp ⁡ ( x n , c ) ∑ i = 1 C exp ⁡ ( x n , i ) y n , c l_n=-\sum_{c=1}^Cw_c\log\frac{\exp(x_{n,c})}{\sum_{i=1}^C\exp(x_{n,i})}y_{n,c} ln=c=1Cwclogi=1Cexp(xn,i)exp(xn,c)yn,c
​ 其中 w w w 为权重, C C C 为类别数。

参数类型说明
weight(Tensor, 可选)为每个类别分配权重的一维张量,用于处理类别不平衡问题
ignore_index(int, 可选)指定要忽略的目标值,不参与梯度计算
reduction(str, 可选)指定输出缩减方式: ‘none’|‘mean’|‘sum’。默认: ‘mean’
label_smoothing(float, 可选)标签平滑系数,范围[0.0,1.0]。0.0表示无平滑

​ 依据reduction的不同,输出结果也不同:
ℓ ( x , y ) = { 1 N ∑ n = 1 N l n , if reduction = ’mean’ . ∑ n = 1 N l n , if reduction = ’sum’ . \ell(x,y)= \begin{cases} \displaystyle\frac{1}{N}\sum_{n=1}^N l_n,&\text{if reduction}=\text{'mean'}.\\\\ \displaystyle\sum_{n=1}^N l_n,&\text{ if reduction}=\text{'sum'}. \end{cases} (x,y)= N1n=1Nln,n=1Nln,if reduction=’mean’. if reduction=’sum’.
​ 其中, N N N 为每个批次的数量。

输入形状

  • 无批处理: ( C ) (C) (C)
  • 批处理: ( N , C ) (N, C) (N,C) ( N , C , d 1 , d 2 , . . . , d K ) , K ≥ 1 (N, C, d₁, d₂,...,d_K), K≥1 (N,C,d1,d2,...,dK),K1

目标形状

  • 类别索引: ( ) , ( N ) (), (N) (),(N) ( N , d 1 , d 2 , . . . , d K ) (N, d₁, d₂,...,d_K) (N,d1,d2,...,dK)
  • 类别概率: 必须与输入形状相同。
from torch import nnx = torch.tensor([0.1, 0.2, 0.3])  # 预测值(未归一化)
y = torch.tensor([1])  # 真实类别索引
x = x.reshape(1, -1)  # 调整为(batch_size, num_classes)loss_cross = nn.CrossEntropyLoss()
result_cross = loss_cross(x, y)
print(result_cross)  # tensor(1.1019)

计算过程:

  1. 对 x 应用 softmax 得到概率分布:[0.3006,0.3322,0.3672]。
  2. 取真实类别 (1) 的概率:0.3322。
  3. 计算负对数: − l o g ( 0.3322 ) ≈ 1.1019 -log(0.3322)\approx1.1019 log(0.3322)1.1019

特点:

  • 结合了 Softmax 和负对数似然。
  • 梯度计算高效,适合多分类问题。
  • 对预测概率与真实标签的差异敏感。

2 反向传播

​ 反向传播(Backpropagation)是神经网络训练的核心算法,通过链式法则计算损失函数对网络参数的梯度。关键步骤:

  1. 前向传播:计算网络输出和损失值。
  2. 反向传播
    • 计算损失函数对输出的梯度。
    • 逐层传播梯度到各参数。
    • 应用链式法则计算参数梯度。
  3. 参数更新:使用优化器根据梯度更新参数。

​ 以 CIFAR10 网络为例:

from collections import OrderedDictimport torch
import torchvision
from torch import nnfrom torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision import transforms# 加载CIFAR10数据集
dataset = torchvision.datasets.CIFAR10(root='./dataset',  # 数据集存放路径train=False,  # 是否为训练集download=True,  # 是否下载数据集transform=transforms.ToTensor()  # 数据预处理
)# 加载数据集
dataloader = DataLoader(dataset, batch_size=1)class MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()self.model1 = nn.Sequential(OrderedDict([('conv1', nn.Conv2d(3, 32, 5, padding=2)),('maxpool1', nn.MaxPool2d(2)),('conv2', nn.Conv2d(32, 32, 5, padding=2)),('maxpool2', nn.MaxPool2d(2)),('conv3', nn.Conv2d(32, 64, 5, padding=2)),('maxpool3', nn.MaxPool2d(2)),('flatten', nn.Flatten()),('linear1', nn.Linear(64 * 4 * 4, 64)),('linear2', nn.Linear(64, 10))]))def forward(self, x):x = self.model1(x)return xloss = nn.CrossEntropyLoss()model = MyModel()
for data in dataloader:imgs, targets = dataoutputs = model(imgs)result_loss = loss(outputs, targets)result_loss.backward()  # 使用反向传播print(result_loss)

​ 在 Pycharm 中,将第 48 行注释,点击调试。

image-20250527211328521

​ 依次在变量窗口中展开“model”-》“model1”-》“conv1”,可看到 conv1 层中的权重参数 weight。

image-20250527211446267

​ 展开“weight”,其 grad 属性此时为 None。

image-20250527211608982

​ 点击“步过”按钮,运行 48 行,“weight”的 grad 属性被赋值。此值即为本次迭代的梯度数据。

image-20250527211725204

相关文章:

  • 【Elasticsearch】_update api的增量更新
  • Protocol Buffers 复杂嵌套编译指南:生成 C++ 代码
  • 【Elasticsearch】ingest对于update操作起作用吗?
  • spring4第2课-ioc控制反转
  • 医疗HMI设计规范解读:如何平衡合规性与用户体验?
  • 每日Prompt:古花卷
  • MySQL-5.7 修改密码和连接访问权限
  • 顶会新方向:卡尔曼滤波+目标检测
  • 从“超市收银系统崩溃”看JVM性能监控与故障定位实战
  • wordpress迁移到Hostinger
  • 【监控】pushgateway中间服务组件
  • MES生产管理系统:Java+Vue,含源码与文档,集成生产信息,实现计划、执行与监控高效协同
  • AbMole| MGCD0103(M1790,Mocetinostat)
  • 【Elasticsearch】retry_on_conflict
  • Linux:基础指令与内涵理解(下)与权限
  • [AI]大模型MCP快速入门及智能体执行模式介绍
  • Linux `cd` 命令深度解析与高阶应用指南
  • Babylon.js学习之路《九、物理引擎入门:重力、碰撞与刚体模拟》
  • (aaai2025) Towards Open-Vocabulary Remote Sensing Image Semantic Segmentation
  • 全局事务标识符
  • 电商网站有哪些使用场景/夫唯seo
  • icp备案的网站名称/怎样做品牌推广
  • 接效果图做网站/计算机培训机构
  • wordpress 不显示主题/seo关键词如何设置
  • 网站添加内容/关键词检索怎么弄
  • 网页设计css代码大全风景/seo按照搜索引擎的