当前位置: 首页 > news >正文

深度学习中的常见损失函数详解及PyTorch实现

损失函数(Loss Function)是深度学习中至关重要的组成部分,它衡量模型预测结果与真实标签之间的差异,是模型优化的目标。本文将详细介绍线性回归损失函数(MAE、MSE)、CrossEntropyLoss和BCELoss的原理、特点及PyTorch实现。

1. 线性回归损失函数

线性回归问题通常使用MAE(平均绝对误差)和MSE(均方误差)作为损失函数。

1.1 MAE损失(L1 Loss)

MAE(Mean Absolute Error)计算预测值与真实值之间绝对差值的平均值。

公式

 

 

特点

  • 对异常值不敏感

  • 梯度恒定,不利于梯度下降优化

PyTorch实现

import torch
import torch.nn as nn# 创建MAE损失函数实例
mae_loss = nn.L1Loss()# 示例数据
predictions = torch.tensor([1.5, 2.0, 3.2], dtype=torch.float32)
targets = torch.tensor([1.0, 2.5, 2.8], dtype=torch.float32)# 计算损失
loss = mae_loss(predictions, targets)
print(f"MAE Loss: {loss.item():.4f}")  # 输出: MAE Loss: 0.4667

1.2 MSE损失(L2 Loss)

MSE(Mean Squared Error)计算预测值与真实值之间平方差值的平均值。

公式

 

 

特点

  • 对异常值敏感

  • 梯度随误差增大而增大,有利于梯度下降

PyTorch实现

# 创建MSE损失函数实例
mse_loss = nn.MSELoss()# 使用之前的示例数据
loss = mse_loss(predictions, targets)
print(f"MSE Loss: {loss.item():.4f}")  # 输出: MSE Loss: 0.2967# 带reduction参数的MSE
mse_loss_sum = nn.MSELoss(reduction='sum')  # 求和而非平均
loss_sum = mse_loss_sum(predictions, targets)
print(f"MSE Sum Loss: {loss_sum.item():.4f}")  # 输出: MSE Sum Loss: 0.8900

参数说明

  • reduction:指定缩减方式,可选:

    • 'mean'(默认):返回损失的平均值

    • 'sum':返回损失的总和

    • 'none':返回每个样本的损失

2. CrossEntropyLoss(交叉熵损失)

交叉熵损失是分类任务中最常用的损失函数,尤其适用于多分类问题。

2.1 信息理论基础

2.1.1 信息量

对于一个事件x,其发生的概率为 P(x),信息量I(x)   

信息量是衡量一个事件发生的"惊讶程度",定义:

 

2.1.2 信息熵

信息熵是信息量的期望,衡量系统的不确定性:

 

2.1.3 KL散度

KL散度衡量两个概率分布的差异:

 

2.1.4 交叉熵

交叉熵是信息熵与KL散度的组合:

 

在分类任务中,P是真实分布(one-hot),Q是预测分布,因此最小化交叉熵等价于最小化KL散度。

2.2 PyTorch实现

# 创建交叉熵损失函数实例
ce_loss = nn.CrossEntropyLoss()# 示例数据
# 3个样本,5分类问题(注意输入不需要softmax,内部会自动处理)
logits = torch.tensor([[1.2, 0.4, -0.5, 2.1, 0.3],[0.8, 1.9, -1.2, 0.4, 1.1],[-0.1, 2.4, 0.7, 1.5, -0.5]], dtype=torch.float32)# 每个样本的真实类别索引(0-4)
targets = torch.tensor([3, 1, 4], dtype=torch.long)# 计算损失
loss = ce_loss(logits, targets)
print(f"CrossEntropy Loss: {loss.item():.4f}")  # 输出示例: CrossEntropy Loss: 0.8765

参数说明

  • weight(Tensor, 可选):给每个类别分配权重,用于处理类别不平衡问题

  • ignore_index(int, 可选):指定一个被忽略的类别索引,其不会贡献损失

  • reduction(str, 可选):与MSE相同,指定缩减方式

  • label_smoothing(float, 可选):标签平滑系数,0.0表示不使用

带权重的示例

# 假设5个类别的权重分别为[0.1, 0.2, 0.3, 0.2, 0.2]
weights = torch.tensor([0.1, 0.2, 0.3, 0.2, 0.2], dtype=torch.float32)ce_loss_weighted = nn.CrossEntropyLoss(weight=weights)
loss_weighted = ce_loss_weighted(logits, targets)
print(f"Weighted CrossEntropy Loss: {loss_weighted.item():.4f}")

3. BCELoss(二元交叉熵损失)

BCELoss(Binary Cross Entropy Loss)用于二分类问题,每个样本只能属于正类或负类。

公式

 

参数说明

  1. n

    • 表示当前批次中的样本数量

    • 用于计算所有样本损失的平均值

    • 在PyTorch中可以通过reduction='mean'(默认)或reduction='sum'来改变这个行为

  2. i

    • 样本索引,从1到n

    • 表示对批次中每个样本的计算

  3. yᵢ

    • 第i个样本的真实标签(ground truth)

    • 取值为0或1(负类或正类)

    • 在PyTorch中通常是一个浮点型Tensor,形状为[batch_size][batch_size, 1]

  4. ŷᵢ(y hat):

    • 模型对第i个样本的预测概率

    • 取值范围应该在(0,1)之间,通常通过sigmoid函数得到

    • 形状与yᵢ相同

  5. log

    • 自然对数(以e为底)

    • 在PyTorch实现中会处理数值稳定性问题(如添加微小值防止log(0))

 

PyTorch实现: 

# 创建BCE损失函数实例
bce_loss = nn.BCELoss()# 示例数据
# 4个样本的预测概率(经过sigmoid激活)
predictions = torch.tensor([0.8, 0.2, 0.6, 0.9], dtype=torch.float32)
# 真实标签(0或1)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)# 计算损失
loss = bce_loss(predictions, targets)
print(f"BCE Loss: {loss.item():.4f}")  # 输出示例: BCE Loss: 0.2070# 带权重的BCE
bce_loss_weighted = nn.BCELoss(weight=torch.tensor([1.0, 2.0, 1.0, 1.0]))
loss_weighted = bce_loss_weighted(predictions, targets)
print(f"Weighted BCE Loss: {loss_weighted.item():.4f}")

BCEWithLogitsLoss

通常在实际使用中,我们更常用BCEWithLogitsLoss,它结合了Sigmoid激活和BCELoss,数值计算更稳定。

bce_logits_loss = nn.BCEWithLogitsLoss()# 输入是未经过sigmoid的原始logits
logits = torch.tensor([1.5, -1.2, 0.4, 2.1], dtype=torch.float32)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)loss = bce_logits_loss(logits, targets)
print(f"BCEWithLogits Loss: {loss.item():.4f}")

参数说明

  • weight:与CrossEntropyLoss类似,用于样本加权重

  • pos_weight:正样本的权重,用于调整正负样本不平衡

  • reduction:同上

4. 损失函数总结与选择指南

损失函数适用场景特点
MAE (L1 Loss)回归问题对异常值不敏感,梯度恒定
MSE (L2 Loss)回归问题对异常值敏感,梯度随误差增大
CrossEntropyLoss多分类问题结合Softmax,直接处理类别概率
BCELoss二分类问题需配合Sigmoid使用,处理0-1概率
BCEWithLogitsLoss二分类问题结合Sigmoid,数值稳定性更好

选择建议

  1. 回归问题:

    • 数据中有异常值:优先考虑MAE

    • 数据质量较好:使用MSE

  2. 分类问题:

    • 二分类:使用BCEWithLogitsLoss

    • 多分类:使用CrossEntropyLoss

    • 类别不平衡:使用带权重的版本

  3. 特殊需求:

    • 需要更关注困难样本:考虑使用Focal Loss等变体

    • 多标签分类:可能需要组合多个BCELoss

5. 完整示例:MNIST分类中的损失函数应用

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader# 数据准备
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))
])train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)# 简单模型
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.fc1 = nn.Linear(28*28, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = x.view(-1, 28*28)x = torch.relu(self.fc1(x))x = self.fc2(x)return xmodel = Net()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 使用CrossEntropyLoss
criterion = nn.CrossEntropyLoss()# 训练循环
for epoch in range(5):for batch_idx, (data, target) in enumerate(train_loader):optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()if batch_idx % 100 == 0:print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.4f}')

通过本文的详细讲解,相信您已经对深度学习中常见的损失函数有了全面的了解。在实际应用中,根据具体问题和数据特点选择合适的损失函数,是构建高效模型的重要一步。 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

http://www.dtcms.com/a/272088.html

相关文章:

  • B2、进度汇报(— 25/06/16)
  • Sigma-Aldrich细胞培养基础知识:细胞培养的安全注意事项
  • Vue 中监测路由变化时,通常不需要开启深度监听(deep: true)
  • 基于Python的旅游推荐协同过滤算法系统(去哪儿网数据分析及可视化(Django+echarts))
  • 《Stata面板数据分析:数据检验、回归模型与诊断技术 - 以NLSW工资研究(公开数据)为例》
  • android studio 运行,偶然会导致死机,设置Memory Settings尝试解决
  • 不止于快:金士顿XS2000移动固态硬盘如何重塑你的数字生活
  • 机器学习1
  • ssh: connect to host github.com port 22: connection refused
  • Web学习笔记2
  • 使用球体模型模拟相机成像:地面与天空的可见性判断与纹理映射
  • 「py数据分析」04如何将 Python 爬取的数据保存为 CSV 文件
  • 基于Python的程序员数据分析与可视化系统的设计与实现
  • 三、神经网络——网络优化方法
  • 线上事故处理记录
  • XMAPP MySQL 启动后自动停止
  • 【实战】Dify从0到100进阶--文档解读(1)开源许可和大模型适配
  • Using Spring for Apache Pulsar:Transactions
  • MySQL断开连接后无法正常启动解决记录
  • 第一次搭建数据库
  • JavaScript 树形菜单总结
  • 2025社交电商新风口:推客小程序的商业逻辑与技术实现
  • 数据结构与算法之美:广义表
  • 通过vue如何利用 Three 绘制 简单3D模型(源码案例)
  • Redis中BigKey的隐患
  • Mysql分片:一致性哈希算法
  • 服务器内核级故障排查
  • 【计算机网络】HTTP1.0 HTTP1.1 HTTP2.0 QUIC HTTP3 究极总结
  • 【Python办公】使用Python和Tkinter构建Excel数据导入MySQL工具(GUI版)
  • 如何排查处理机械臂算法不精准问题?