当前位置：首页 > news >正文

PyTorch实现CrossEntropyLoss示例

news 2025/10/24 22:20:02

PyTorch实现CrossEntropyLoss示例

PyTorch实现CrossEntropyLoss示例
- 摘要
- 标签平滑原理
- - 传统交叉熵的问题
  - 标签平滑的数学表达
- PyTorch代码实现解析
- - 类定义与初始化
  - 前向传播过程
- 代码示例
- 关键点总结
- 扩展思考

PyTorch实现CrossEntropyLoss示例

摘要

在深度学习的分类任务中，交叉熵损失函数被广泛应用。然而，传统的交叉熵损失容易导致模型对预测结果过于自信，从而引发过拟合问题。本文介绍一种改进方法——标签平滑（Label Smoothing），并通过PyTorch实现该技术。代码源自计算机视觉领域的经典论文《Rethinking the Inception Architecture for Computer Vision》，可有效提升模型的泛化能力。

标签平滑原理

传统交叉熵的问题

传统交叉熵损失将真实标签的预测概率设为1，其他类别为0。这种“非黑即白”的方式容易导致模型过度拟合训练数据，对错误标签过于敏感。

标签平滑的数学表达

标签平滑通过引入平滑因子 $\epsilon$ ，将真实标签的概率调整为：
$\epsilon) \times y + \frac{\epsilon}{K}$
其中 $K$ 为类别总数。例如，当 $\epsilon=0.1$ 且 $K = 10$ 时，真实标签的概率变为 $0.9 + 0.1/10 = 0.91$ ，其他类别均为 $0.01$ 。这种方式使模型输出更“柔和”，防止过拟合。

PyTorch代码实现解析

类定义与初始化

class CrossEntropyLoss(nn.Module):def __init__(self, num_classes, eps=0.1, use_gpu=True, label_smooth=True):super(CrossEntropyLoss, self).__init__()self.num_classes = num_classesself.eps = eps if label_smooth else 0  # 平滑因子self.use_gpu = use_gpuself.logsoftmax = nn.LogSoftmax(dim=1)  # LogSoftmax层def forward(self, inputs, targets):log_probs = self.logsoftmax(inputs)  # 计算Log Softmaxzeros = torch.zeros(log_probs.size())targets = zeros.scatter_(1, targets.unsqueeze(1).data.cpu(), 1)  # 生成One-hot编码if self.use_gpu:targets = targets.cuda()targets = (1 - self.eps) * targets + self.eps / self.num_classes  # 应用标签平滑return (-targets * log_probs).mean(0).sum()  # 计算损失

num_classes: 类别总数。
eps: 平滑因子，默认0.1。
use_gpu: 是否使用GPU加速。
label_smooth: 是否启用标签平滑。

前向传播过程

Log Softmax计算
使用nn.LogSoftmax对模型输出进行处理，获得对数概率。
生成One-hot标签
通过scatter_方法将类别索引转换为One-hot向量。例如，假设targets=[2,5]，则生成的One-hot矩阵为：
```
[[0,0,1,0,0,0,0,0,0,0],[0,0,0,0,0,1,0,0,0,0]]
```
设备转移
根据use_gpu参数将标签数据转移到GPU。
标签平滑公式应用
调整真实标签的概率分布，公式为：

$one_hot + ϵ / K targets = (1-\epsilon) \times \text{one\_hot} + \epsilon / K$
损失计算
计算每个类别的平均损失后求和，等价于对全体样本的损失求平均。

代码示例

# 示例：计算两个样本的损失
num_classes = 10
batch_size = 2
inputs = torch.randn(batch_size, num_classes)  # 随机生成预测结果
targets = torch.LongTensor([2, 5])             # 真实标签criterion = CrossEntropyLoss(num_classes=10, eps=0.1, use_gpu=False)
loss = criterion(inputs, targets)
print(f"Loss: {loss.item():.4f}")