当前位置：首页 > news >正文

深度学习中的损失函数都有哪些，大模型时代主要用的损失函数有哪些，中间有什么区别？

news 2025/9/9 15:08:10

交叉熵损失 Cross Entropy Loss
- 二分类：Binary Cross Entropy (BCE)
- 多分类：Categorical Cross Entropy (CCE)
- 带Softmax：Softmax + CCE（最常用）
Hinge Loss：SVM风格，用于最大间隔分类
Focal Loss：解决类别不平衡（RetinaNet提出）
Label Smoothing Cross Entropy：防止过拟合，提升泛化

核心答案：大模型（尤其是LLM）几乎统一使用「带Label Smoothing的交叉熵损失」

loss = CrossEntropyLoss(logits, labels, label_smoothing=0.1)

理论基础扎实：最大化似然 = 最小化交叉熵，符合语言建模本质（预测下一个token的概率分布）
梯度性质好：配合Softmax，梯度计算稳定，适合大规模优化
可扩展性强：适用于自回归（GPT）、自编码（BERT）、Encoder-Decoder（T5）等所有主流架构
Label Smoothing加持：
- 防止模型对“正确标签”过度自信 → 提升泛化能力
- 缓解过拟合，尤其在数据量巨大但存在噪声时效果显著
- 原理：将one-hot标签 [0,0,1,0] → [ε/K, ε/K, 1-ε, ε/K]（K为词表大小）

✅ 关键区别总结：大模型不再追求“任务特异性损失”，而是回归“语言建模本质”——用最基础、最通用的概率建模损失（交叉熵）+ 正则化技巧（Label Smoothing），靠数据和规模取胜。

“在深度学习中，损失函数根据任务类型分为回归类（如MSE、MAE）、分类类（如交叉熵、Hinge Loss）和序列类（如CTC）。但在大模型时代，尤其是LLM（如GPT、LLaMA、BERT），几乎全部采用带Label Smoothing的交叉熵损失函数。”

“这是因为语言建模本质是下一个token的条件概率预测，交叉熵天然适配概率建模目标；而Label Smoothing通过软化one-hot标签，有效缓解大模型在海量数据下的过拟合问题，提升泛化能力。”

“相比传统任务中使用的Focal Loss或Hinge Loss，大模型更强调通用性、稳定性和可扩展性，交叉熵+Label Smoothing在超大词表、超长序列、千亿参数下表现稳健，已成为工业界和学术界的默认选择。”

“当然，在RLHF阶段会切换为PPO等强化学习损失，但在预训练和SFT阶段，交叉熵仍是绝对主流。”

Q：为什么不用MSE做分类？ → A：MSE假设输出是连续值，且误差服从高斯分布；分类是离散概率分布，交叉熵更符合信息度量本质，梯度也更合理。
Q：Label Smoothing的ε怎么选？ → A：经验上0.05~0.2，LLaMA用0.1，太大会模糊标签，太小没效果。可作为超参调优。
Q：交叉熵和NLL Loss区别？ → A：NLL作用于log概率，常与LogSoftmax配对；交叉熵内部包含Softmax+log+NLL，二者在数值上等价。
Q：大模型有没有尝试不用交叉熵的？ → A：有，比如用对比学习（CLIP）、MAE式重建损失（非自回归）、甚至强化学习直接优化任务reward，但预训练阶段交叉熵仍是基石。