深度学习核心损失函数详解:交叉熵、MSE、对比学习(InfoNCE)
本文将用代码、图表和比喻,带你彻底理解这三种驱动AI模型的损失函数。
1. 交叉熵损失 (Cross-Entropy Loss):分类任务的“黄金标准”
核心思想:衡量模型输出的预测概率分布与真实概率分布之间的差异。差异越小,损失越小。
- 真实分布:通常是 one-hot 编码(如
[1, 0, 0]
代表“猫”)。 - 预测分布:模型通过 Softmax 函数输出的概率(如
[0.7, 0.2, 0.1]
)。
直观比喻:
老师(真实分布)知道正确答案是A。学生(模型)提交了一份选择题的概率答案。交叉熵就是评判学生答案的“离谱程度”。如果学生坚定地选错了(如给错误答案D分配0.9的概率),惩罚会非常严厉;如果学生不确定(如正确答案A只有0.4的概率),也会受到惩罚,但没那么重。
公式(多分类):
L=−∑c=1Myclog(pc)L = -\sum_{c=1}^{M} y_c \log(p_c)