【高级机器学习】 2. Loss Functions(损失函数)
Loss Functions(损失函数)
承接前一节“Hypothesis 与 Objective Function”。回顾:
- Hypothesis:模型形式 + 一组具体参数。
- 最佳分类器(理想):在真实分布 DDD 下令 0-1 损失的期望最小。
- 现实困难:DDD 未知;0-1 损失不可导、非凸,难以优化;还要选择合适的假设类。
本节介绍为何与如何用替代损失(surrogate loss)解决这些问题。
1. 最佳分类器(Best Classifier)
设二分类标签 Y∈{−1,+1}Y\in\{-1,+1\}Y∈{−1,+1},判别函数/打分函数 h:X→Rh:\mathcal{X}\to\mathbb{R}h:X→R,预测为 sign(h(X))\mathrm{sign}(h(X))sign(h(X))。
0-1 损失:
ℓ01(h(X),Y)=1{Y≠sign(h(X))}.
\ell_{01}(h(X),Y)=\mathbf{1}\{Y\neq \mathrm{sign}(h(X))\}.
ℓ01(h(X),Y)=1{Y=sign(h(X))}.
理想目标(最小化期望风险):
h⋆ = argminh∈H E(X,Y)∼D[ℓ01(h(X),Y)].
h^\star \;=\; \arg\min_{h\in\mathcal{H}}\; \mathbb{E}_{(X,Y)\sim D}\big[\ell_{01}(h(X),Y)\big].
h⋆=argh∈HminE(X,Y)∼D[ℓ01(h(X),Y)].
现实中的三大难题
- 未知分布:DDD 不可得,无法直接计算期望;
- 优化困难:ℓ01\ell_{01}ℓ01 非凸、不可导,梯度方法无从下手;
- 假设选择:H\mathcal{H}H(模型/参数化)如何选,既要足够表达力,又要可训练、能泛化。
2. 经验风险与替代损失(Surrogate Loss)
有样本 S={(Xi,Yi)}i=1n∼i.i.d.DS=\{(X_i,Y_i)\}_{i=1}^n \overset{\text{i.i.d.}}{\sim} DS={(Xi,Yi)}i=1n∼i.i.d.D。大数定律给出
1n∑i=1nf(Xi,Yi) →n→∞ E[f(X,Y)].
\frac{1}{n}\sum_{i=1}^n f(X_i,Y_i)\;\xrightarrow[n\to\infty]{}\; \mathbb{E}[f(X,Y)].
n1i=1∑nf(Xi,Yi)n→∞E[f(X,Y)].
故用经验风险近似期望风险。但直接用 ℓ01\ell_{01}ℓ01 仍难以优化,于是选一个可优化的替代损失 ϕ\phiϕ,通常写为边际形式
m = Y h(X),ℓ(X,Y,h) = ϕ(m),
m \;=\; Y\,h(X),\qquad \ell(X,Y,h)\;=\;\phi(m),
m=Yh(X),ℓ(X,Y,h)=ϕ(m),
将原问题替换为
hn = argminh∈H 1n∑i=1nϕ(Yi h(Xi))⏟经验 surrogate 风险.
h_n \;=\; \arg\min_{h\in\mathcal{H}}\; \underbrace{\frac{1}{n}\sum_{i=1}^n \phi\big(Y_i\,h(X_i)\big)}_{\text{经验 surrogate 风险}}.
hn=argh∈Hmin经验 surrogate 风险n1i=1∑nϕ(Yih(Xi)).
多数优化算法(SGD/Adam 等)都依赖可导或次梯度信息;因此选择凸且(次)可导的 ϕ\phiϕ,能把训练变成“好解”的数值优化问题。
3. 常见替代损失(Popular Surrogate Losses)
约定:下列配方均用边际 m=Yh(X)m=Yh(X)m=Yh(X) 书写;注意负号方向(鼓励正边际、惩罚负边际)。
-
Hinge loss(SVM)
ϕhinge(m)=max{0, 1−m}. \phi_{\text{hinge}}(m)=\max\{0,\,1-m\}. ϕhinge(m)=max{0,1−m}.- 凸、非光滑(m=1m=1m=1 处不可导);
- 促使“间隔”mmm 至少大于 1。
-
Logistic loss(逻辑回归 / 分类交叉熵的二分类形式)
ϕlog(m)=log(1+e−m). \phi_{\text{log}}(m)=\log\big(1+e^{-m}\big). ϕlog(m)=log(1+e−m).- 凸、光滑;
- 概率可校准:σ(h(x))=11+e−h(x)≈P(Y=+1∣X=x)\sigma(h(x))=\frac{1}{1+e^{-h(x)}}\approx \mathbb{P}(Y=+1\mid X=x)σ(h(x))=1+e−h(x)1≈P(Y=+1∣X=x)。
-
Exponential loss(AdaBoost)
ϕexp(m)=e−m. \phi_{\exp}(m)=e^{-m}. ϕexp(m)=e−m.- 凸、光滑;
- 对大幅度的负边际惩罚非常重(对噪声较敏感)。
-
Least Squares(平方损失)(标签取 {−1,+1}\{-1,+1\}{−1,+1})
ϕsq(m)=(1−m)2或(Y−h(X))2. \phi_{\text{sq}}(m)=(1-m)^2\quad\text{或}\quad (Y-h(X))^2. ϕsq(m)=(1−m)2或(Y−h(X))2.- 凸、光滑;
- 回归到 E[Y∣X]\mathbb{E}[Y\mid X]E[Y∣X],再以符号作分类(亦称 Fisher-consistent)。
非凸但鲁棒的替代损失(抗异常点/噪声,优化更难):
- Cauchy loss(以边际写法的一种常见形态)
ϕcauchy(m)=log (1+(1−m)2) \phi_{\text{cauchy}}(m)=\log\!\Big(1+\big(1-m\big)^2\Big) ϕcauchy(m)=log(1+(1−m)2)
(常见的回归形态为 log (1+r2c2)\log\!\big(1+\tfrac{r^2}{c^2}\big)log(1+c2r2),这里 r=1−mr=1-mr=1−m)。 - Correntropy / Welsch loss
ϕwelsch(m)=1−exp (−(1−m)22σ2). \phi_{\text{welsch}}(m)=1-\exp\!\Big(-\frac{(1-m)^2}{2\sigma^2}\Big). ϕwelsch(m)=1−exp(−2σ2(1−m)2).
二者非凸、光滑,对远离决策面的噪声点“降权”。
4. 与 0-1 损失的关系:分类校准(Classification Calibration)
问题 A:替代损失会不会改变“最终分类器”(准确率意义下)?
答案:若 ϕ\phiϕ 是分类校准(classification-calibrated)的,那么在样本足够大时,用 ϕ\phiϕ 得到的分类器与最小化 0-1 损失得到的一致(即Bayes 一致/一致收敛的性质)。
-
直观理解:用 ϕ\phiϕ 最小化的“条件风险”
Rϕ(h∣X=x) = η(x) ϕ(h(x))+(1−η(x)) ϕ(−h(x)), \mathcal{R}_\phi(h\mid X=x)\;=\;\eta(x)\,\phi(h(x)) + (1-\eta(x))\,\phi(-h(x)), Rϕ(h∣X=x)=η(x)ϕ(h(x))+(1−η(x))ϕ(−h(x)),
其中 η(x)=P(Y=+1∣X=x)\eta(x)=\mathbb{P}(Y=+1\mid X=x)η(x)=P(Y=+1∣X=x)。
若对每个 xxx,最优 h(x)h(x)h(x) 的符号与 η(x)−12\eta(x)-\tfrac12η(x)−21 同号,则由 ϕ\phiϕ 训练出的分类器与 Bayes 分类器
hBayes(x)=sign(η(x)−12) h_{\text{Bayes}}(x)=\mathrm{sign}\big(\eta(x)-\tfrac12\big) hBayes(x)=sign(η(x)−21)
一致(样本充分时)。 -
常用结论(实用判别法,ϕ\phiϕ 为凸的边际损失):
- 若 ϕ\phiϕ 在 m=0m=0m=0 可导且
ϕ′(0) < 0, \phi'(0)\;<\;0, ϕ′(0)<0,
则 ϕ\phiϕ 为分类校准(充分条件)。 - 若 ϕ\phiϕ 在 000 不可导(如 hinge),但在 0 处存在负的次梯度(左/右导数之一 <0<0<0),同样是分类校准。
- Logistic、Exponential、Hinge、Squared(在 {−1,+1}\{-1,+1\}{−1,+1} 标签下)等流行替代损失均为分类校准。
- 若 ϕ\phiϕ 在 m=0m=0m=0 可导且
一致性(Asymptotics):设
hc=argminhE[ϕ(Yh(X))],hn=argminh1n∑i=1nϕ(Yih(Xi)). h_c=\arg\min_h \mathbb{E}[\phi(Yh(X))],\qquad h_n=\arg\min_h \frac1n\sum_{i=1}^n \phi(Y_i h(X_i)). hc=arghminE[ϕ(Yh(X))],hn=arghminn1i=1∑nϕ(Yih(Xi)).
若 ϕ\phiϕ 分类校准且满足常规条件(如 H\mathcal{H}H 适当、复杂度受控),则
E [1{Y≠sign(hn(X))}]→n→∞ E [1{Y≠sign(hc(X))}]. \mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_n(X))\}\right] \xrightarrow[n\to\infty]{}\; \mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_c(X))\}\right]. E[1{Y=sign(hn(X))}]n→∞E[1{Y=sign(hc(X))}].
5. 不同替代损失之间有何差异?
从以下维度权衡与选择:
- 凸性/光滑性
- 凸 + 光滑(Logistic / Exponential / Square):优化稳定,适合一阶法。
- 凸 + 非光滑(Hinge):可用次梯度/坐标法,常有稀疏支持向量的几何解释。
- 非凸(Cauchy / Welsch):更鲁棒但可能有局部极小,需更谨慎的优化策略。
- 梯度形状与鲁棒性
- Exponential 对难例/噪声梯度过大,易过拟合噪声;
- Logistic 梯度饱和更温和,实践最常用;
- Hinge 对“边界外”样本梯度为 0(足够大正边际不再惩罚),强调最大间隔;
- Square 在二分类场景更像回归,受离群值影响可能偏大;
- Cauchy/Welsch 对大残差降权,抗噪声更好。
- 概率可解释性 / 校准
- Logistic 天然对应 Bernoulli 对数似然,输出 σ(h(x))\sigma(h(x))σ(h(x)) 可近似类别概率,概率校准较好;
- Exponential 与 AdaBoost 的加性模型匹配;
- Hinge 更偏几何间隔最大化,非概率视角;
- Square 可恢复 E[Y∣X]\mathbb{E}[Y\mid X]E[Y∣X](再阈值分类)。
- 泛化与正则化
- 任意替代损失都需与正则化(ℓ2/ℓ1\ell_2/\ell_1ℓ2/ℓ1、早停、数据增广等)配合控制复杂度,保障泛化。
6. “能否平滑且凸地逼近 0-1 损失?”
- 目标:找既“像 0-1”又凸、(次)可导的 ϕ\phiϕ。
- 答案:Logistic、Exponential、Square 等都可视为对 0-1 的上界/近似(或其指示函数的平滑替代),在边际 mmm 附近施加单调递减的惩罚。
- 收益:凸目标通常只有一个全局极小点,局部极小即全局极小,配合随机优化可有效训练大模型。
7. 训练目标(以 Surrogate 风险为目标的 ERM)
机器学习算法本质是一个从样本到假设的映射
A: S∈(X×Y)n ↦ hS∈H,
\mathcal{A}:\; S\in(\mathcal{X}\times\mathcal{Y})^n \;\mapsto\; h_S\in\mathcal{H},
A:S∈(X×Y)n↦hS∈H,
其中
hS = argminh∈H1n∑i=1nℓ(Xi,Yi,h) = argminh∈H1n∑i=1nϕ (Yih(Xi)).
h_S\;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \ell(X_i,Y_i,h)
\;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi\!\big(Y_i h(X_i)\big).
hS=argh∈Hminn1i=1∑nℓ(Xi,Yi,h)=argh∈Hminn1i=1∑nϕ(Yih(Xi)).
配合正则化(如 λ∥h∥2\lambda\|h\|^2λ∥h∥2)得到结构化风险最小化(SRM):
argminh∈H1n∑i=1nϕ(Yih(Xi))+λ Ω(h).
\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi(Y_i h(X_i))+\lambda\,\Omega(h).
argh∈Hminn1i=1∑nϕ(Yih(Xi))+λΩ(h).
8. 实操速查表
损失 | 形式(边际 m=Yh(X)m=Yh(X)m=Yh(X)) | 凸性/光滑性 | 典型优点 | 典型注意点 |
---|---|---|---|---|
Hinge | max(0,1−m)\max(0,1-m)max(0,1−m) | 凸 / 非光滑 | 最大间隔,稀疏支持向量 | 在 m>1m>1m>1 无梯度,概率不可解释 |
Logistic | log(1+e−m)\log(1+e^{-m})log(1+e−m) | 凸 / 光滑 | 概率友好,优化稳定 | 极端噪声时仍受影响 |
Exponential | e−me^{-m}e−m | 凸 / 光滑 | 与 Boosting 匹配,间隔放大 | 对噪声过敏 |
Square | (1−m)2(1-m)^2(1−m)2 | 凸 / 光滑 | 实现简单,闭式子问题多 | 受异常值影响偏大 |
Cauchy | log(1+(1−m)2)\log(1+(1-m)^2)log(1+(1−m)2) | 非凸 / 光滑 | 抗异常点 | 优化更难,局部极小 |
Welsch | 1−exp(−(1−m)22σ2)1-\exp(-\tfrac{(1-m)^2}{2\sigma^2})1−exp(−2σ2(1−m)2) | 非凸 / 光滑 | 抗大残差 | 需选尺度超参 |
9. 校准性:如何“检查”一个替代损失是否分类校准?
令 ϕ\phiϕ 为边际损失,m=Yh(X)m=Yh(X)m=Yh(X)。一个实用充分条件是:
- 若 ϕ\phiϕ 凸,在 m=0m=0m=0 可导,且
ϕ′(0)<0, \phi'(0)<0, ϕ′(0)<0,
则 ϕ\phiϕ 是分类校准的(从而 Bayes 一致)。 - 若 ϕ\phiϕ 在 000 不可导(如 hinge),检查其在 000 的次梯度是否包含负值(等价于左/右导数之一 <0<0<0)。满足则同样分类校准。
- 经典结果与更一般的判据可参见:
- Bartlett, Jordan, McAuliffe (2006), Convexity, Classification, and Risk Bounds.
- Zhang, Liu, Tao (2018), On the Rates of Convergence from Surrogate Risk Minimizers to the Bayes Optimal Classifier.
10. 额外实用建议(补充)
- 类别不平衡:使用加权损失或阈值移动(如对少数类加权)。
- 噪声标签:考虑温和梯度或非凸鲁棒损失;或用噪声建模/小损失选择(small-loss)策略。
- 概率需求:需要可解释概率时优先 Logistic(或带温度的软最大/交叉熵)。
- 大模型训练:配合正则化、早停、数据增广、余弦退火/AdamW 等优化技巧。
11. 小结
- 0-1 损失定义了“准确率意义下”的最佳分类器,但未知分布与优化不可行使其难以直接最小化。
- 替代损失提供了可求解的代理目标;多种常用 ϕ\phiϕ(Logistic / Hinge / Exponential / Square)均为分类校准,样本足够大时与 0-1 最优分类器一致。
- 在实践中根据优化特性、鲁棒性、概率需求、数据特点选择合适的损失,并结合正则化与良好优化策略,才能获得强泛化的模型。