当前位置：首页 > news >正文

【高级机器学习】 2. Loss Functions（损失函数）

news 2025/8/28 10:32:05

Loss Functions（损失函数）

承接前一节“Hypothesis 与 Objective Function”。回顾：

Hypothesis：模型形式 + 一组具体参数。
最佳分类器（理想）：在真实分布 $D$ 下令 0-1 损失的期望最小。
现实困难： $D$ 未知；0-1 损失不可导、非凸，难以优化；还要选择合适的假设类。
本节介绍为何与如何用替代损失(surrogate loss)解决这些问题。

1. 最佳分类器（Best Classifier）

设二分类标签 $Y∈{−1,+1}Y\in\{-1,+1\}$ ，判别函数/打分函数 $h:X→Rh:\mathcal{X}\to\mathbb{R}$ ，预测为 $sign(h(X))\mathrm{sign}(h(X))$ 。
0-1 损失：
$\ell_{01}(h(X),Y)=\mathbf{1}\{Y\neq \mathrm{sign}(h(X))\}.$

理想目标（最小化期望风险）：
$h^\star \;=\; \arg\min_{h\in\mathcal{H}}\; \mathbb{E}_{(X,Y)\sim D}\big[\ell_{01}(h(X),Y)\big].$

现实中的三大难题

未知分布： $D$ 不可得，无法直接计算期望；
优化困难： $ℓ01\ell_{01}$ 非凸、不可导，梯度方法无从下手；
假设选择： $H\mathcal{H}$ （模型/参数化）如何选，既要足够表达力，又要可训练、能泛化。

2. 经验风险与替代损失（Surrogate Loss）

有样本 $S={(Xi,Yi)}i=1n∼i.i.d.DS=\{(X_i,Y_i)\}_{i=1}^n \overset{\text{i.i.d.}}{\sim} D$ 。大数定律给出
$\frac{1}{n}\sum_{i=1}^n f(X_i,Y_i)\;\xrightarrow[n\to\infty]{}\; \mathbb{E}[f(X,Y)].$
故用经验风险近似期望风险。但直接用 $ℓ01\ell_{01}$ 仍难以优化，于是选一个可优化的替代损失 $ϕ\phi$ ，通常写为边际形式
$\;=\; Y\,h(X),\qquad \ell(X,Y,h)\;=\;\phi(m),$
将原问题替换为
$h_n \;=\; \arg\min_{h\in\mathcal{H}}\; \underbrace{\frac{1}{n}\sum_{i=1}^n \phi\big(Y_i\,h(X_i)\big)}_{\text{经验 surrogate 风险}}.$

多数优化算法（SGD/Adam 等）都依赖可导或次梯度信息；因此选择凸且（次）可导的 $ϕ\phi$ ，能把训练变成“好解”的数值优化问题。

3. 常见替代损失（Popular Surrogate Losses）

约定：下列配方均用边际 $m = Yh (X)$ 书写；注意负号方向（鼓励正边际、惩罚负边际）。

Hinge loss（SVM）
$\phi_{\text{hinge}}(m)=\max\{0,\,1-m\}.$
- 凸、非光滑（ $m = 1$ 处不可导）；
- 促使“间隔” $m$ 至少大于 1。
Logistic loss（逻辑回归 / 分类交叉熵的二分类形式）
$\phi_{\text{log}}(m)=\log\big(1+e^{-m}\big).$
- 凸、光滑；
- 概率可校准： $σ(h(x))=11+e−h(x)≈P(Y=+1∣X=x)\sigma(h(x))=\frac{1}{1+e^{-h(x)}}\approx \mathbb{P}(Y=+1\mid X=x)$ 。
Exponential loss（AdaBoost）
$\phi_{\exp}(m)=e^{-m}.$
- 凸、光滑；
- 对大幅度的负边际惩罚非常重（对噪声较敏感）。
Least Squares（平方损失）（标签取 ${-1,+1\}$ ）
$\phi_{\text{sq}}(m)=(1-m)^2\quad\text{或}\quad (Y-h(X))^2.$
- 凸、光滑；
- 回归到 $E[Y∣X]\mathbb{E}[Y\mid X]$ ，再以符号作分类（亦称 Fisher-consistent）。

非凸但鲁棒的替代损失（抗异常点/噪声，优化更难）：

Cauchy loss（以边际写法的一种常见形态）
$\phi_{\text{cauchy}}(m)=\log\!\Big(1+\big(1-m\big)^2\Big)$
（常见的回归形态为 $⁣(1+r2c2)\log\!\big(1+\tfrac{r^2}{c^2}\big)$ ，这里 $r = 1 - m$ ）。
Correntropy / Welsch loss
$\phi_{\text{welsch}}(m)=1-\exp\!\Big(-\frac{(1-m)^2}{2\sigma^2}\Big).$
二者非凸、光滑，对远离决策面的噪声点“降权”。

4. 与 0-1 损失的关系：分类校准（Classification Calibration）

问题 A：替代损失会不会改变“最终分类器”（准确率意义下）？
答案：若 $ϕ\phi$ 是分类校准（classification-calibrated）的，那么在样本足够大时，用 $ϕ\phi$ 得到的分类器与最小化 0-1 损失得到的一致（即Bayes 一致/一致收敛的性质）。

直观理解：用 $ϕ\phi$ 最小化的“条件风险”
$\mathcal{R}_\phi(h\mid X=x)\;=\;\eta(x)\,\phi(h(x)) + (1-\eta(x))\,\phi(-h(x)),$
其中 $η(x)=P(Y=+1∣X=x)\eta(x)=\mathbb{P}(Y=+1\mid X=x)$ 。
若对每个 $x$ ，最优 $h (x)$ 的符号与 $η(x)−12\eta(x)-\tfrac12$ 同号，则由 $ϕ\phi$ 训练出的分类器与 Bayes 分类器
$h_{\text{Bayes}}(x)=\mathrm{sign}\big(\eta(x)-\tfrac12\big)$
一致（样本充分时）。
常用结论（实用判别法， $ϕ\phi$ 为凸的边际损失）：
- 若 $ϕ\phi$ 在 $m = 0$ 可导且
  $\phi'(0)\;<\;0,$
  则 $ϕ\phi$ 为分类校准（充分条件）。
- 若 $ϕ\phi$ 在 $0$ 不可导（如 hinge），但在 0 处存在负的次梯度（左/右导数之一 $< 0$ ），同样是分类校准。
- Logistic、Exponential、Hinge、Squared（在 ${-1,+1\}$ 标签下）等流行替代损失均为分类校准。

一致性（Asymptotics）：设
$h_c=\arg\min_h \mathbb{E}[\phi(Yh(X))],\qquad h_n=\arg\min_h \frac1n\sum_{i=1}^n \phi(Y_i h(X_i)).$
若 $ϕ\phi$ 分类校准且满足常规条件（如 $H\mathcal{H}$ 适当、复杂度受控），则
$\mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_n(X))\}\right] \xrightarrow[n\to\infty]{}\; \mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_c(X))\}\right].$

5. 不同替代损失之间有何差异？

从以下维度权衡与选择：

凸性/光滑性

凸 + 光滑（Logistic / Exponential / Square）：优化稳定，适合一阶法。
凸 + 非光滑（Hinge）：可用次梯度/坐标法，常有稀疏支持向量的几何解释。
非凸（Cauchy / Welsch）：更鲁棒但可能有局部极小，需更谨慎的优化策略。

梯度形状与鲁棒性

Exponential 对难例/噪声梯度过大，易过拟合噪声；
Logistic 梯度饱和更温和，实践最常用；
Hinge 对“边界外”样本梯度为 0（足够大正边际不再惩罚），强调最大间隔；
Square 在二分类场景更像回归，受离群值影响可能偏大；
Cauchy/Welsch 对大残差降权，抗噪声更好。

概率可解释性 / 校准

Logistic 天然对应 Bernoulli 对数似然，输出 $σ(h(x))\sigma(h(x))$ 可近似类别概率，概率校准较好；
Exponential 与 AdaBoost 的加性模型匹配；
Hinge 更偏几何间隔最大化，非概率视角；
Square 可恢复 $E[Y∣X]\mathbb{E}[Y\mid X]$ （再阈值分类）。

泛化与正则化

任意替代损失都需与正则化（ $ℓ2/ℓ1\ell_2/\ell_1$ 、早停、数据增广等）配合控制复杂度，保障泛化。

6. “能否平滑且凸地逼近 0-1 损失？”

目标：找既“像 0-1”又凸、（次）可导的 $ϕ\phi$ 。
答案：Logistic、Exponential、Square 等都可视为对 0-1 的上界/近似（或其指示函数的平滑替代），在边际 $m$ 附近施加单调递减的惩罚。
收益：凸目标通常只有一个全局极小点，局部极小即全局极小，配合随机优化可有效训练大模型。

7. 训练目标（以 Surrogate 风险为目标的 ERM）

机器学习算法本质是一个从样本到假设的映射
$\mathcal{A}:\; S\in(\mathcal{X}\times\mathcal{Y})^n \;\mapsto\; h_S\in\mathcal{H},$
其中
$h_S\;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \ell(X_i,Y_i,h) \;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi\!\big(Y_i h(X_i)\big).$
配合正则化（如 $λ∥h∥2\lambda\|h\|^2$ ）得到结构化风险最小化（SRM）：
$\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi(Y_i h(X_i))+\lambda\,\Omega(h).$

8. 实操速查表

损失	形式（边际 $m = Yh (X)$ ）	凸性/光滑性	典型优点	典型注意点
Hinge	$max⁡(0,1−m)\max(0,1-m)$	凸 / 非光滑	最大间隔，稀疏支持向量	在 $m > 1$ 无梯度，概率不可解释
Logistic	$log(1+e^{-m})$	凸 / 光滑	概率友好，优化稳定	极端噪声时仍受影响
Exponential	$e^{-m}$	凸 / 光滑	与 Boosting 匹配，间隔放大	对噪声过敏
Square	$1-m)^2$	凸 / 光滑	实现简单，闭式子问题多	受异常值影响偏大
Cauchy	$log(1+(1-m)^2)$	非凸 / 光滑	抗异常点	优化更难，局部极小
Welsch	$1−exp⁡(−(1−m)22σ2)1-\exp(-\tfrac{(1-m)^2}{2\sigma^2})$	非凸 / 光滑	抗大残差	需选尺度超参

9. 校准性：如何“检查”一个替代损失是否分类校准？

令 $ϕ\phi$ 为边际损失， $m = Yh (X)$ 。一个实用充分条件是：

若 $ϕ\phi$ 凸，在 $m = 0$ 可导，且
$\phi'(0)<0,$
则 $ϕ\phi$ 是分类校准的（从而 Bayes 一致）。
若 $ϕ\phi$ 在 $0$ 不可导（如 hinge），检查其在 $0$ 的次梯度是否包含负值（等价于左/右导数之一 $< 0$ ）。满足则同样分类校准。
经典结果与更一般的判据可参见：
- Bartlett, Jordan, McAuliffe (2006), Convexity, Classification, and Risk Bounds.
- Zhang, Liu, Tao (2018), On the Rates of Convergence from Surrogate Risk Minimizers to the Bayes Optimal Classifier.

10. 额外实用建议（补充）

类别不平衡：使用加权损失或阈值移动（如对少数类加权）。
噪声标签：考虑温和梯度或非凸鲁棒损失；或用噪声建模/小损失选择（small-loss）策略。
概率需求：需要可解释概率时优先 Logistic（或带温度的软最大/交叉熵）。
大模型训练：配合正则化、早停、数据增广、余弦退火/AdamW 等优化技巧。

11. 小结

0-1 损失定义了“准确率意义下”的最佳分类器，但未知分布与优化不可行使其难以直接最小化。
替代损失提供了可求解的代理目标；多种常用 $ϕ\phi$ （Logistic / Hinge / Exponential / Square）均为分类校准，样本足够大时与 0-1 最优分类器一致。
在实践中根据优化特性、鲁棒性、概率需求、数据特点选择合适的损失，并结合正则化与良好优化策略，才能获得强泛化的模型。