当前位置：首页 > news >正文

【高级机器学习】 9. 代理损失函数的鲁棒性

news 2025/11/15 7:13:57

Robustness of Surrogate Loss Functions

（代理损失函数的鲁棒性）

机器学习模型的核心目标是通过最小化损失函数 (Loss Function) 来学习一个最优假设 ( h )。
然而，现实中的数据往往存在噪声（noise）与异常值（outliers），这就要求我们选择鲁棒的（robust）损失函数。
本章将介绍不同的代理损失函数（surrogate loss functions），它们对应的噪声分布假设，以及各自的鲁棒性分析。

一、Surrogate Loss Functions

我们常见的几种损失函数如下：

Least squares loss（最小二乘损失）
$\ell(X,Y,h) = (Y - h(X))^2$
Absolute loss（绝对值损失）
$\ell(X,Y,h) = |Y - h(X)|$
Cauchy loss（柯西损失）
$\ell(X,Y,h) = \log_2\left(1 + \left(\frac{Y - h(X)}{\sigma}\right)^2\right)$
Correntropy (Welsch) loss（相关熵损失）
$\ell(X,Y,h) = \left(1 - \exp\left(-\left(\frac{Y - h(X)}{\sigma}\right)^2\right)\right)$

这些函数都可作为“代理损失”（surrogate loss）用于不同类型的噪声条件下。

直觉：
平方损失对大误差（outlier）极度敏感；而 Cauchy 和 Correntropy 损失能抑制异常点的影响，使模型更鲁棒。

二、Distribution of Noise（噪声分布假设）

假设噪声为
$\epsilon = Y - h(X)$
则不同的损失函数隐含着不同的噪声模型假设：

Gaussian 分布（高斯噪声）
$p(\epsilon|X,Y,h,\beta^{-1}) = \sqrt{\frac{\beta}{2\pi}} \exp\left(-\frac{\beta\epsilon^2}{2}\right)$
Laplacian 分布（拉普拉斯噪声）
$p(\epsilon|X,Y,h,\sigma) = \frac{1}{\sqrt{2}\sigma} \exp\left(-\frac{\sqrt{2}|\epsilon|}{\sigma}\right)$
Cauchy 分布（柯西噪声）
$p(\epsilon|X,Y,h,\gamma) = \frac{1}{\pi\gamma\left(1+(\epsilon/\gamma)^2\right)}$

它们之间的区别体现在尾部厚度（tail heaviness）上：
高斯 → 拉普拉斯 → 柯西的尾部越来越“厚”，对应的鲁棒性也越来越强。

三、Laplacian Regression（最小绝对偏差回归）

假设噪声服从拉普拉斯分布：
$p(\epsilon|X,Y,h,\sigma) = \frac{1}{\sqrt{2}\sigma} \exp\left(-\frac{\sqrt{2}|\epsilon|}{\sigma}\right)$

对一个样本的似然为：
$p(y_i|x_i,h,b) = \frac{1}{\sqrt{2}\sigma}\exp\left(-\frac{\sqrt{2}|y_i - h(x_i)|}{\sigma}\right)$

整个数据集的似然为：
$\left(\frac{1}{\sqrt{2}\sigma}\right)^n \prod_{i=1}^n \exp\left(-\frac{\sqrt{2}|y_i - h(x_i)|}{\sigma}\right)$

取负对数似然后得到：
$-\ln p(S|X,h,b) = n\ln(\sqrt{2}\sigma) + \frac{\sqrt{2}}{\sigma}\sum_{i=1}^n |y_i - h(x_i)|$

→ 可见这等价于 最小化绝对误差（L1 Loss）。

四、Cauchy Regression（柯西回归）

假设噪声服从柯西分布：
$p(\epsilon|X,Y,h,\gamma) = \frac{1}{\pi\gamma\left(1 + (\epsilon/\gamma)^2\right)}$

则似然函数为：
$p(S|X,h,\gamma) = \left(\frac{1}{\pi\gamma}\right)^n \prod_{i=1}^n \frac{1}{1 + \left(\frac{y_i - h(x_i)}{\gamma}\right)^2}$

负对数似然：
$-\ln p(S|X,h,\gamma) = n\ln(\pi\gamma) + \sum_{i=1}^n \ln\left(1 + \left(\frac{y_i - h(x_i)}{\gamma}\right)^2\right)$

→ 等价于使用 Cauchy Loss：
$\ell(X,Y,h) = \ln\left(1 + \left(\frac{Y - h(X)}{\gamma}\right)^2\right)$

五、三种噪声分布对比

在这里插入图片描述

从分布曲线来看：

高斯分布（红线）：中心窄、尾巴快收敛 → 对异常值极敏感。
拉普拉斯分布（黑线）：稍厚的尾巴 → 更能容忍异常。
柯西分布（蓝线）：尾部最厚 → 对异常点影响最小。

结论：
噪声分布尾部越“厚”，对应的损失函数越鲁棒。

六、Objective Function（目标函数）

机器学习算法可以形式化为寻找最优假设的映射：
$\mathcal{A}: S \in (\mathcal{X} \times \mathcal{Y})^n \mapsto h_S \in \mathcal{H}$

目标是最小化经验风险：
$\min_{h\in H} \frac{1}{n}\sum_{i=1}^n \ell(X_i, Y_i, h)$

即我们通过优化损失函数来得到最优模型。

七、Optimality Criterion（最优性条件）

定义目标函数：
$\frac{1}{n}\sum_{i=1}^n \ell(X_i, Y_i, h)$

点 ( h ) 是最优解，当且仅当：
$\nabla f(h)^\top (h' - h) \ge 0, \quad \forall h' \in \text{domain}(f)$

若定义域无界，则最优性达成于：
$\nabla f(h) = 0$

换句话说，最优点的梯度为零。

我们也可以将其一维化：
$g (t) = f (t h)$
则
$\nabla f(th)^\top h$
若 ( h ) 是最小点，则有 ( g’(1)=0 )。

因此，最小化 ( f(h) ) 就是寻找一个使 ( g’(1)=0 ) 的 ( h )。

八、Surrogate Loss Function Robustness（代理损失函数的鲁棒性分析）

下面比较不同损失函数下 ( g’(1) ) 的形式。

(1) Least squares loss
$\ell(X,Y,h) = (Y - h(X))^2$
$\frac{1}{n}\sum_{i=1}^n 2(y_i - h(x_i))(-h(x_i))$

(2) Absolute loss
$\ell(X,Y,h) = |Y - h(X)|$
$-\frac{1}{n}\sum_{i=1}^n \frac{1}{|y_i - h(x_i)|}(y_i - h(x_i))(-h(x_i))$

(3) Cauchy loss
$\ell(X,Y,h) = \ln\left(1 + \frac{(Y - h(X))^2}{\gamma^2}\right)$
$\frac{1}{n}\sum_{i=1}^n \frac{2}{\gamma^2 + (y_i - h(x_i))^2}(y_i - h(x_i))(-h(x_i))$

(4) Correntropy (Welsch) loss
$\ell(X,Y,h) = 1 - \exp\left(-\frac{(Y - h(X))^2}{\sigma^2}\right)$
$\frac{1}{n}\sum_{i=1}^n \frac{2}{\sigma^2}\exp\left(-\frac{(y_i - h(x_i))^2}{\sigma^2}\right)(y_i - h(x_i))(-h(x_i))$

可以发现：
所有损失的导数都包含一个“核心项”：
$c_i = (y_i - h(x_i))(-h(x_i))$

而不同的损失函数，对这个项乘了不同的“权重”因子。

Least squares: 权重 = 常数 2
Absolute loss: 权重 = $1/|y_i - h(x_i)|)$
Cauchy loss: 权重 = $[\gamma^2 + (y_i - h(x_i))^2])$
Correntropy loss: 权重 = $(2/σ2⋅exp⁡((yi−h(xi))2))(2/\sigma^2 \cdot \exp((y_i - h(x_i))^2 ))$