当前位置: 首页 > news >正文

【高级机器学习】 2. Loss Functions(损失函数)

Loss Functions(损失函数)

承接前一节“Hypothesis 与 Objective Function”。回顾:

  • Hypothesis:模型形式 + 一组具体参数。
  • 最佳分类器(理想):在真实分布 DDD 下令 0-1 损失的期望最小。
  • 现实困难DDD 未知;0-1 损失不可导、非凸,难以优化;还要选择合适的假设类。
    本节介绍为何与如何用替代损失(surrogate loss)解决这些问题。

1. 最佳分类器(Best Classifier)

设二分类标签 Y∈{−1,+1}Y\in\{-1,+1\}Y{1,+1},判别函数/打分函数 h:X→Rh:\mathcal{X}\to\mathbb{R}h:XR,预测为 sign(h(X))\mathrm{sign}(h(X))sign(h(X))
0-1 损失
ℓ01(h(X),Y)=1{Y≠sign(h(X))}. \ell_{01}(h(X),Y)=\mathbf{1}\{Y\neq \mathrm{sign}(h(X))\}. 01(h(X),Y)=1{Y=sign(h(X))}.

理想目标(最小化期望风险):
h⋆  =  arg⁡min⁡h∈H  E(X,Y)∼D[ℓ01(h(X),Y)]. h^\star \;=\; \arg\min_{h\in\mathcal{H}}\; \mathbb{E}_{(X,Y)\sim D}\big[\ell_{01}(h(X),Y)\big]. h=arghHminE(X,Y)D[01(h(X),Y)].

现实中的三大难题

  1. 未知分布DDD 不可得,无法直接计算期望;
  2. 优化困难ℓ01\ell_{01}01 非凸、不可导,梯度方法无从下手;
  3. 假设选择H\mathcal{H}H(模型/参数化)如何选,既要足够表达力,又要可训练、能泛化。

2. 经验风险与替代损失(Surrogate Loss)

有样本 S={(Xi,Yi)}i=1n∼i.i.d.DS=\{(X_i,Y_i)\}_{i=1}^n \overset{\text{i.i.d.}}{\sim} DS={(Xi,Yi)}i=1ni.i.d.D。大数定律给出
1n∑i=1nf(Xi,Yi)  →n→∞  E[f(X,Y)]. \frac{1}{n}\sum_{i=1}^n f(X_i,Y_i)\;\xrightarrow[n\to\infty]{}\; \mathbb{E}[f(X,Y)]. n1i=1nf(Xi,Yi)nE[f(X,Y)].
故用经验风险近似期望风险。但直接用 ℓ01\ell_{01}01 仍难以优化,于是选一个可优化的替代损失 ϕ\phiϕ,通常写为边际形式
m  =  Y h(X),ℓ(X,Y,h)  =  ϕ(m), m \;=\; Y\,h(X),\qquad \ell(X,Y,h)\;=\;\phi(m), m=Yh(X),(X,Y,h)=ϕ(m),
将原问题替换为
hn  =  arg⁡min⁡h∈H  1n∑i=1nϕ(Yi h(Xi))⏟经验 surrogate 风险. h_n \;=\; \arg\min_{h\in\mathcal{H}}\; \underbrace{\frac{1}{n}\sum_{i=1}^n \phi\big(Y_i\,h(X_i)\big)}_{\text{经验 surrogate 风险}}. hn=arghHmin经验 surrogate 风险n1i=1nϕ(Yih(Xi)).

多数优化算法(SGD/Adam 等)都依赖可导次梯度信息;因此选择凸且(次)可导ϕ\phiϕ,能把训练变成“好解”的数值优化问题。


3. 常见替代损失(Popular Surrogate Losses)

约定:下列配方均用边际 m=Yh(X)m=Yh(X)m=Yh(X) 书写;注意负号方向(鼓励正边际、惩罚负边际)。

  • Hinge loss(SVM)
    ϕhinge(m)=max⁡{0, 1−m}. \phi_{\text{hinge}}(m)=\max\{0,\,1-m\}. ϕhinge(m)=max{0,1m}.

    • 非光滑m=1m=1m=1 处不可导);
    • 促使“间隔mmm 至少大于 1。
  • Logistic loss(逻辑回归 / 分类交叉熵的二分类形式)
    ϕlog(m)=log⁡(1+e−m). \phi_{\text{log}}(m)=\log\big(1+e^{-m}\big). ϕlog(m)=log(1+em).

    • 光滑
    • 概率可校准:σ(h(x))=11+e−h(x)≈P(Y=+1∣X=x)\sigma(h(x))=\frac{1}{1+e^{-h(x)}}\approx \mathbb{P}(Y=+1\mid X=x)σ(h(x))=1+eh(x)1P(Y=+1X=x)
  • Exponential loss(AdaBoost)
    ϕexp⁡(m)=e−m. \phi_{\exp}(m)=e^{-m}. ϕexp(m)=em.

    • 光滑
    • 对大幅度的负边际惩罚非常重(对噪声较敏感)。
  • Least Squares(平方损失)(标签取 {−1,+1}\{-1,+1\}{1,+1}
    ϕsq(m)=(1−m)2或(Y−h(X))2. \phi_{\text{sq}}(m)=(1-m)^2\quad\text{或}\quad (Y-h(X))^2. ϕsq(m)=(1m)2(Yh(X))2.

    • 光滑
    • 回归到 E[Y∣X]\mathbb{E}[Y\mid X]E[YX],再以符号作分类(亦称 Fisher-consistent)。

非凸但鲁棒的替代损失(抗异常点/噪声,优化更难):

  • Cauchy loss(以边际写法的一种常见形态)
    ϕcauchy(m)=log⁡ ⁣(1+(1−m)2) \phi_{\text{cauchy}}(m)=\log\!\Big(1+\big(1-m\big)^2\Big) ϕcauchy(m)=log(1+(1m)2)
    (常见的回归形态为 log⁡ ⁣(1+r2c2)\log\!\big(1+\tfrac{r^2}{c^2}\big)log(1+c2r2),这里 r=1−mr=1-mr=1m)。
  • Correntropy / Welsch loss
    ϕwelsch(m)=1−exp⁡ ⁣(−(1−m)22σ2). \phi_{\text{welsch}}(m)=1-\exp\!\Big(-\frac{(1-m)^2}{2\sigma^2}\Big). ϕwelsch(m)=1exp(2σ2(1m)2).
    二者非凸光滑,对远离决策面的噪声点“降权”。

4. 与 0-1 损失的关系:分类校准(Classification Calibration)

问题 A:替代损失会不会改变“最终分类器”(准确率意义下)?
答案:若 ϕ\phiϕ分类校准(classification-calibrated)的,那么在样本足够大时,用 ϕ\phiϕ 得到的分类器与最小化 0-1 损失得到的一致(即Bayes 一致/一致收敛的性质)。

  • 直观理解:用 ϕ\phiϕ 最小化的“条件风险”
    Rϕ(h∣X=x)  =  η(x) ϕ(h(x))+(1−η(x)) ϕ(−h(x)), \mathcal{R}_\phi(h\mid X=x)\;=\;\eta(x)\,\phi(h(x)) + (1-\eta(x))\,\phi(-h(x)), Rϕ(hX=x)=η(x)ϕ(h(x))+(1η(x))ϕ(h(x)),
    其中 η(x)=P(Y=+1∣X=x)\eta(x)=\mathbb{P}(Y=+1\mid X=x)η(x)=P(Y=+1X=x)
    若对每个 xxx,最优 h(x)h(x)h(x)符号η(x)−12\eta(x)-\tfrac12η(x)21 同号,则由 ϕ\phiϕ 训练出的分类器与 Bayes 分类器
    hBayes(x)=sign(η(x)−12) h_{\text{Bayes}}(x)=\mathrm{sign}\big(\eta(x)-\tfrac12\big) hBayes(x)=sign(η(x)21)
    一致(样本充分时)。

  • 常用结论(实用判别法,ϕ\phiϕ的边际损失):

    • ϕ\phiϕm=0m=0m=0 可导
      ϕ′(0)  <  0, \phi'(0)\;<\;0, ϕ(0)<0,
      ϕ\phiϕ分类校准(充分条件)。
    • ϕ\phiϕ000 不可导(如 hinge),但在 0 处存在负的次梯度(左/右导数之一 <0<0<0),同样是分类校准。
    • Logistic、Exponential、Hinge、Squared(在 {−1,+1}\{-1,+1\}{1,+1} 标签下)等流行替代损失均为分类校准

一致性(Asymptotics):设
hc=arg⁡min⁡hE[ϕ(Yh(X))],hn=arg⁡min⁡h1n∑i=1nϕ(Yih(Xi)). h_c=\arg\min_h \mathbb{E}[\phi(Yh(X))],\qquad h_n=\arg\min_h \frac1n\sum_{i=1}^n \phi(Y_i h(X_i)). hc=arghminE[ϕ(Yh(X))],hn=arghminn1i=1nϕ(Yih(Xi)).
ϕ\phiϕ 分类校准且满足常规条件(如 H\mathcal{H}H 适当、复杂度受控),则
E ⁣[1{Y≠sign(hn(X))}]→n→∞  E ⁣[1{Y≠sign(hc(X))}]. \mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_n(X))\}\right] \xrightarrow[n\to\infty]{}\; \mathbb{E}\!\left[\mathbf{1}\{Y\neq \mathrm{sign}(h_c(X))\}\right]. E[1{Y=sign(hn(X))}]nE[1{Y=sign(hc(X))}].


5. 不同替代损失之间有何差异?

从以下维度权衡与选择:

  1. 凸性/光滑性
  • 凸 + 光滑(Logistic / Exponential / Square):优化稳定,适合一阶法。
  • 凸 + 非光滑(Hinge):可用次梯度/坐标法,常有稀疏支持向量的几何解释。
  • 非凸(Cauchy / Welsch):更鲁棒但可能有局部极小,需更谨慎的优化策略。
  1. 梯度形状与鲁棒性
  • Exponential 对难例/噪声梯度过大,易过拟合噪声;
  • Logistic 梯度饱和更温和,实践最常用;
  • Hinge 对“边界外”样本梯度为 0(足够大正边际不再惩罚),强调最大间隔
  • Square 在二分类场景更像回归,受离群值影响可能偏大;
  • Cauchy/Welsch 对大残差降权,抗噪声更好。
  1. 概率可解释性 / 校准
  • Logistic 天然对应 Bernoulli 对数似然,输出 σ(h(x))\sigma(h(x))σ(h(x)) 可近似类别概率,概率校准较好;
  • Exponential 与 AdaBoost 的加性模型匹配;
  • Hinge 更偏几何间隔最大化,非概率视角;
  • Square 可恢复 E[Y∣X]\mathbb{E}[Y\mid X]E[YX](再阈值分类)。
  1. 泛化与正则化
  • 任意替代损失都需与正则化(ℓ2/ℓ1\ell_2/\ell_12/1、早停、数据增广等)配合控制复杂度,保障泛化。

6. “能否平滑且凸地逼近 0-1 损失?”

  • 目标:找既“像 0-1”又(次)可导ϕ\phiϕ
  • 答案:Logistic、Exponential、Square 等都可视为对 0-1 的上界/近似(或其指示函数的平滑替代),在边际 mmm 附近施加单调递减的惩罚。
  • 收益:凸目标通常只有一个全局极小点,局部极小即全局极小,配合随机优化可有效训练大模型。

7. 训练目标(以 Surrogate 风险为目标的 ERM)

机器学习算法本质是一个从样本到假设的映射
A:  S∈(X×Y)n  ↦  hS∈H, \mathcal{A}:\; S\in(\mathcal{X}\times\mathcal{Y})^n \;\mapsto\; h_S\in\mathcal{H}, A:S(X×Y)nhSH,
其中
hS  =  arg⁡min⁡h∈H1n∑i=1nℓ(Xi,Yi,h)  =  arg⁡min⁡h∈H1n∑i=1nϕ ⁣(Yih(Xi)). h_S\;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \ell(X_i,Y_i,h) \;=\;\arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi\!\big(Y_i h(X_i)\big). hS=arghHminn1i=1n(Xi,Yi,h)=arghHminn1i=1nϕ(Yih(Xi)).
配合正则化(如 λ∥h∥2\lambda\|h\|^2λh2)得到结构化风险最小化(SRM):
arg⁡min⁡h∈H1n∑i=1nϕ(Yih(Xi))+λ Ω(h). \arg\min_{h\in\mathcal{H}} \frac1n\sum_{i=1}^n \phi(Y_i h(X_i))+\lambda\,\Omega(h). arghHminn1i=1nϕ(Yih(Xi))+λΩ(h).


8. 实操速查表

损失形式(边际 m=Yh(X)m=Yh(X)m=Yh(X)凸性/光滑性典型优点典型注意点
Hingemax⁡(0,1−m)\max(0,1-m)max(0,1m)凸 / 非光滑最大间隔,稀疏支持向量m>1m>1m>1 无梯度,概率不可解释
Logisticlog⁡(1+e−m)\log(1+e^{-m})log(1+em)凸 / 光滑概率友好,优化稳定极端噪声时仍受影响
Exponentiale−me^{-m}em凸 / 光滑与 Boosting 匹配,间隔放大对噪声过敏
Square(1−m)2(1-m)^2(1m)2凸 / 光滑实现简单,闭式子问题多受异常值影响偏大
Cauchylog⁡(1+(1−m)2)\log(1+(1-m)^2)log(1+(1m)2)非凸 / 光滑抗异常点优化更难,局部极小
Welsch1−exp⁡(−(1−m)22σ2)1-\exp(-\tfrac{(1-m)^2}{2\sigma^2})1exp(2σ2(1m)2)非凸 / 光滑抗大残差需选尺度超参

9. 校准性:如何“检查”一个替代损失是否分类校准?

ϕ\phiϕ 为边际损失,m=Yh(X)m=Yh(X)m=Yh(X)。一个实用充分条件是:

  • ϕ\phiϕ ,在 m=0m=0m=0 可导,且
    ϕ′(0)<0, \phi'(0)<0, ϕ(0)<0,
    ϕ\phiϕ分类校准的(从而 Bayes 一致)。
  • ϕ\phiϕ000 不可导(如 hinge),检查其在 000次梯度是否包含负值(等价于左/右导数之一 <0<0<0)。满足则同样分类校准。
  • 经典结果与更一般的判据可参见:
    • Bartlett, Jordan, McAuliffe (2006), Convexity, Classification, and Risk Bounds.
    • Zhang, Liu, Tao (2018), On the Rates of Convergence from Surrogate Risk Minimizers to the Bayes Optimal Classifier.

10. 额外实用建议(补充)

  • 类别不平衡:使用加权损失阈值移动(如对少数类加权)。
  • 噪声标签:考虑温和梯度非凸鲁棒损失;或用噪声建模/小损失选择(small-loss)策略。
  • 概率需求:需要可解释概率时优先 Logistic(或带温度的软最大/交叉熵)。
  • 大模型训练:配合正则化、早停、数据增广、余弦退火/AdamW 等优化技巧。

11. 小结

  • 0-1 损失定义了“准确率意义下”的最佳分类器,但未知分布优化不可行使其难以直接最小化。
  • 替代损失提供了可求解的代理目标;多种常用 ϕ\phiϕ(Logistic / Hinge / Exponential / Square)均为分类校准,样本足够大时与 0-1 最优分类器一致
  • 在实践中根据优化特性、鲁棒性、概率需求、数据特点选择合适的损失,并结合正则化与良好优化策略,才能获得强泛化的模型。
http://www.dtcms.com/a/353928.html

相关文章:

  • 一、快速掌握Python 中的文件操作知识体系
  • mysql zip包安装步骤
  • 2025(秋)中国国际健康产业(成都)博览会:探索健康未来辉煌
  • TCP 并发服务器构建
  • 场外期权能做套利吗?
  • 二叉树的工程实践与高频问题(续):从LeetCode真题到系统设计的深度剖析
  • centos7 安装指定版本的fastfds
  • 了解CDC(变更数据捕获)如何革新数据集成方式
  • Linux 系统调优工具与实践指南
  • 个人博客系统系统---测试报告
  • HarmonyOS布局实战:用声明式UI构建自适应电商卡片
  • 【源码分析】@vue/runtime-dom/src/apiCustomElement.ts 解析
  • 重磅升级,Pixso 2.0赋能HarmonyOS应用设计与开发
  • 安卓11 12系统修改定制化_____如何修改固件 实现给指定内置的应用无障碍权限
  • Sybase 安装与备份
  • 【c++】超好玩游戏
  • 一、CSS3 新增选择器(非 “属性”,但为核心基础)
  • day082-初识ElasticStack
  • 路由基础(二):路由表和FIB表
  • Ansible文件管理与Jinja2模板
  • Linux查看SFTP登录不上的问题以及解决
  • 【Simulink专题】Simulink模型:MIL单元测试
  • 宝塔发布ktg-mes
  • vue cli 没使用的图片会被打包吗
  • 2025年08月27日Github流行趋势
  • 怎么更新 cargo.exe ?(Rust 工具链)
  • etcd-基本工作原理及部署
  • react + G2(v4) 应用
  • 【C++游记】模板升级
  • 飞腾 D2000 八核处理器板卡深度解析:全国产化硬件方案与丰富扩展能力