当前位置：首页 > news >正文

【高级机器学习】0. Machine Learning 介绍

news 2025/11/2 8:39:17

什么是Machine Learning？

非正式的：从数据中做出预测

正式形式：构建一个统计模型，该模型是抽取数据的底层分布

当模型学得好时：
$P_θ(X) ≈ P(X)$
这意味着你的模型不仅能拟合已有数据，还捕捉到了数据生成机制。
换句话说，模型不仅知道“数据长什么样”，还知道“数据为什么会长这样”。

机器学习的组成部分

输入训练数据： $S = {(X 1 , Y 1 ), . . . , (X n , Y n )}$
输入预定义的假设类: $H = {h1, h2, ...}$
目标函数和优化方法共同构成一个映射：
$A:(X ✖ Y)^n->H$
输出的假设： $h_S$
整体的学习算法是一个映射： $A: S ∈ (X ✖ Y)^n -> h_S ∈ H$

最优分类器（Best Classifier）

对于一个给定的数据点 $(X, Y)$ ，某个假设（分类函数） $h$ 的分类误差可由 0-1 损失函数（0-1 loss function） 来衡量：

$1_{\{Y \neq \text{sign}(h(X))\}} = \begin{cases} 0, & Y = \text{sign}(h(X)) \\\\ 1, & Y \neq \text{sign}(h(X)) \end{cases}$
- 当预测正确时（ $\text{sign}(h(X))$ ），损失为 0
- 当预测错误时（ $\neq \text{sign}(h(X))$ ），损失为 1

最优分类器可以数学地定义为：

$\arg \min_h \frac{1}{|D|} \sum_{i \in D} 1_{\{Y_i \neq \text{sign}(h(X_i))\}}$

其中：
- $D$ ：表示任务中 所有可能数据点（all possible data points） 的索引集合；
- $∣ D ∣$ ：表示集合 $D$ 的大小，即样本总数；
- $1{Yi≠sign(h(Xi))}1_{\{Y_i \neq \text{sign}(h(X_i))\}}$ ：是指示函数，当预测错误时取 1，否则取 0。

大数定律（The Law of Large Numbers）

LLN（大数定律） 描述了当我们将同一个实验重复进行大量次时，其结果的统计规律。

换句话说：
独立重复试验的平均结果将收敛到期望值（expected value）。

$\frac{1}{|D|} \sum_{i \in D} 1_{\{Y_i \neq \text{sign}(h(X_i))\}} \;\xrightarrow[|D| \to \infty]{}\; \mathbb{E}\left[ 1_{\{Y \neq \text{sign}(h(X))\}} \right]$

最优分类器（Best Classifier）的问题

最优分类器可以数学地定义为：

$\arg \min_h \; \mathbb{E}\left[ 1_{\{Y \neq \text{sign}(h(X))\}} \right]$

存在的一些问题：

数据分布未知
我们无法直接计算期望 $E[⋅]\mathbb{E}[\cdot]$ 。
目标函数不可微、非凸
由于 0-1 损失函数不光滑，优化困难。
假设空间选择问题
我们应该选择哪种形式的假设函数 $h$ 来拟合数据？

目标函数（Objective Function）

对于一个分类任务，我们希望找到一个分类器，使得以下期望值最小：

$\mathbb{E}\left[ 1_{\{Y \neq \text{sign}(h(X))\}} \right]$

我们并不知道数据的真实分布，但幸运的是，我们拥有一些从该分布中抽取的样本（即训练样本）：

$\{ (X_1, Y_1), \ldots, (X_n, Y_n) \}$

根据 大数定律（Law of Large Numbers），我们可以用样本均值来近似期望：

$\frac{1}{n} \sum_{i=1}^{n} 1_{\{Y_i \neq \text{sign}(h(X_i))\}} \quad \text{(unbiased estimator)}$

这个无偏估计量（unbiased estimator）可以用来估计：

$\mathbb{E}\left[ 1_{\{Y \neq \text{sign}(h(X))\}} \right]$

总结：
由于无法直接计算真实分布下的期望误差，我们使用训练样本的平均误差来近似它。
这就是经验风险（Empirical Risk）的思想。

优化方法（Optimisation Method）

我们希望找到一个假设（hypothesis） $h$ ，
使得目标函数（objective function）最小化，即：

$\arg \min_h \frac{1}{n} \sum_{i=1}^{n} 1_{\{Y_i \neq \text{sign}(h(X_i))\}}$

在实际中，我们通常不会在所有可能的函数上搜索，
而是从预定义的假设空间（hypothesis class） $H$ 中选择一个最优的 $h$ ：

$\arg \min_{h \in H} \frac{1}{n} \sum_{i=1}^{n} 1_{\{Y_i \neq \text{sign}(h(X_i))\}}$

总结：

这个过程称为 经验风险最小化（Empirical Risk Minimization, ERM）。
由于 0-1 损失函数难以优化，实际中我们会使用可微的替代损失（如 hinge loss、logistic loss 等）来求解。

凸优化（Convex Optimisation）

从预定义的假设空间（hypothesis class） $H$ 中选择一个假设 $h$ ，
以最小化以下目标函数：

$\arg \min_{h \in H} \frac{1}{n} \sum_{i=1}^{n} \ell(X_i, Y_i, h)$

其中，损失函数 $ℓ\ell$ 是用于替代 0-1 损失的 凸函数（convex surrogate loss function）。