【高级机器学习】1. Hypothesis 与 Objective Function
Hypothesis 与 Objective Function
I. Hypothesis(假设)
1. 什么是 Hypothesis?
在机器学习/深度学习中,假设(Hypothesis) 指的是我们用来近似真实任务的函数。
- 记作:
hθ(x)∈H h_\theta(x) \in \mathcal{H} hθ(x)∈H- hθ(x)h_\theta(x)hθ(x):一个具体的模型,由参数 θ\thetaθ 控制。
- H\mathcal{H}H:假设空间(Hypothesis Space),包含所有可能的模型。
2. 两个层次的 Hypothesis
- 宏观层次:模型结构(如线性回归、神经网络、Transformer…)【Hypothesis space】。
- 微观层次:具体的参数组合(每组参数就是一个具体的假设)。
因此,训练过程本质上是:在假设空间中寻找最佳假设。
II. Objective Function(目标函数)
1. 为什么需要 Objective Function?
提出 Hypothesis 后,我们需要判断:哪个假设更好?
- 答案:通过 目标函数(Objective Function) 来衡量。
- 它定义了“好”的标准。
2. 分类任务中的理想目标
给定一个分类任务,最佳分类器应该是:
h∗(x)=argminh∈HE(X,Y)∼D[ℓ(h(X),Y)]
h^*(x) = \arg \min_{h \in \mathcal{H}} \mathbb{E}_{(X,Y)\sim D} [\ell(h(X), Y)]
h∗(x)=argh∈HminE(X,Y)∼D[ℓ(h(X),Y)]
- ℓ(⋅)\ell(\cdot)ℓ(⋅):损失函数。
- DDD:数据分布(真实世界的概率分布)。
0-1 Loss(最直观的损失函数)
ℓ(h(x),y)={0,h(x)=y1,h(x)≠y
\ell(h(x), y) =
\begin{cases}
0, & h(x) = y \\
1, & h(x) \neq y
\end{cases}
ℓ(h(x),y)={0,1,h(x)=yh(x)=y
在这种定义下,最佳分类器就是分类错误率最小的分类器。
3. 问题:我们不知道真实分布 DDD
- 在理想情况,我们需要遍历“所有可能的数据点”。
- 但在现实中,我们无法直接知道 DDD。
4. 解决办法:经验风险最小化(ERM)
根据大数定律:
- 如果我们从分布 DDD 中抽取足够多的数据样本 {(X1,Y1),...,(Xn,Yn)}\{(X_1, Y_1), ..., (X_n, Y_n)\}{(X1,Y1),...,(Xn,Yn)},
- 那么经验平均会逼近真实期望:
1n∑i=1nℓ(h(Xi),Yi) →n→∞ E(X,Y)∼D[ℓ(h(X),Y)] \frac{1}{n}\sum_{i=1}^n \ell(h(X_i), Y_i) \;\;\xrightarrow[n\to\infty]{}\;\; \mathbb{E}_{(X,Y)\sim D}[\ell(h(X), Y)] n1i=1∑nℓ(h(Xi),Yi)n→∞E(X,Y)∼D[ℓ(h(X),Y)]
于是我们定义经验风险(Empirical Risk):
R^(h)=1n∑i=1nℓ(h(Xi),Yi)
\hat{R}(h) = \frac{1}{n}\sum_{i=1}^n \ell(h(X_i), Y_i)
R^(h)=n1i=1∑nℓ(h(Xi),Yi)
训练目标:
h∗=argminh∈HR^(h)
h^* = \arg \min_{h \in \mathcal{H}} \hat{R}(h)
h∗=argh∈HminR^(h)
这就是机器学习的核心思想:
用有限样本近似真实分布 → 最小化经验风险 → 找到最佳假设。
5. 实际挑战
- 0-1 Loss 不可导 → 无法直接用梯度优化。
- Objective function 可能非凸、不光滑 → 优化难度大。
- 解决办法:使用可优化的 surrogate loss(替代损失函数),如交叉熵(Cross-Entropy)、均方误差(MSE)等。
III. 总结
-
Hypothesis(假设)
- 宏观上:模型结构。
- 微观上:参数组合。
- 训练 = 在假设空间里寻找最佳假设。
-
Objective Function(目标函数)
- 衡量假设好坏的标准。
- 理想:最小化真实分布下的期望损失。
- 实际:通过样本近似(经验风险最小化)。
-
大数定律的意义
- 样本量越大,经验风险越接近真实风险。
- 这解释了为什么 大数据对深度学习至关重要。