当前位置：首页 > news >正文

从零开始学AI——12.1

news 2025/10/26 0:30:00

前言

……说我字数太多，分两部分

第十二章

本章比较理论，主要说的是凭什么相信机器学习，他为什么能给出一个好的结果：本质是研究泛化误差问题

12.1 基础知识

我们先假设有一个样本集 $=\{(x_{1},y_{1}),\dots,(x_{m},y_{m})\}$ ，其中所有样本都是独立同分布地从分布 $D\mathcal{D}$ 中采样得到的。这里每个 $x_{i}$ 属于输入空间 $X\mathcal{X}$ ，每个 $y_{i}$ 属于输出空间 $Y\mathcal{Y}$ 。在接下来的讨论中，如果没有特别说明，我们默认研究的是二分类问题。

通过机器学习算法，我们得到了一个学习器 $h$ ，它实际上是一个从输入空间到输出空间的映射，即 $h:X→Yh:\mathcal{X}\to \mathcal{Y}$ 。这个学习器的泛化误差定义为：
$E(h;\mathcal{D})=P_{x\sim \mathcal{D}}(h(x)\neq y)$
这个式子表示当输入 $x$ 服从分布 $D\mathcal{D}$ 时，学习器 $h$ 预测错误的概率。

同时，基于我们已有的样本集 $D$ ，可以计算出经验误差（也称为训练误差）：
$E^(h;D)=1m∑i=1mI(h(xi)≠yi) \hat{E}(h;\mathcal{D})=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i})$
这里 $I(⋅)\mathbb{I}(\cdot)$ 是指示函数，当括号内条件成立时取值为1，否则为0。由于样本集 $D$ 是从 $D\mathcal{D}$ 中独立同分布采样得到的，因此经验误差的期望等于泛化误差。当上下文明确时，我们可以省略误差表示中的 $D\mathcal{D}$ 。

上述内容我们应该是很熟悉的了。现在需要明确的是，我们不期望学习到的模型 $h$ 能够完全匹配宇宙中客观存在的完美真理函数 $c$ （也称概念concept）。我们只要求 $h$ 和 $c$ 之间的误差率足够小，具体来说就是要求泛化误差不超过一个预先设定的很小正值 $ϵ\epsilon$ ，即满足 $E(h)≤ϵE(h)\leq\epsilon$ 。
对于模型 $h$ 在样本集 $D$ 上的表现，如果经验误差 $E^(h;D)=0\hat{E}(h;D)=0$ ，我们就说 $h$ 与 $D$ 一致；否则称为不一致。此外，对于任意两个模型 $h_{1}$ 和 $h_{2}$ ，我们可以通过定义它们的不合度来衡量它们之间的差异：
$d(h_{1},h_{2})=P_{x\sim \mathcal{D}}(h_{1}(x)\neq h_{2}(x))$
这个不合度度量了两个模型在分布 $D\mathcal{D}$ 下产生不同预测的概率。

接下来，我们引入几个常用的不等式：

不想纠结证明的朋友可以只记结论

Jensen不等式：设 $f (x)$ 是任意凸函数，则有
$f(E(x))≤E(f(x))f(\mathbb{E}(x))\leq \mathbb{E}(f(x))$
对于一个凸函数 $f (x)$ ，找一个特殊点 $μ=E(x)\mu=\mathbb{E}(x)$ 。根据凸函数的定义，在点 $μ\mu$ 处存在一条支撑线（支撑超平面），使得对于所有 $x$ ，都有：
$\ge f(\mu) + c(x - \mu)$
其中 $c$ 是支撑线在 $μ\mu$ 处的斜率。对上述不等式两边同时取数学期望：
$E[f(x)]≥E[f(μ)+c(x−μ)]\mathbb{E}[f(x)] \ge \mathbb{E}[f(\mu) + c(x - \mu)]$
将右边展开：

第一项 $f(μ)f(\mu)$ 是常数，其期望就是它本身： $E[f(μ)]=f(μ)=f(E[x])\mathbb{E}[f(\mu)]=f(\mu)=f(\mathbb{E}[x])$
第二项 $c(x−μ)c(x-\mu)$ 可以分解为：
$E[c(x−μ)]=cE[x−μ]=c(E[x]−μ)=c(μ−μ)=0\mathbb{E}[c(x - \mu)] = c\mathbb{E}[x - \mu] = c(\mathbb{E}[x] - \mu) = c(\mu - \mu) = 0$

因此不等式右边简化为 $f(E[x])f(\mathbb{E}[x])$ ，从而得到：
$E[f(x)]≥f(E[x])\mathbb{E}[f(x)] \ge f(\mathbb{E}[x])$
证毕。
Hoeffding不等式：设 $x1,x2,…,xmx_{1},x_{2},\dots,x_{m}$ 为 $m$ 个独立随机变量，且满足 $xi∈[0,1]x_{i}\in[0,1]$ ，则对于任意 $ϵ>0\epsilon>0$ ，有
$P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2m\epsilon^2)$
同时
$P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2\exp(-2m\epsilon^2)$

首先考虑第一个不等式。令 $Sm=∑i=1mxiS_{m}=\sum_{i=1}^{m}x_{i}$ ，将不等式改写为：
$P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \exp(-2m\epsilon^2)$

对不等式左边进行如下变形：
$\begin{align} &P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \\ &=P\left(S_{m} - \mathbb{E}[S_m] \ge m\epsilon\right) \\ &=P\left(e^{s(S_m - \mathbb{E}[S_m])} \ge e^{sm\epsilon}\right) \\ &\leq \frac{\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]}{e^{sm\epsilon}} \end{align}$
其中：

第二步引入了任意正数 $s > 0$ ，这是为了后续应用马尔可夫不等式做准备。
第三步应用了马尔可夫不等式：对于非负随机变量 $e^{s(S_m - \mathbb{E}[S_m])}$ ，有 $\ge a) \le \frac{\mathbb{E}[Y]}{a}$ 。

接下来处理分子部分 $E[es(Sm−E[Sm])]\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]$ 。设 $zi=xi−E[xi]z_i = x_i - \mathbb{E}[x_i]$ ，则 $Sm−E[Sm]=∑i=1mziS_m - \mathbb{E}[S_m] = \sum_{i=1}^m z_i$ 。由于 $x_i$ 相互独立， $z_i$ 也相互独立，因此：
$\begin{align} \mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}] &= \mathbb{E}[e^{s \sum_{i=1}^m z_i}] \\ &= \prod_{i=1}^m \mathbb{E}[e^{s z_i}] \end{align}$

为了给出 $E[eszi]\mathbb{E}[e^{s z_i}]$ 的上界，我们使用Hoeffding引理：
若随机变量 $Z$ 满足 $E[Z]=0\mathbb{E}[Z]=0$ 且 $\in [a, b]$ ，则对于任意 $s > 0$ ，有：
$\mathbb{E}[e^{sZ}] \le \exp\left(\frac{s^2(b-a)^2}{8}\right)$
对于 $zi=xi−E[xi]z_i = x_i - \mathbb{E}[x_i]$ ，由于 $xi∈[0,1]x_i \in [0,1]$ ，可得 $zi∈[−E[xi],1−E[xi]]z_i \in [-\mathbb{E}[x_i], 1-\mathbb{E}[x_i]]$ ，区间长度为 $1$ ，且 $E[zi]=0\mathbb{E}[z_i]=0$ 。因此，应用Hoeffding引理得到：
$\mathbb{E}[e^{s z_i}] \le \exp\left(\frac{s^2}{8}\right)$

将其代回分子部分：
$\prod_{i=1}^m \mathbb{E}[e^{s z_i}] \le \prod_{i=1}^m \exp\left(\frac{s^2}{8}\right) = \exp\left(\frac{m s^2}{8}\right)$

于是不等式变为：
$P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \frac{\exp\left(\frac{m s^2}{8}\right)}{e^{s m \epsilon}} = \exp\left(\frac{m s^2}{8} - s m \epsilon\right)$

由于该不等式对所有 $s > 0$ 成立，我们选择 $s$ 使得右侧指数最小。对 $s28−sϵ\frac{s^2}{8} - s \epsilon$ 关于 $s$ 求导并令导数为零，得到最优 $s=4ϵs=4\epsilon$ 。将其代入，得到最小上界：
$\exp\left(\frac{m (4\epsilon)^2}{8} - 4\epsilon m \epsilon\right) = \exp(-2 m \epsilon^2)$
因此：
$P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2 m \epsilon^2)$

证明第二个不等式：

对于绝对值形式的不等式，可以将其拆分为两个事件：
$\left\{ \left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon \right\} = \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon \right\} \cup \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \le -\epsilon \right\}$

由概率的并集不等式 $\cup B) \le P(A) + P(B)$ ，有：
$P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) + P\left(\frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] - \frac{1}{m}\sum_{i=1}^m x_i \ge \epsilon\right)$

第一项的上界已证明为 $exp⁡(−2mϵ2)\exp(-2 m \epsilon^2)$ 。对于第二项，可以通过变量替换 $xi→−xix_i \to -x_i$ ，由于 $xi∈[0,1]x_i \in [0,1]$ 的性质和独立性保持不变，其概率上界同样为 $exp⁡(−2mϵ2)\exp(-2 m \epsilon^2)$ 。因此：
$P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2 \exp(-2 m \epsilon^2)$
证毕。
McDiarmid不等式：

设 $x1,x2,…,xmx_1, x_2, \ldots, x_m$ 是 $m$ 个独立的随机变量，若函数 $f$ 满足：对于任意 $\leqslant i \leqslant m$ 和任意的 $x1,…,xm,xi′x_1, \ldots, x_m, x_i'$ ，都有
$\left| f(x_1, \ldots, x_m) - f(x_1, \ldots, x_{i-1}, x_i', x_{i+1}, \ldots, x_m) \right| \leqslant c_i,$
这意味着当只改变第 $i$ 个输入变量时，函数值的变化幅度不超过 $c_i$ 。那么对于任意 $ϵ>0\epsilon > 0$ ，有
$\left( f(x_1, \ldots, x_m) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \geqslant \epsilon \right) \leqslant \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right),$
以及
$\left( \left| f\left( x_1, \ldots, x_m \right) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \right| \geqslant \epsilon \right) \leqslant 2 \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right).$

为了简化书写，记 $(x_1, \ldots, x_m)$ ，并定义 $\mathbb{E}[f(X)]$ 。我们引入条件期望的记号： $Ei[⋅]\mathbb{E}_i[\cdot]$ 表示对变量 ${xi,xi+1,…,xm}\{x_i, x_{i+1}, \ldots, x_m\}$ 取期望，而将 ${x1,…,xi−1}\{x_1, \ldots, x_{i-1}\}$ 视为固定值。定义
$V_i = \mathbb{E}[f(X) | x_1, \ldots, x_i],$
这是一个仅依赖于前 $i$ 个变量的函数。特别地：

$Vm=E[f(X)∣x1,…,xm]=f(X)V_m = \mathbb{E}[f(X) | x_1, \ldots, x_m] = f(X)$ ，
$V0=E[f(X)]V_0 = \mathbb{E}[f(X)]$ 。

于是， $Z$ 可以表示为：
$V_m - V_0 = \sum_{i=1}^m (V_i - V_{i-1}).$
记 $Y_i = V_i - V_{i-1}$ ，则 $\sum_{i=1}^m Y_i$ 。接下来，我们采用切诺夫界的方法：对于任意 $λ>0\lambda > 0$ ，有
$\geqslant \epsilon) \leqslant e^{-\lambda \epsilon} \mathbb{E}[e^{\lambda Z}] = e^{-\lambda \epsilon} \mathbb{E}\left[\exp\left(\lambda \sum_{i=1}^m Y_i\right)\right].$

切诺夫界方法：对于随机变量 $Z$ ，通过引入参数 $λ>0\lambda > 0$ ，利用马尔可夫不等式可得：
$\geqslant \epsilon) = P(e^{\lambda Z} \geqslant e^{\lambda \epsilon}) \leqslant \frac{\mathbb{E}[e^{\lambda Z}]}{e^{\lambda \epsilon}}.$

接下来计算 $E[eλZ]\mathbb{E}[e^{\lambda Z}]$ 。根据塔定律（条件期望的迭代性质），可以逐步对变量取条件期望。首先：
$\mathbb{E}[e^{\lambda \sum_{i=1}^m Y_i}] = \mathbb{E}\left[ \mathbb{E}\left[ e^{\lambda \sum_{i=1}^m Y_i} | x_1, \ldots, x_{m-1} \right] \right].$
在内层条件期望中， $x1,…,xm−1x_1, \ldots, x_{m-1}$ 是固定的，因此 $Y1,…,Ym−1Y_1, \ldots, Y_{m-1}$ 是常数，可以提出：
$\mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] = e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right].$
将其代回外层期望，得到：
$\mathbb{E}[e^{\lambda Z}] = \mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] \right].$
重复这一过程，逐步对 $Ym−1,Ym−2,…,Y1Y_{m-1}, Y_{m-2}, \ldots, Y_1$ 取条件期望，最终只需考虑：
$\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right].$

为了对上式进行界估计，我们使用Hoeffding引理。首先验证 $Y_i$ 的条件：

零均值性：
$\mathbb{E}[Y_i | x_1, \ldots, x_{i-1}] = \mathbb{E}[V_i | x_1, \ldots, x_{i-1}] - V_{i-1} = V_{i-1} - V_{i-1} = 0.$
有界性：
定义辅助函数：
$g(x_i') = \mathbb{E}[f(x_1, \ldots, x_{i-1}, x_i', \ldots, x_m) | x_1, \ldots, x_{i-1}],$
则 $V_i = g(x_i)$ ， $Vi−1=E[g(xi′)]V_{i-1} = \mathbb{E}[g(x_i')]$ ，因此：
$Y_i = g(x_i) - \mathbb{E}[g(x_i')].$
由最开始 $f$ 的性质 $∣f(…)−f(…)∣≤ci|f(\ldots) - f(\ldots)| \le c_i$ ， $g$ 的值域满足：
$\sup_{x_i', x_i''} |g(x_i') - g(x_i'')| \leqslant c_i.$
因此， $Y_i$ 的取值区间宽度不超过 $c_i$ 。

根据Hoeffding引理，有：
$\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right] \leqslant \exp\left( \frac{\lambda^2 c_i^2}{8} \right).$
将其代入 $E[eλZ]\mathbb{E}[e^{\lambda Z}]$ 的表达式，得到：
$\mathbb{E}[e^{\lambda Z}] \leqslant \prod_{i=1}^m \exp\left( \frac{\lambda^2 c_i^2}{8} \right) = \exp\left( \frac{\lambda^2 \sum_{i=1}^m c_i^2}{8} \right).$
最后，通过优化 $λ\lambda$ 来最小化右式。令导数为零，解得：
$\lambda = \frac{4\epsilon}{\sum_{i=1}^m c_i^2},$
此时指数部分取得最小值：
$-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}.$
因此，第一条不等式得证。第二条不等式可以通过类似 Hoeffding 不等式的对称性证明，此处省略。

12.2 PAC学习

回到我们的主线，我们需要解决的问题是学习器的泛化性能分析。为此，提出了可能近似正确(Probably Approximately Correct, PAC)学习框架，旨在为这一问题建立严格的数学理论基础。

正如前文所述，在这个框架下，我们对学习器的要求包含两个关键方面：

近似正确：不要求学习器 $h$ 达到零错误率，但要求其错误率能够控制在可接受的范围内。具体来说，对于给定的误差阈值 $ϵ>0\epsilon > 0$ ，学习器的错误率应当满足 $\leq \epsilon$ 。这里的 $ϵ\epsilon$ 反映了我们对模型精度的要求。
可能：不要求学习过程每次都成功，但要求成功的概率足够高。具体而言，对于给定的置信参数 $δ>0\delta > 0$ ，学习过程失败的概率不超过 $δ\delta$ 。换句话说，我们以至少 $1−δ1-\delta$ 的概率保证学习器满足近似正确性条件。 $δ\delta$ 的设定反映了我们对学习过程可靠性的要求。

PAC学习理论主要研究在给定学习要求的情况下，学习算法需要满足的条件，特别是所需的训练数据量。我们沿用之前的符号定义：输入空间 $X\mathcal{X}$ 和输出空间 $Y\mathcal{Y}$ ，数据分布 $D\mathcal{D}$ ，目标概念 $c$ 。
接着引入两个概念：

假设空间 $H\mathcal{H}$ ：表示在特定学习算法 $L\mathcal{L}$ 作用下可能产生的所有假设 $h$ 的集合。这里需要特别注意，这个 $H\mathcal{H}$ 是与算法相关的，不同于学习任务本身的理论假设空间。
概念类 $C\mathcal{C}$ ：表示我们希望学习的所有可能目标概念的集合。如果目标概念 $c$ 包含在假设空间 $H\mathcal{H}$ 中（即 $c∈Hc\in \mathcal{H}$ ），那么我们称学习算法 $L\mathcal{L}$ 是可分的或者一致的；反之则称为不可分的或不一致的。

接下来给出四个定义：
PAC辨识：对于任意的 $0<ϵ,δ<10<\epsilon,\delta<1$ ，针对所有可能的目标概念 $c∈Cc\in \mathcal{C}$ 和所有可能的数据分布 $D\mathcal{D}$ ，若存在一个学习算法 $L\mathcal{L}$ ，使得该算法输出的假设 $h∈Hh\in \mathcal{H}$ 满足以下概率不等式：
$P(E(h)\leq\epsilon)\geq 1-\delta$
其中 $E (h)$ 表示假设 $h$ 的泛化误差，那么称学习算法 $L\mathcal{L}$ 能够从假设空间 $H\mathcal{H}$ 中PAC辨识概念类 $C\mathcal{C}$ 。这个定义将机器学习算法需要满足的可靠性要求进行了严格的数学表述。

需要特别注意的是，虽然PAC辨识提供了一个理想化的理论保证，但它没有考虑实现这个保证所需的样本数量。如果达到该保证需要无限多个训练样本，那么这个理论结果就失去了实际应用价值。

PAC可学习：设 $m$ 表示从分布 $D\mathcal{D}$ 中独立同分布采样得到的训练样本数量，给定参数 $0<ϵ,δ<10<\epsilon,\delta<1$ 。如果对于所有可能的分布 $D\mathcal{D}$ ，都存在一个学习算法 $L\mathcal{L}$ 和一个多项式函数 $poly(⋅,⋅,⋅,⋅)\text{poly}(\cdot,\cdot,\cdot,\cdot)$ ，使得当样本量 $m$ 满足：
$\geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))$
时， $L\mathcal{L}$ 都能从假设空间 $H\mathcal{H}$ 中PAC辨识概念类 $C\mathcal{C}$ ，那么就称概念类 $C\mathcal{C}$ 相对于假设空间 $H\mathcal{H}$ 是PAC可学习的，简称为概念类 $C\mathcal{C}$ 是PAC可学习的。

这个定义的核心在于对样本的多项式约束，具体解释如下：

$1/ϵ1/\epsilon$ ：要求的精度越高（ $ϵ\epsilon$ 越小），需要的样本量越大
$1/δ1/\delta$ ：置信度要求越高（ $δ\delta$ 越小），需要的样本量越大
$size(x)\text{size}(\boldsymbol{x})$ ：输入样本的表示复杂度
$size(c)\text{size}(c)$ ：目标概念的描述复杂度

多项式增长意味着样本需求量的上界是可控的，这与指数级增长形成鲜明对比，后者在实际中往往是不可行的。

在保证样本效率的基础上，我们还需要考虑计算效率，这就引出了下一个定义：

PAC学习算法：如果一个学习算法 $L\mathcal{L}$ 不仅使概念类 $C\mathcal{C}$ 是PAC可学习的，而且 $L\mathcal{L}$ 本身的运行时间也是多项式函数 $poly(1/ϵ,1/δ,size(x),size(c))\text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))$ ，那么就称概念类 $C\mathcal{C}$ 是高效PAC可学习的，并称 $L\mathcal{L}$ 为概念类 $C\mathcal{C}$ 的PAC学习算法。

这个定义在PAC可学习的基础上增加了对算法时间复杂度的约束，其理解方式与PAC可学习类似。
最后，PAC可学习给出了样本量的一个下界，而我们还希望知道这个下界的最小值，这就是：

样本复杂度：对于PAC学习算法 $L\mathcal{L}$ ，若存在多项式函数 $poly(⋅)\text{poly}(\cdot)$ 使得当样本量 $m$ 满足 $\geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))$ 时， $L\mathcal{L}$ 能实现PAC学习，则称满足该条件的最小 $m$ 值为该算法的样本复杂度。
这个指标反映了算法达到PAC学习要求所需的最小样本数量。

在PAC学习中，假设空间 $H\mathcal{H}$ 的复杂度是一个重要因素：

当 $H=C\mathcal{H}=\mathcal{C}$ 时（即假设空间与概念类完全一致），称为恰PAC学习，但这种情况通常难以实现。
更常见的情形是 $H≠C\mathcal{H}\neq\mathcal{C}$ ，此时 $H\mathcal{H}$ 的规模会影响学习难度：
- $H\mathcal{H}$ 越大，包含目标概念 $c$ 的可能性越高，但找到正确的 $c$ 也越困难。
- 若 $∣H∣|\mathcal{H}|$ 有限，称 $H\mathcal{H}$ 为有限假设空间；否则称为无限假设空间。

12.3 有限假设空间

我们先考虑最直观且简单的情形：模型假设空间是有限的，并且算法 $L\mathcal{L}$ 是可分的（即存在至少一个假设 $\in \mathcal{H}$ 在训练集上完全正确）。这种情况下，PAC学习的结论会如何？

由于 $L\mathcal{L}$ 可分且 $H\mathcal{H}$ 有限，我们可以通过遍历排除法逐步筛选假设：首先丢弃所有与训练集 $L\mathcal{L}$ 不一致的假设，剩下的假设称为一致假设。但一致性只是必要条件，PAC学习还要求这些假设的泛化误差必须足够小。根据上一节的知识：对任意一个一致假设 $h$ ，其泛化误差 $\leq \epsilon$ 的概率至少为 $1−δ1-\delta$ ，才能满足PAC可辨识性。

证明过程如下：
假设从 $H\mathcal{H}$ 中随机选取一个坏假设 $h_{bad}$ ，其泛化误差满足 $E(hbad)>ϵE(h_{bad}) > \epsilon$ 。对于任意来自分布 $D\mathcal{D}$ 的样本 $(x,y)(\mathbf{x}, y)$ ，该假设预测正确的概率为：
$P(h_{bad}(\mathbf{x}) = y) = 1 - P(h_{bad}(\mathbf{x}) \neq y) = 1 - E(h_{bad}) < 1 - \epsilon$
这意味着，坏假设 $h_{bad}$ 在单次预测中不犯错（即“蒙混过关”）的概率严格小于 $\epsilon$ 。如果 $h_{bad}$ 要成为一致假设，它必须对所有 $m$ 个训练样本都预测正确，这一事件的概率不超过 $\epsilon)^m$ 。

接下来考虑假设空间 $H\mathcal{H}$ 的整体性质。虽然无法直接计算抽到坏假设的概率，但可以通过联合界得到失败概率的上界：
$P_{\text{fail}} \leq |\mathcal{H}| \cdot (1 - \epsilon)^m \leq |\mathcal{H}| \cdot e^{-\epsilon m}$
其中最后一步利用了不等式 $\leq e^{-x}$ （ $x > 0$ ）。这表明，算法 $L\mathcal{L}$ 输出坏假设的概率（即学习失败的概率）不超过 $∣H∣e−ϵm|\mathcal{H}| e^{-\epsilon m}$ 。为了满足PAC要求，我们强制该概率小于 $δ\delta$ ：
$|\mathcal{H}| e^{-\epsilon m} \leq \delta$
解得所需的最小样本量 $m$ 为：
$\geq \frac{1}{\epsilon} \left( \ln|\mathcal{H}| + \ln\frac{1}{\delta} \right)$
结论：只要样本数量 $m$ 满足上述条件，有限假设空间 $H\mathcal{H}$ 在可分情形下一定是PAC可辨识且可学习的。

以上结论成立的条件中有一个明显的可分情形假设，那么如果数据不可分时该如何处理？在这种情况下， $E^(h)≠0,∀h∈H\hat{E}(h)\neq {0} ,\forall h\in H$ ，也就是说对于假设空间中的任何假设，其在训练集上都无法达到完美表现。

这时一个自然的思路是放宽要求：我们只需要保证假设空间中在训练集上表现最好的那个假设 $h$ ，其泛化误差 $E(h)<ϵE(h)<\epsilon$ 的概率达到 $1−δ1-\delta$ 即可。

首先，这个证明需要用到之前提到的霍夫丁不等式：
$P(∣E^(h)−E(h)∣>ϵ)≤2e−2mϵ2 P(|\hat{E}(h) - E(h)| > \epsilon) \le 2e^{-2m\epsilon^2}$

接下来我们继续使用联合界。学习失败的事件定义为至少存在一个 $\in \mathcal{H}$ 使得训练误差和泛化误差的偏差超过 $ϵ\epsilon$ ：
$Pfail=P(∃h∈H,∣E^(h)−E(h)∣>ϵ)≤∑h∈HP(∣E^(h)−E(h)∣>ϵ)≤∑h∈H2e−2mϵ2=2∣H∣e−2mϵ2 \begin{align} P_{fail} &= P(\exists h\in H,|\hat{E}(h)-E(h)|>\epsilon)\\ &\leq \sum_{h\in H}P(|\hat{E}(h)-E(h)|>\epsilon) \\ &\leq \sum_{h\in H} 2e^{-2m\epsilon^2} \\ &=2|\mathcal{H}|e^{-2m\epsilon^{2}} \end{align}$

我们希望这个失败概率不超过 $δ\delta$ ，于是得到不等式 $∣H∣⋅2e−2mϵ2≤δ|\mathcal{H}| \cdot 2e^{-2m\epsilon^2} \le \delta$ ，解这个不等式可以得到：
$\ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)$

这个结果表明即使在不可分情形下，PAC学习仍然是可能的。因此我们定义：

不可知 PAC 可学习：设 $m$ 表示从分布 $D\mathcal{D}$ 中独立同分布采样的样本数量， $\epsilon, \delta < 1$ 。如果对于所有分布 $D\mathcal{D}$ ，存在学习算法 $L\mathcal{L}$ 和多项式函数 $poly(⋅,⋅,⋅,⋅)\text{poly}(\cdot, \cdot, \cdot, \cdot)$ ，使得对于任何 $\ge \text{poly}(1/\epsilon, 1/\delta, \text{size}(x), \text{size}(c))$ ， $L\mathcal{L}$ 能从假设空间 $H\mathcal{H}$ 中输出满足以下条件的假设 $h$ ：
$P\left(E(h) - \min_{h' \in \mathcal{H}} E(h') \le \epsilon\right) \ge 1 - \delta$
则称假设空间 $H\mathcal{H}$ 是不可知 PAC 可学习的。

最终我们得到了不可知 PAC 学习的样本复杂度界。将其与之前"可分"情况的结果进行比较：

可分情形: $\ge \frac{1}{\epsilon} \left(\ln|\mathcal{H}| + \ln\frac{1}{\delta}\right)$
不可分情形: $\ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)$