当前位置：首页 > news >正文

从零开始学AI——12.2

news 2025/10/25 6:09:32

前言

上半部分在上一篇

12.4 VC维

上一节我们讨论了有限假设空间的情况，现在将假设空间扩展到无限维的情形。考虑一个最简单的二分类任务，通常使用超平面将样本空间划分为两部分，每个超平面对应一个假设 $h$ 。这样的假设有多少个呢？显然存在无限多个，即 $∣H∣=∞|\mathcal{H}|=\infty$ 。根据上一节的推导公式（无论是否可分），这意味着需要无限多的训练样本，但这与实际情况不符。因此可以得出结论：对于无限维假设空间，上一节得到的边界公式不再适用。

为了处理无限假设空间的问题，VC维理论提出了新的思路：给定 $m$ 个数据点时，我们不关注能完美分类这些点的具体假设数量，而是研究这些假设能产生的不同划分结果的总数。为此需要先引入以下关键概念：

增长函数 $ΠH(m)\Pi_{\mathcal{H}}(m)$ 的定义
对于任意正整数 $m$ ，假设空间 $H\mathcal{H}$ 的增长函数定义为：
$ΠH(m)=max⁡{x1,…,xm}⊂X∣{(h(x1),…,h(xm))∣h∈H}∣\Pi_{\mathcal{H}}(m) = \max_{\{x_1, \dots, x_m\} \subset \mathcal{X}} |\{(h(x_1), \dots, h(x_m)) | h \in \mathcal{H}\}|$

这个定义可以分两步理解：

首先固定一组 $m$ 个样本点 ${x_1,...,x_m\}$ ，让假设空间 $H\mathcal{H}$ 中的所有假设 $h$ 对这组样本进行预测，得到所有可能的输出组合 $h(x_1),...,h(x_m))$ ，这些输出组合构成一个集合，计算该集合的大小（即不同预测结果的数量）。
然后考虑所有可能的 $m$ 个样本点的组合，对每个样本组合重复上述过程，最终取所有结果中的最大值作为 $ΠH(m)\Pi_{\mathcal{H}}(m)$ 的值。

定理12.2我不打算证明，有想法的同学可以参照书上的注释找原文证明。

在此之上，我们可以定义打散：称假设空间 $H\mathcal{H}$ 能够打散一个包含 $m$ 个样本点的集合 $\subset \mathcal{X}$ ，当且仅当对于 $D$ 中样本的所有可能的 $2^m$ 种标签分配方式，都存在至少一个假设 $\in \mathcal{H}$ 能够精确实现该标签组合。这意味着 $H\mathcal{H}$ 在集合 $D$ 上的表达能力达到了最大可能，即 $ΠH(m)=2m\Pi_{\mathcal{H}}(m) = 2^m$ 。

而对于假设空间 $H\mathcal{H}$ 能够打散的最大样本集的大小，我们就称为VC维：
$VC(\mathcal{H}) = \max\{m:\Pi_{\mathcal{H}}(m)=2^{m}\}$
比如如果一个 $H\mathcal{H}$ 的VC维是 $d$ ，那么意味着存在这么一个样本集，其个数为 $d$ ，可以被 $H\mathcal{H}$ 打散。至此我们有了足够的定义，现在就来考虑最终的问题：PAC学习，为此我们还得有一个引理。
Sauer引理
对于一个VC维为 $d$ 的假设空间 $H\mathcal{H}$ 和任意大小为 $m$ 的点集 $D$ ，增长函数满足：
$ΠH(m)≤∑i=0d(mi)\Pi_{\mathcal{H}}(m) \le \sum_{i=0}^{d} \binom{m}{i}$

证明过程：
采用数学归纳法，我们考虑以下构造：
设 $\{x_1, x_2, \dots, x_{m-1}\}$ 为去掉最后一个样本的点集。定义 $H∣D\mathcal{H}|_D$ 为假设空间 $H\mathcal{H}$ 在 $D$ 上产生的所有可能标签组合的集合，即：
$H∣D={(h(x1),h(x2),…,h(xm))∣h∈H}\mathcal{H}|_D = \{(h(x_1), h(x_2), \dots, h(x_m)) \mid h \in \mathcal{H}\}$

对于 $H∣D′\mathcal{H}|_{D'}$ 中的任意标签组合 $(y_1, \dots, y_{m-1})$ ，考察其在 $H∣D\mathcal{H}|_D$ 中的扩展情况。具体来说，我们需要确定 $y^{'}$ 在 $H∣D\mathcal{H}|_D$ 中可能对应的完整标签组合。这有两种可能情形：

单次出现：仅存在 $(y1,…,ym−1,+1)(y_1, \dots, y_{m-1}, +1)$ 或 $(y1,…,ym−1,−1)(y_1, \dots, y_{m-1}, -1)$ 中的一个
两次出现：同时存在 $(y1,…,ym−1,+1)(y_1, \dots, y_{m-1}, +1)$ 和 $(y1,…,ym−1,−1)(y_1, \dots, y_{m-1}, -1)$

定义子集 $HD′∣D\mathcal{H}_{D'|D}$ ，它包含所有在 $H∣D′\mathcal{H}|_{D'}$ 中能扩展出两种可能的标签组合：
$HD′∣D={(y1,…,ym−1)∈H∣D′∣∃h,h′∈H,(h(xi)=h′(xi)=yi)i<m∧h(xm)≠h′(xm)}\mathcal{H}_{D'|D} = \{(y_1, \dots, y_{m-1}) \in \mathcal{H}|_{D'} \mid \exists h, h' \in \mathcal{H}, (h(x_i)=h'(x_i)=y_i)_{i<m} \wedge h(x_m) \neq h'(x_m) \}$

由此可以得到基数关系：
$∣H∣D∣=∣H∣D′∣+∣HD′∣D∣|\mathcal{H}_{|_D}| = |\mathcal{H}_{|_{D'}}| + |\mathcal{H}_{D'|D}|$
这是因为：

$∣H∣D′∣|\mathcal{H}_{|_{D'}}|$ 计数所有可能的 $y^{'}$
$∣HD′∣D∣|\mathcal{H}_{D'|D}|$ 额外计数那些能产生两种扩展的 $y^{'}$ 对应的第二种扩展

现在我们需要对等式右边的两项分别使用归纳假设。

第一项：
$∣H∣D′∣|\mathcal{H}_{|_{D'}}|$ 表示假设空间 $H\mathcal{H}$ 在 $m - 1$ 个样本点 $D^{'}$ 上的限制，即所有可能的标签组合数。根据归纳假设，可以得到：
$∣H∣D′∣≤∑i=0d(m−1i)|\mathcal{H}|_{D'}| \le \sum_{i=0}^{d} \binom{m-1}{i}$

第二项：
令 $Q$ 表示能被 $HD′∣D\mathcal{H}_{D'|D}$ 打散的集合。根据 $HD′∣D\mathcal{H}_{D'|D}$ 的定义可知， $Q∪{xm}Q\cup\{x_m\}$ 必然能被 $H∣D\mathcal{H}|_D$ 打散。由于 $H\mathcal{H}$ 的VC维为 $d$ ，因此 $HD′∣D\mathcal{H}_{D'|D}$ 的VC维最多为 $d - 1$ 。于是可以得到：
$∣HD′∣D∣≤∑i=0d−1(m−1i)|\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d-1} \binom{m-1}{i}$
这个上界比第一项少了一项，对应着VC维减少1带来的影响。

最后我们将这个结果应用到原始等式中，可以得到：
$∣H∣D∣=∣H∣D′∣+∣HD′∣D∣≤∑i=0d(m−1i)+∑i=0d−1(m−1i)|\mathcal{H}|_D| = |\mathcal{H}|_{D'}| + |\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i}$

现在让我们详细展开右边两个组合数求和项的合并过程：

$∑i=0d(m−1i)+∑i=0d−1(m−1i)=[(m−10)+∑i=1d(m−1i)]+[∑i=1d(m−1i−1)]=(m−10)+∑i=1d((m−1i)+(m−1i−1))=(m−10)+∑i=1d(mi)=(m0)+∑i=1d(mi)=∑i=0d(mi)\begin{aligned} \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i} &= \left[ \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m-1}{i} \right] + \left[ \sum_{i=1}^{d} \binom{m-1}{i-1} \right] \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \left( \binom{m-1}{i} + \binom{m-1}{i-1} \right) \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \binom{m}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \sum_{i=0}^{d} \binom{m}{i} \end{aligned}$
引理得证。
由该引理我们可以得到增长函数的一个上界：
$\Pi_{\mathcal{H}}(m)\leq \left( \frac{em}{d} \right)^{d}$
现在我们可以回到熟悉的PAC可学习框架上。我们需要确保"学习失败"的概率足够小，具体来说，这个概率应该小于我们能够容忍的风险阈值 $δ\delta$ 。根据定理12.2（没证明那个），我们可以将失败概率的上界设为 $δ\delta$ ：

$\Pi_{\mathcal{H}}(2m) \exp\left(-\frac{m\epsilon^2}{8}\right) = \delta$

在前面的推导中我们已经知道增长函数满足 $ΠH(2m)≤(e⋅2md)d\Pi_{\mathcal{H}}(2m) \le \left(\frac{e \cdot 2m}{d}\right)^d$ 这个上界。将这个上界代入上式，可以得到：

$\left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right) \le \delta$

为了求出 $ϵ\epsilon$ 的表达式，我们需要对这个不等式进行求解。最终可以得到 $ϵ\epsilon$ 的下界：

$ϵ≥8dln⁡(2emd)+8ln⁡(4δ)m\epsilon \ge \sqrt{\frac{8d \ln\left(\frac{2em}{d}\right) + 8\ln\left(\frac{4}{\delta}\right)}{m}}$
基于上述工具，我们可以完成最后一个命题的证明：对于任何VC维有限的假设空间 $H\mathcal{H}$ ，只要采用经验风险最小化(ERM)算法，就能构成一个满足PAC要求的学习算法。

具体说来，我们需要验证：当假设空间 $H\mathcal{H}$ 的VC维有限时，采用ERM原则的学习算法 $L\mathcal{L}$ 确实满足PAC可学习性。根据PAC学习的基本定义，这意味着对于任意给定的精度参数 $ϵ>0\epsilon > 0$ 和置信参数 $δ∈(0,1)\delta \in (0,1)$ ，都存在一个样本量阈值 $mH(ϵ,δ)m_{\mathcal{H}}(\epsilon,\delta)$ ，使得当训练样本量 $\geq m_{\mathcal{H}}(\epsilon,\delta)$ 时，算法 $L\mathcal{L}$ 从任意分布 $D\mathcal{D}$ 中抽取样本集 $S$ 后输出的假设 $h=L(S)h=\mathcal{L}(S)$ ，能以至少 $1−δ1-\delta$ 的概率满足：
$\leq \min_{h'\in\mathcal{H}}E(h')+\epsilon$

设 $h=arg⁡min⁡h′∈HE^(h′)h = \arg\min_{h'\in\mathcal{H}}\hat{E}(h')$ 为ERM算法输出的经验风险最小化假设， $\arg\min_{h'\in\mathcal{H}}E(h')$ 为整个假设空间中真实风险最小的理想假设。我们需要证明的是：
$\leq \epsilon) \geq 1-\delta$

首先将风险差分解为三个部分：
$E(h)−E(g)=[E(h)−E^(h)]+[E^(h)−E^(g)]+[E^(g)−E(g)]E(h)-E(g) = [E(h)-\hat{E}(h)] + [\hat{E}(h)-\hat{E}(g)] + [\hat{E}(g)-E(g)]$
根据ERM的定义可知 $E^(h)≤E^(g)\hat{E}(h) \leq \hat{E}(g)$ ，因此中间项非正，于是有：
$E(h)−E(g)≤[E(h)−E^(h)]−[E(g)−E^(g)]E(h)-E(g) \leq [E(h)-\hat{E}(h)] - [E(g)-\hat{E}(g)]$

我们需要证明以高概率这两个偏差项都控制在 $ϵ/2\epsilon/2$ 以内。为此定义两个事件并应用联合界：

固定假设 $g$ 的偏差控制：
由于 $g$ 是固定假设（不依赖样本选择），根据Hoeffding不等式可得：
$P(∣E^(g)−E(g)∣>ϵ/2)≤2exp⁡(−mϵ2/2)P(|\hat{E}(g)-E(g)|>\epsilon/2) \leq 2\exp(-m\epsilon^2/2)$
令其不超过 $δ/2\delta/2$ ，则事件 $A1:∣E(g)−E^(g)∣≤ϵ/2A_1: |E(g)-\hat{E}(g)| \leq \epsilon/2$ 以至少 $1−δ/21-\delta/2$ 的概率成立。
一致收敛性控制：
对于ERM输出的 $h$ （依赖样本选择），需要VC泛化界（定理12.3）：
$P(sup⁡h′∈H∣E(h′)−E^(h′)∣>ϵ/2)≤4ΠH(2m)exp⁡(−mϵ2/32)P\left(\sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|>\epsilon/2\right) \leq 4\Pi_{\mathcal{H}}(2m)\exp(-m\epsilon^2/32)$
令其不超过 $δ/2\delta/2$ ，则事件 $A2:sup⁡h′∈H∣E(h′)−E^(h′)∣≤ϵ/2A_2: \sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|\leq\epsilon/2$ 以至少 $1−δ/21-\delta/2$ 的概率成立。

由联合界可知：
$P(A1∩A2)≥1−(P(A1c)+P(A2c))≥1−δP(A_1\cap A_2) \geq 1-(P(A_1^c)+P(A_2^c)) \geq 1-\delta$

当 $A_1$ 和 $A_2$ 同时成立时：
$E(h)−E(g)≤∣E(h)−E^(h)∣+∣E^(g)−E(g)∣≤ϵ/2+ϵ/2=ϵ\begin{aligned} E(h)-E(g) &\leq |E(h)-\hat{E}(h)| + |\hat{E}(g)-E(g)| \\ &\leq \epsilon/2 + \epsilon/2 = \epsilon \end{aligned}$
这一结论以至少 $1−δ1-\delta$ 的概率成立。

12.5 Rademacher复杂度

VC维只关注是否存在一个大小为 $d$ 的集合能被假设空间 $H\mathcal{H}$ 完全打散，而完全不考虑这个特定集合在实际数据分布中出现的可能性。这种与数据分布无关的最坏情况度量方式，虽然能够提供理论上的保证，但往往会导致给出的泛化误差上界过于宽松（即过于"悲观"）。为了克服这一局限性，Rademacher复杂度被提出作为更精细的度量工具。

Rademacher复杂度的基本思想发生了重要转变：不再像VC维那样统计假设空间能产生的标签组合数量，而是直接评估假设空间对随机噪声的拟合能力。具体来说，如果一个假设空间能够非常完美地拟合纯粹的随机噪声，那么它在真实数据上就很可能存在严重的过拟合风险。

给定一个固定的训练数据集 $\{x_1, x_2, \dots, x_m\}$ ，我们首先完全忽略这些数据点原本的真实标签 $y_i$ 。然后为每个数据点 $x_i$ 独立地生成一个完全随机的噪声标签，称为Rademacher随机变量 $σi\sigma_i$ ，其定义为：
$0.5\sigma_i = \begin{cases} +1 & \text{概率为 } 0.5\\ -1 & \text{概率为 } 0.5 \end{cases}$
这样就得到了一个长度为 $m$ 的随机噪声向量 $σ=(σ1,σ2,…,σm)\boldsymbol{\sigma} = (\sigma_1, \sigma_2, \dots, \sigma_m)$ 。

接下来，我们需要度量函数空间 $F\mathcal{F}$ （即假设空间）中任意函数 $\in \mathcal{F}$ 对随机生成的标签 $σ=(σ1,...,σm)\boldsymbol{\sigma}=(\sigma_1,...,\sigma_m)$ 的拟合程度。具体来说，对于每个函数 $f$ ，我们通过计算其预测值向量 $f(x_1),...,f(x_m))$ 与噪声向量 $σ\boldsymbol{\sigma}$ 的内积来量化它们的相关性：

$\sum_{i=1}^{m} \sigma_i f(x_i)$

这个求和结果反映了函数输出与随机噪声的匹配程度：值越大表明函数 $f$ 对噪声 $σ\boldsymbol{\sigma}$ 的拟合能力越强，意味着假设空间 $F\mathcal{F}$ 更容易过拟合带噪声的数据。为了评估整个函数空间的噪声拟合能力，我们需要找到所有函数中最优的拟合情况，因此对于给定的噪声向量 $σ\boldsymbol{\sigma}$ ，定义函数空间 $F\mathcal{F}$ 在样本集 $S=\{x_1,...,x_m\}$ 上的噪声拟合能力为：

$\sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i)$

由于噪声向量 $σ\boldsymbol{\sigma}$ 是随机生成的（共有 $2^m$ 种可能的取值），为了获得稳定的度量，我们需要对所有可能的噪声配置取期望。这就引出了经验Rademacher复杂度的定义：给定样本集 $S$ 和函数空间 $F\mathcal{F}$ ，其经验Rademacher复杂度 $R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})$ 定义为：

$R^S(F)=Eσ[sup⁡f∈F1m∑i=1mσif(xi)] \hat{\mathfrak{R}}_S(\mathcal{F}) = \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right]$

经验Rademacher复杂度 $R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})$ 描述的是针对某个特定样本集 $S$ 的函数类 $F\mathcal{F}$ 的复杂度。然而在实际应用中，我们通常希望得到一个与具体抽样无关的度量，它应该仅取决于数据分布 $D\mathcal{D}$ 和样本量 $m$ 。为此，我们需要考虑所有可能从 $D\mathcal{D}$ 中抽取的大小为 $m$ 的样本集 $S$ ，并对这些样本集上的经验Rademacher复杂度求期望。

基于这个思想，我们定义期望Rademacher复杂度如下：
$Rm(F)=ES∼Dm[R^S(F)]=ES∼Dm[Eσ[sup⁡f∈F1m∑i=1mσif(xi)]]\mathfrak{R}_m(\mathcal{F}) = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \hat{\mathfrak{R}}_S(\mathcal{F}) \right] = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right] \right]$

Rademacher复杂度的重要性质在于它能够给出泛化误差的紧致上界（其中 $m$ 表示样本数量， $δ\delta$ 表示置信水平参数）：
$\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}}$
$E[f(z)]≤1m∑i=1mf(zi)+2R^Z(F)+3ln⁡(2/δ)2m \mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\hat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}$
第一个不等式基于期望Rademacher复杂度 $Rm(F)\mathfrak{R}_m(\mathcal{F})$ ，第二个不等式基于经验Rademacher复杂度 $R^Z(F)\hat{\mathfrak{R}}_Z(\mathcal{F})$ 。前者提供了理论分析的基础框架，后者则更适合实际应用中的计算估计。具体的证明过程可以参考相关教材中的详细推导。

对于二分类问题，类似的泛化误差界可以表示为：
$E(h)≤E^(h)+Rm(H)+ln⁡(1/δ)2m E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}$
$E(h)≤E^(h)+R^Z(H)+3ln⁡(2/δ)2m E(h) \le \hat{E}(h) + \hat{\mathfrak{R}}_Z(\mathcal{H}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}$
其中 $H\mathcal{H}$ 表示假设空间。这些结果的证明同样可以参考标准教材中的相关内容。

最后，我们给出Rademacher复杂度和VC维之间的联系。基于前面得到的第一式：
$E(h)≤E^(h)+Rm(H)+ln⁡(1/δ)2m E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}$
我们引入Massart引理来进一步分析这个上界。Massart引理的内容如下：设 $A$ 是 $Rm\mathbb{R}^m$ 中的一个有限向量集合， $σ1,…,σm\sigma_1, \dots, \sigma_m$ 是独立的Rademacher随机变量，则有不等式：
$\mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{a} \in A} \sum_{i=1}^{m} \sigma_i a_i \right] \le \left( \max_{\mathbf{a} \in A} \|\mathbf{a}\|_2 \right) \cdot \sqrt{2\ln|A|}$
其中 $∥a∥2=∑i=1mai2\|\mathbf{a}\|_2 = \sqrt{\sum_{i=1}^m a_i^2}$ 表示向量 $a\mathbf{a}$ 的L2范数。

将这个引理应用到我们的场景中：
$R^S(H)=1mEσ[max⁡v∈HS∑i=1mσivi] \hat{\mathfrak{R}}_S(\mathcal{H}) = \frac{1}{m} \mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{v} \in \mathcal{H}_S} \sum_{i=1}^{m} \sigma_i v_i \right]$
根据Massart引理，经验Rademacher复杂度可以被上界约束为：
$R^S(H)≤1m(max⁡v∈HS∥v∥2)⋅2ln⁡∣HS∣ \hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \left( \max_{\mathbf{v} \in \mathcal{H}_S} \|\mathbf{v}\|_2 \right) \cdot \sqrt{2\ln|\mathcal{H}_S|}$
由于 $HS\mathcal{H}_S$ 中的每个向量 $v\mathbf{v}$ 都是二分类结果（取值为0或1），其L2范数为 $m\sqrt{m}$ ，因此可以简化为：
$R^S(H)≤1m⋅m⋅2ln⁡ΠH(S)=2ln⁡ΠH(S)m \hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \cdot \sqrt{m} \cdot \sqrt{2\ln\Pi_{\mathcal{H}}(S)} = \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(S)}{m}}$
这个不等式对于任意大小为 $m$ 的样本集 $S$ 都成立，因此我们可以进一步放宽这个上界：
$R^S(H)≤2ln⁡ΠH(m)m \hat{\mathfrak{R}}_S(\mathcal{H}) \le \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}$
其中 $ΠH(m)\Pi_{\mathcal{H}}(m)$ 是假设空间 $H\mathcal{H}$ 的增长函数。

将这个结果代回最初的泛化误差界，我们得到：
$E(h)≤E^(h)+2ln⁡ΠH(m)m+ln⁡(1/δ)2m E(h) \le \hat{E}(h) + \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}$
最后，利用VC维的性质 $ln⁡ΠH(m)≤dln⁡(emd)\ln\Pi_{\mathcal{H}}(m) \le d\ln\left(\frac{em}{d}\right)$ ，其中 $d$ 是假设空间 $H\mathcal{H}$ 的VC维，我们得到最终的泛化误差界：
$E(h)≤E^(h)+2dln⁡(emd)m+ln⁡(1/δ)2m E(h) \le \hat{E}(h) + \sqrt{\frac{2d\ln\left(\frac{em}{d}\right)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}$
即Rademacher复杂度和增长函数可以推导出VC维的泛化误差界

12.6 稳定性

在之前的讨论中，我们始终以假设空间 $H\mathcal{H}$ 作为主要研究对象。现在我们需要关注学习算法本身的特性——具体来说，当训练数据集 $S$ 发生微小变化（例如增加或删除一个样本）时，研究该算法输出的假设 $h_S$ 会产生怎样的变化。这里需要特别注意的是，实际学习算法在寻找解的过程中并不会穷举整个假设空间 $H\mathcal{H}$ ，而是根据优化策略在特定的子空间中进行搜索。这就引出一个重要问题：能否避免传统分析方法中针对假设空间全局最坏情况的保守估计，转而分析具体学习算法在实际训练过程中表现出的行为模式？这种针对性研究有望得到与实际应用场景更匹配且数学上更精确的泛化性能保证。

算法稳定性理论的提出正是为了回答这个问题。其基本思想可以表述为：对于一个泛化性能良好的学习算法，当其在训练集 $D$ 上学习得到假设 $h_D$ 时，这个结果对训练集中任意单个样本 $x_i,y_i)$ 的变化应该保持相对稳定。这种稳定性意味着算法输出不会因为训练样本的微小调整而产生显著波动，从而保证了在未知测试数据上的预测性能具有可靠性。

我们沿用先前定义的符号体系：设有一个由 $m$ 个从未知分布 $D\mathcal{D}$ 中独立同分布采样得到的样本 $z1,…,zmz_1, \dots, z_m$ 构成的训练集 $D$ ，以及一个学习算法 $L\mathfrak{L}$ 。该算法以完整数据集 $D$ 作为输入，从假设空间 $H\mathcal{H}$ 中输出一个具体的假设（模型），记作 $LD\mathfrak{L}_D$ 。

两种微小变化：

$D\iD^{\backslash i}$ ：表示通过从原始数据集 $D$ 中移除第 $i$ 个样本 $z_i$ 后得到的新数据集。其样本量为 $m - 1$ ，这是留一法的核心操作方式。
$D^i$ ：表示将原始数据集 $D$ 中的第 $i$ 个样本 $z_i$ 替换为从同一分布 $D\mathcal{D}$ 中新独立采样的样本 $z'_i$ 后得到的数据集。其样本量保持为 $m$ ，这是定义算法均匀稳定性时的关键构造方法。

评估算法表现的三个重要指标：

泛化损失：衡量模型在总体分布上的预期表现，定义为：
$ℓ(L,D)=Ez∼D[ℓ(LD,z)]\ell(\mathfrak{L}, D) = \mathbb{E}_{z \sim \mathcal{D}}[\ell(\mathfrak{L}_D, z)]$
经验损失：衡量模型在训练集上的平均表现，定义为：
$ℓ^(L,D)=1m∑i=1mℓ(LD,zi)\hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D, z_i)$
留一损失：通过留一法构造的评估指标，定义为：
$ℓloo(L,D)=1m∑i=1mℓ(LD\i,zi)\ell_{loo}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$

对于留一损失：

对于每个样本 $z_i$ （其中 $i=1,…,mi=1,\dots,m$ ）：
1. 使用排除 $z_i$ 后的数据集 $D\iD^{\backslash i}$ 训练新模型 $LD\i\mathfrak{L}_{D^{\backslash i}}$
2. 用该模型计算在被排除样本 $z_i$ 上的损失值 $ℓ(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$
最后将所有 $m$ 次计算的损失值取平均

由于在计算每个 $ℓ(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)$ 时，测试样本 $z_i$ 与训练集 $D\iD^{\backslash i}$ 完全独立，这使得留一损失 $ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)$ 成为泛化损失 $ℓ(L,D)\ell(\mathfrak{L}, D)$ 的无偏估计。数学上表示为：
$ED[ℓloo(L,D)]=ED[ℓ(L,D)]\mathbb{E}_D[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}_D[\ell(\mathfrak{L}, D)]$
因此， $ℓloo\ell_{loo}$ 在理论上是泛化误差的一个完美代理指标。现在我们来分析 $ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)$ 和 $ℓ^(L,D)\hat{\ell}(\mathfrak{L}, D)$ 之间的差异：

$ℓloo(L,D)−ℓ^(L,D)=1m∑i=1m(ℓ(LD\i,zi)−ℓ(LD,zi))\ell_{loo}(\mathfrak{L}, D) - \hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \left( \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i) \right)$

让我们仔细观察求和式中的每一项 $ℓ(LD\i,zi)−ℓ(LD,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i)$ 。这个差值表示的是：当我们将训练数据集 $D$ 中的第 $i$ 个样本 $z_i$ 移除后，重新训练的模型 $LD\i\mathfrak{L}_{D^{\backslash i}}$ 与原始模型 $LD\mathfrak{L}_D$ 在这个被移除的样本 $z_i$ 上的损失值之差。如果一个学习算法具有稳定性，那么这个差值通常会很小。

基于这个观察，我们引入均匀稳定性的正式定义：一个学习算法 $L\mathfrak{L}$ 被称为 $βm\beta_m$ -均匀稳定的，如果对于任意大小为 $m$ 的数据集 $D$ ，以及通过替换 $D$ 中第 $i$ 个样本得到的任意数据集 $D^i$ （其中 $\in \{1,...,m\}$ ），以下不等式对所有可能的数据点 $\in \mathcal{Z}$ 都成立：

$∣ℓ(LD,z)−ℓ(LD\i,z)∣≤βm|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \le \beta_m$
另外，对于差值 $∣ℓ(LD,z)−ℓ(LDi,z)∣|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)|$ 的估计，我们可以直接应用三角不等式进行分解：

$∣ℓ(LD,z)−ℓ(LDi,z)∣≤∣ℓ(LD,z)−ℓ(LD\i,z)∣+∣ℓ(LDi,z)−ℓ(LD\i,z)∣≤β+β=2β \begin{align} &|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)| \\ \leq & |\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| + |\ell(\mathfrak{L}_{D^{i}}, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \\ \leq & \beta + \beta \\ = & 2\beta \end{align}$

这一结果表明：移除示例的稳定性性质可以直接推导出替换示例的稳定性上界。

进一步地，假设学习算法 $L\mathfrak{L}$ 满足 $βm\beta_m$ -均匀稳定性条件，且损失函数 $ℓ\ell$ 的取值范围限定在 $[0, M]$ 区间内。那么对于任意置信水平 $\delta < 1$ ，以至少 $1−δ1-\delta$ 的概率同时成立以下两个泛化界：

$ℓ(L,D)≤ℓ^(L,D)+2βm+(4mβm+M)ln⁡(1/δ)2m(1) \ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta_m + (4m\beta_m + M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(1)}$

$\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta_m + (4m\beta_m+M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(2)}$

我们首先证明式(2)，这个证明过程中会用到McDiarmid不等式。定义随机变量 $Z$ 作为数据集 $D$ 的函数：
$\ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D)$
需要计算 $c_j = \sup_{D, z'_j} |Z(D) - Z(D^j)|$ ，其中 $D^j$ 表示将 $D$ 中的样本 $z_j$ 替换为 $z'_j$ 得到的新数据集。根据定义，差值可以表示为：
$Z(D^j)| = |(\ell_{loo}(D) - \ell(D)) - (\ell_{loo}(D^j) - \ell(D^j))|$
应用三角不等式，这个差值可以被拆分为两部分：
$≤∣ℓ(L,D)−ℓ(L,Dj)∣+∣ℓloo(L,D)−ℓloo(L,Dj)∣\le |\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)| + |\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|$

第一项：
$∣ℓ(L,D)−ℓ(L,Dj)∣|\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)|$ ，这反映了替换单个样本对模型整体损失的影响。可以展开为：
$∣Ez[ℓ(LD,z)]−Ez[ℓ(LDj,z)]∣≤Ez[∣ℓ(LD,z)−ℓ(LDj,z)∣]=2β|\mathbb{E}_z[\ell(\mathfrak{L}_D, z)] - \mathbb{E}_z[\ell(\mathfrak{L}_{D^j}, z)]| \le \mathbb{E}_z[|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^j}, z)|] = 2\beta$
因此第一项的上界是 $2β2\beta$ 。

第二项：
考察留一损失的变化量 $∣ℓloo(L,D)−ℓloo(L,Dj)∣|\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|$ ，这反映了替换单个样本对交叉验证损失的影响。展开表达式：
$∣1m∑i=1mℓ(LD\i,zi)−1m∑i=1mℓ(L(Dj)\i,zij)∣\left|\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i^j)\right|$
其中 $z_i^j$ 表示 $D^j$ 中的第 $i$ 个样本。将求和项分为 $i = j$ 和 $i≠ji\neq j$ 两种情况处理：
$=1m∣(ℓ(LD\j,zj)−ℓ(L(Dj)\j,zj′))+∑i≠j(ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi))∣= \frac{1}{m} \left| (\ell(\mathfrak{L}_{D^{\backslash j}}, z_j) - \ell(\mathfrak{L}_{(D^j)^{\backslash j}}, z'_j)) + \sum_{i\ne j}(\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)) \right|$

当 $i = j$ 时，两个损失函数值都在 $[0, M]$ 区间内，因此其差的绝对值不超过 $M$
当 $i≠ji\neq j$ 时，由于 $D\iD^{\backslash i}$ 和 $(Dj)\i(D^j)^{\backslash i}$ 这两个训练集仅相差一个样本（ $z_j$ 与 $z'_j$ ），所以类似第一部分有：
$∣ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi)∣≤2β|\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)| \le 2\beta$

综合这两部分结果，可以得到：
$≤1m(M+(m−1)⋅2β)≤Mm+2β\le \frac{1}{m} (M + (m-1)\cdot 2\beta) \le \frac{M}{m} + 2\beta$

最终得到 $c_j$ 的上界：
$cj=sup⁡∣Z(D)−Z(Dj)∣≤2β+(Mm+2β)=4β+Mmc_j = \sup |Z(D) - Z(D^j)| \le 2\beta + \left(\frac{M}{m} + 2\beta\right) = 4\beta + \frac{M}{m}$
接下来我们定义期望泛化误差 $E[Z(D)]\mathbb{E}[Z(D)]$ 为留一误差期望与训练误差期望之差：
$E[Z(D)]=E[ℓloo(L,D)]−E[ℓ(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] - \mathbb{E}[\ell(\mathfrak{L}, D)]$

关于留一误差的无偏性：由于 $ℓloo\ell_{loo}$ 是 $ℓ\ell$ 的近似无偏估计，其期望可以展开为：
$E[ℓloo(L,D)]=E[1m∑i=1mℓ(LD\i,zi)]=E[ℓ(LD\1,z1)]=E[ℓ(L,D\1)]\mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}\left[\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)\right] = \mathbb{E}[\ell(\mathfrak{L}_{D^{\backslash 1}}, z_1)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})]$
中间的等式成立是基于数据独立同分布的对称性，即任意删除一个样本后的期望结果相同。

将上述结果代入可得：
$E[Z(D)]=E[ℓ(L,D\1)]−E[ℓ(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})] - \mathbb{E}[\ell(\mathfrak{L}, D)]$
进一步表示为：
$=ED,zm′,zm[ℓ(LD\m,zm′)]−ED,zm′[ℓ(LD,zm′)]= \mathbb{E}_{D, z_m', z_m}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m')\right] - \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D}, z_m')\right]$
$=ED,zm′[ℓ(LD\m,zm′)−ℓ(LD,zm′)]= \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m') - \ell(\mathfrak{L}_D, z_m')\right]$

括号内是负的均匀稳定性，最终可得：
$E[Z(D)]≥E[−β]=−β\mathbb{E}[Z(D)] \ge \mathbb{E}[-\beta] = -\beta$
最后应用McDiarmid不等式，可以得到以下概率不等式：

$\mathbb{P}\left(Z(D) - \mathbb{E}[Z(D)] \le -\epsilon\right) \le \exp\left(-\frac{2\epsilon^2}{\sum_{j=1}^m c_j^2}\right)$

其中，我们计算了 $c_j$ 的平方和上界：

$\sum_{j=1}^m c_j^2 \le \sum_{j=1}^m (4\beta + M/m)^2 = m(4\beta + M/m)^2$

为了将概率上界表示为 $δ\delta$ ，我们设：

$\delta = \exp\left(-\frac{2\epsilon^2}{m(4\beta + M/m)^2}\right)$

通过解这个方程，可以得到 $ϵ\epsilon$ 的表达式：

$\epsilon = \sqrt{\frac{m(4\beta + M/m)^2 \ln(1/\delta)}{2}} = (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

这意味着，至少有 $1−δ1-\delta$ 的概率，以下不等式成立：

$\ge \mathbb{E}[Z(D)] - \epsilon$

将 $Z (D)$ 的定义和 $E[Z(D)]\mathbb{E}[Z(D)]$ 的下界代入后，可以得到：

$\ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D) \ge -\beta - (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

最后，通过移项整理，我们得到了式 $(2)$ 的最终表达式：

$\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta + (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

对于式 $(1)$ 的推导，直接从均匀稳定性的定义出发可以得到：
$∣ℓ^(L,D)−ℓloo(L,D)∣≤β |\hat{\ell}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D)| \le \beta$
这个不等式可以等价地表示为：
$ℓloo(L,D)≤ℓ^(L,D)+β \ell_{loo}(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + \beta$

现在，我们将这个结果代入前面已经证明的式 $(2)$ 中。具体做法是将式 $(2)$ 中的 $ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)$ 替换为其上界 $ℓ^(L,D)+β\hat{\ell}(\mathfrak{L}, D) + \beta$ ：
$ℓ(L,D)≤ℓloo(L,D)⏟≤ℓ^(L,D)+β+β+(4mβ+M)ln⁡(1/δ)2m \ell(\mathfrak{L}, D) \le \underbrace{\ell_{loo}(\mathfrak{L}, D)}_{\le \hat{\ell}(\mathfrak{L}, D) + \beta} + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

将替换后的表达式展开，我们得到：
$ℓ(L,D)≤(ℓ^(L,D)+β)+β+(4mβ+M)ln⁡(1/δ)2m \ell(\mathfrak{L}, D) \le (\hat{\ell}(\mathfrak{L}, D) + \beta) + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$

合并同类项后，最终得到式 $(1)$ 的完整表达式：
$ℓ(L,D)≤ℓ^(L,D)+2β+(4mβ+M)ln⁡(1/δ)2m \ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}$
我们费这么大劲证明了基于稳定性分析导出的算法 $L\mathfrak{L}$ 的泛化误差界，它已经说明了我们的算法是可学习的。现在我们将说明若学习算法 $L\mathfrak{L}$ 是ERM且稳定的，则假设空间 $H\mathcal{H}$ 可学习。其中若学习算法 $L\mathfrak{L}$ 所输出的假设满足经验损失最小化，则称算法 $L\mathfrak{L}$ 满足经验风险最小化(ERM)原则.