从零开始学AI——12.2
前言
上半部分在上一篇
12.4 VC维
上一节我们讨论了有限假设空间的情况,现在将假设空间扩展到无限维的情形。考虑一个最简单的二分类任务,通常使用超平面将样本空间划分为两部分,每个超平面对应一个假设hhh。这样的假设有多少个呢?显然存在无限多个,即∣H∣=∞|\mathcal{H}|=\infty∣H∣=∞。根据上一节的推导公式(无论是否可分),这意味着需要无限多的训练样本,但这与实际情况不符。因此可以得出结论:对于无限维假设空间,上一节得到的边界公式不再适用。
为了处理无限假设空间的问题,VC维理论提出了新的思路:给定mmm个数据点时,我们不关注能完美分类这些点的具体假设数量,而是研究这些假设能产生的不同划分结果的总数。为此需要先引入以下关键概念:
增长函数ΠH(m)\Pi_{\mathcal{H}}(m)ΠH(m)的定义
对于任意正整数mmm,假设空间H\mathcal{H}H的增长函数定义为:
ΠH(m)=max{x1,…,xm}⊂X∣{(h(x1),…,h(xm))∣h∈H}∣\Pi_{\mathcal{H}}(m) = \max_{\{x_1, \dots, x_m\} \subset \mathcal{X}} |\{(h(x_1), \dots, h(x_m)) | h \in \mathcal{H}\}|ΠH(m)={x1,…,xm}⊂Xmax∣{(h(x1),…,h(xm))∣h∈H}∣
这个定义可以分两步理解:
- 首先固定一组mmm个样本点{x1,...,xm}\{x_1,...,x_m\}{x1,...,xm},让假设空间H\mathcal{H}H中的所有假设hhh对这组样本进行预测,得到所有可能的输出组合(h(x1),...,h(xm))(h(x_1),...,h(x_m))(h(x1),...,h(xm)),这些输出组合构成一个集合,计算该集合的大小(即不同预测结果的数量)。
- 然后考虑所有可能的mmm个样本点的组合,对每个样本组合重复上述过程,最终取所有结果中的最大值作为ΠH(m)\Pi_{\mathcal{H}}(m)ΠH(m)的值。
定理12.2我不打算证明,有想法的同学可以参照书上的注释找原文证明。
在此之上,我们可以定义打散:称假设空间H\mathcal{H}H能够打散一个包含mmm个样本点的集合D⊂XD \subset \mathcal{X}D⊂X,当且仅当对于DDD中样本的所有可能的2m2^m2m种标签分配方式,都存在至少一个假设h∈Hh \in \mathcal{H}h∈H能够精确实现该标签组合。这意味着H\mathcal{H}H在集合DDD上的表达能力达到了最大可能,即ΠH(m)=2m\Pi_{\mathcal{H}}(m) = 2^mΠH(m)=2m。
而对于假设空间H\mathcal{H}H能够打散的最大样本集的大小,我们就称为VC维:
VC(H)=max{m:ΠH(m)=2m}
VC(\mathcal{H}) = \max\{m:\Pi_{\mathcal{H}}(m)=2^{m}\}
VC(H)=max{m:ΠH(m)=2m}
比如如果一个H\mathcal{H}H的VC维是ddd,那么意味着存在这么一个样本集,其个数为ddd,可以被H\mathcal{H}H打散。至此我们有了足够的定义,现在就来考虑最终的问题:PAC学习,为此我们还得有一个引理。
Sauer引理
对于一个VC维为ddd的假设空间H\mathcal{H}H和任意大小为mmm的点集DDD,增长函数满足:
ΠH(m)≤∑i=0d(mi)\Pi_{\mathcal{H}}(m) \le \sum_{i=0}^{d} \binom{m}{i}ΠH(m)≤i=0∑d(im)
证明过程:
采用数学归纳法,我们考虑以下构造:
设D′={x1,x2,…,xm−1}D' = \{x_1, x_2, \dots, x_{m-1}\}D′={x1,x2,…,xm−1}为去掉最后一个样本的点集。定义H∣D\mathcal{H}|_DH∣D为假设空间H\mathcal{H}H在DDD上产生的所有可能标签组合的集合,即:
H∣D={(h(x1),h(x2),…,h(xm))∣h∈H}\mathcal{H}|_D = \{(h(x_1), h(x_2), \dots, h(x_m)) \mid h \in \mathcal{H}\}H∣D={(h(x1),h(x2),…,h(xm))∣h∈H}
对于H∣D′\mathcal{H}|_{D'}H∣D′中的任意标签组合y′=(y1,…,ym−1)y' = (y_1, \dots, y_{m-1})y′=(y1,…,ym−1),考察其在H∣D\mathcal{H}|_DH∣D中的扩展情况。具体来说,我们需要确定y′y'y′在H∣D\mathcal{H}|_DH∣D中可能对应的完整标签组合。这有两种可能情形:
- 单次出现:仅存在(y1,…,ym−1,+1)(y_1, \dots, y_{m-1}, +1)(y1,…,ym−1,+1)或(y1,…,ym−1,−1)(y_1, \dots, y_{m-1}, -1)(y1,…,ym−1,−1)中的一个
- 两次出现:同时存在(y1,…,ym−1,+1)(y_1, \dots, y_{m-1}, +1)(y1,…,ym−1,+1)和(y1,…,ym−1,−1)(y_1, \dots, y_{m-1}, -1)(y1,…,ym−1,−1)
定义子集HD′∣D\mathcal{H}_{D'|D}HD′∣D,它包含所有在H∣D′\mathcal{H}|_{D'}H∣D′中能扩展出两种可能的标签组合:
HD′∣D={(y1,…,ym−1)∈H∣D′∣∃h,h′∈H,(h(xi)=h′(xi)=yi)i<m∧h(xm)≠h′(xm)}\mathcal{H}_{D'|D} = \{(y_1, \dots, y_{m-1}) \in \mathcal{H}|_{D'} \mid \exists h, h' \in \mathcal{H}, (h(x_i)=h'(x_i)=y_i)_{i<m} \wedge h(x_m) \neq h'(x_m) \}HD′∣D={(y1,…,ym−1)∈H∣D′∣∃h,h′∈H,(h(xi)=h′(xi)=yi)i<m∧h(xm)=h′(xm)}
由此可以得到基数关系:
∣H∣D∣=∣H∣D′∣+∣HD′∣D∣|\mathcal{H}_{|_D}| = |\mathcal{H}_{|_{D'}}| + |\mathcal{H}_{D'|D}|∣H∣D∣=∣H∣D′∣+∣HD′∣D∣
这是因为:
- ∣H∣D′∣|\mathcal{H}_{|_{D'}}|∣H∣D′∣计数所有可能的y′y'y′
- ∣HD′∣D∣|\mathcal{H}_{D'|D}|∣HD′∣D∣额外计数那些能产生两种扩展的y′y'y′对应的第二种扩展
现在我们需要对等式右边的两项分别使用归纳假设。
第一项:
∣H∣D′∣|\mathcal{H}_{|_{D'}}|∣H∣D′∣表示假设空间H\mathcal{H}H在m−1m-1m−1个样本点D′D'D′上的限制,即所有可能的标签组合数。根据归纳假设,可以得到:
∣H∣D′∣≤∑i=0d(m−1i)|\mathcal{H}|_{D'}| \le \sum_{i=0}^{d} \binom{m-1}{i}∣H∣D′∣≤i=0∑d(im−1)
第二项:
令QQQ表示能被HD′∣D\mathcal{H}_{D'|D}HD′∣D打散的集合。根据HD′∣D\mathcal{H}_{D'|D}HD′∣D的定义可知,Q∪{xm}Q\cup\{x_m\}Q∪{xm}必然能被H∣D\mathcal{H}|_DH∣D打散。由于H\mathcal{H}H的VC维为ddd,因此HD′∣D\mathcal{H}_{D'|D}HD′∣D的VC维最多为d−1d-1d−1。于是可以得到:
∣HD′∣D∣≤∑i=0d−1(m−1i)|\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d-1} \binom{m-1}{i}∣HD′∣D∣≤i=0∑d−1(im−1)
这个上界比第一项少了一项,对应着VC维减少1带来的影响。
最后我们将这个结果应用到原始等式中,可以得到:
∣H∣D∣=∣H∣D′∣+∣HD′∣D∣≤∑i=0d(m−1i)+∑i=0d−1(m−1i)|\mathcal{H}|_D| = |\mathcal{H}|_{D'}| + |\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i}∣H∣D∣=∣H∣D′∣+∣HD′∣D∣≤i=0∑d(im−1)+i=0∑d−1(im−1)
现在让我们详细展开右边两个组合数求和项的合并过程:
∑i=0d(m−1i)+∑i=0d−1(m−1i)=[(m−10)+∑i=1d(m−1i)]+[∑i=1d(m−1i−1)]=(m−10)+∑i=1d((m−1i)+(m−1i−1))=(m−10)+∑i=1d(mi)=(m0)+∑i=1d(mi)=∑i=0d(mi)\begin{aligned}
\sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i}
&= \left[ \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m-1}{i} \right] + \left[ \sum_{i=1}^{d} \binom{m-1}{i-1} \right] \\
&= \binom{m-1}{0} + \sum_{i=1}^{d} \left( \binom{m-1}{i} + \binom{m-1}{i-1} \right) \\
&= \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m}{i} \\
&= \binom{m}{0} + \sum_{i=1}^{d} \binom{m}{i} \\
&= \sum_{i=0}^{d} \binom{m}{i}
\end{aligned}i=0∑d(im−1)+i=0∑d−1(im−1)=[(0m−1)+i=1∑d(im−1)]+[i=1∑d(i−1m−1)]=(0m−1)+i=1∑d((im−1)+(i−1m−1))=(0m−1)+i=1∑d(im)=(0m)+i=1∑d(im)=i=0∑d(im)
引理得证。
由该引理我们可以得到增长函数的一个上界:
ΠH(m)≤(emd)d
\Pi_{\mathcal{H}}(m)\leq \left( \frac{em}{d} \right)^{d}
ΠH(m)≤(dem)d
现在我们可以回到熟悉的PAC可学习框架上。我们需要确保"学习失败"的概率足够小,具体来说,这个概率应该小于我们能够容忍的风险阈值δ\deltaδ。根据定理12.2(没证明那个),我们可以将失败概率的上界设为δ\deltaδ:
4ΠH(2m)exp(−mϵ28)=δ4 \Pi_{\mathcal{H}}(2m) \exp\left(-\frac{m\epsilon^2}{8}\right) = \delta4ΠH(2m)exp(−8mϵ2)=δ
在前面的推导中我们已经知道增长函数满足ΠH(2m)≤(e⋅2md)d\Pi_{\mathcal{H}}(2m) \le \left(\frac{e \cdot 2m}{d}\right)^dΠH(2m)≤(de⋅2m)d这个上界。将这个上界代入上式,可以得到:
4(2emd)dexp(−mϵ28)≤δ4 \left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right) \le \delta4(d2em)dexp(−8mϵ2)≤δ
为了求出ϵ\epsilonϵ的表达式,我们需要对这个不等式进行求解。最终可以得到ϵ\epsilonϵ的下界:
ϵ≥8dln(2emd)+8ln(4δ)m\epsilon \ge \sqrt{\frac{8d \ln\left(\frac{2em}{d}\right) + 8\ln\left(\frac{4}{\delta}\right)}{m}}ϵ≥m8dln(d2em)+8ln(δ4)
基于上述工具,我们可以完成最后一个命题的证明:对于任何VC维有限的假设空间H\mathcal{H}H,只要采用经验风险最小化(ERM)算法,就能构成一个满足PAC要求的学习算法。
具体说来,我们需要验证:当假设空间H\mathcal{H}H的VC维有限时,采用ERM原则的学习算法L\mathcal{L}L确实满足PAC可学习性。根据PAC学习的基本定义,这意味着对于任意给定的精度参数ϵ>0\epsilon > 0ϵ>0和置信参数δ∈(0,1)\delta \in (0,1)δ∈(0,1),都存在一个样本量阈值mH(ϵ,δ)m_{\mathcal{H}}(\epsilon,\delta)mH(ϵ,δ),使得当训练样本量m≥mH(ϵ,δ)m \geq m_{\mathcal{H}}(\epsilon,\delta)m≥mH(ϵ,δ)时,算法L\mathcal{L}L从任意分布D\mathcal{D}D中抽取样本集SSS后输出的假设h=L(S)h=\mathcal{L}(S)h=L(S),能以至少1−δ1-\delta1−δ的概率满足:
E(h)≤minh′∈HE(h′)+ϵE(h) \leq \min_{h'\in\mathcal{H}}E(h')+\epsilonE(h)≤h′∈HminE(h′)+ϵ
设h=argminh′∈HE^(h′)h = \arg\min_{h'\in\mathcal{H}}\hat{E}(h')h=argminh′∈HE^(h′)为ERM算法输出的经验风险最小化假设,g=argminh′∈HE(h′)g = \arg\min_{h'\in\mathcal{H}}E(h')g=argminh′∈HE(h′)为整个假设空间中真实风险最小的理想假设。我们需要证明的是:
P(E(h)−E(g)≤ϵ)≥1−δP(E(h)-E(g) \leq \epsilon) \geq 1-\deltaP(E(h)−E(g)≤ϵ)≥1−δ
首先将风险差分解为三个部分:
E(h)−E(g)=[E(h)−E^(h)]+[E^(h)−E^(g)]+[E^(g)−E(g)]E(h)-E(g) = [E(h)-\hat{E}(h)] + [\hat{E}(h)-\hat{E}(g)] + [\hat{E}(g)-E(g)]E(h)−E(g)=[E(h)−E^(h)]+[E^(h)−E^(g)]+[E^(g)−E(g)]
根据ERM的定义可知E^(h)≤E^(g)\hat{E}(h) \leq \hat{E}(g)E^(h)≤E^(g),因此中间项非正,于是有:
E(h)−E(g)≤[E(h)−E^(h)]−[E(g)−E^(g)]E(h)-E(g) \leq [E(h)-\hat{E}(h)] - [E(g)-\hat{E}(g)]E(h)−E(g)≤[E(h)−E^(h)]−[E(g)−E^(g)]
我们需要证明以高概率这两个偏差项都控制在ϵ/2\epsilon/2ϵ/2以内。为此定义两个事件并应用联合界:
-
固定假设ggg的偏差控制:
由于ggg是固定假设(不依赖样本选择),根据Hoeffding不等式可得:
P(∣E^(g)−E(g)∣>ϵ/2)≤2exp(−mϵ2/2)P(|\hat{E}(g)-E(g)|>\epsilon/2) \leq 2\exp(-m\epsilon^2/2)P(∣E^(g)−E(g)∣>ϵ/2)≤2exp(−mϵ2/2)
令其不超过δ/2\delta/2δ/2,则事件A1:∣E(g)−E^(g)∣≤ϵ/2A_1: |E(g)-\hat{E}(g)| \leq \epsilon/2A1:∣E(g)−E^(g)∣≤ϵ/2以至少1−δ/21-\delta/21−δ/2的概率成立。 -
一致收敛性控制:
对于ERM输出的hhh(依赖样本选择),需要VC泛化界(定理12.3):
P(suph′∈H∣E(h′)−E^(h′)∣>ϵ/2)≤4ΠH(2m)exp(−mϵ2/32)P\left(\sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|>\epsilon/2\right) \leq 4\Pi_{\mathcal{H}}(2m)\exp(-m\epsilon^2/32)P(h′∈Hsup∣E(h′)−E^(h′)∣>ϵ/2)≤4ΠH(2m)exp(−mϵ2/32)
令其不超过δ/2\delta/2δ/2,则事件A2:suph′∈H∣E(h′)−E^(h′)∣≤ϵ/2A_2: \sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|\leq\epsilon/2A2:suph′∈H∣E(h′)−E^(h′)∣≤ϵ/2以至少1−δ/21-\delta/21−δ/2的概率成立。
由联合界可知:
P(A1∩A2)≥1−(P(A1c)+P(A2c))≥1−δP(A_1\cap A_2) \geq 1-(P(A_1^c)+P(A_2^c)) \geq 1-\deltaP(A1∩A2)≥1−(P(A1c)+P(A2c))≥1−δ
当A1A_1A1和A2A_2A2同时成立时:
E(h)−E(g)≤∣E(h)−E^(h)∣+∣E^(g)−E(g)∣≤ϵ/2+ϵ/2=ϵ\begin{aligned}
E(h)-E(g) &\leq |E(h)-\hat{E}(h)| + |\hat{E}(g)-E(g)| \\
&\leq \epsilon/2 + \epsilon/2 = \epsilon
\end{aligned}E(h)−E(g)≤∣E(h)−E^(h)∣+∣E^(g)−E(g)∣≤ϵ/2+ϵ/2=ϵ
这一结论以至少1−δ1-\delta1−δ的概率成立。
12.5 Rademacher复杂度
VC维只关注是否存在一个大小为ddd的集合能被假设空间H\mathcal{H}H完全打散,而完全不考虑这个特定集合在实际数据分布中出现的可能性。这种与数据分布无关的最坏情况度量方式,虽然能够提供理论上的保证,但往往会导致给出的泛化误差上界过于宽松(即过于"悲观")。为了克服这一局限性,Rademacher复杂度被提出作为更精细的度量工具。
Rademacher复杂度的基本思想发生了重要转变:不再像VC维那样统计假设空间能产生的标签组合数量,而是直接评估假设空间对随机噪声的拟合能力。具体来说,如果一个假设空间能够非常完美地拟合纯粹的随机噪声,那么它在真实数据上就很可能存在严重的过拟合风险。
给定一个固定的训练数据集S={x1,x2,…,xm}S = \{x_1, x_2, \dots, x_m\}S={x1,x2,…,xm},我们首先完全忽略这些数据点原本的真实标签yiy_iyi。然后为每个数据点xix_ixi独立地生成一个完全随机的噪声标签,称为Rademacher随机变量σi\sigma_iσi,其定义为:
σi={+1概率为 0.5−1概率为 0.5\sigma_i = \begin{cases}
+1 & \text{概率为 } 0.5\\
-1 & \text{概率为 } 0.5
\end{cases}σi={+1−1概率为 0.5概率为 0.5
这样就得到了一个长度为mmm的随机噪声向量σ=(σ1,σ2,…,σm)\boldsymbol{\sigma} = (\sigma_1, \sigma_2, \dots, \sigma_m)σ=(σ1,σ2,…,σm)。
接下来,我们需要度量函数空间F\mathcal{F}F(即假设空间)中任意函数f∈Ff \in \mathcal{F}f∈F对随机生成的标签σ=(σ1,...,σm)\boldsymbol{\sigma}=(\sigma_1,...,\sigma_m)σ=(σ1,...,σm)的拟合程度。具体来说,对于每个函数fff,我们通过计算其预测值向量(f(x1),...,f(xm))(f(x_1),...,f(x_m))(f(x1),...,f(xm))与噪声向量σ\boldsymbol{\sigma}σ的内积来量化它们的相关性:
∑i=1mσif(xi) \sum_{i=1}^{m} \sigma_i f(x_i) i=1∑mσif(xi)
这个求和结果反映了函数输出与随机噪声的匹配程度:值越大表明函数fff对噪声σ\boldsymbol{\sigma}σ的拟合能力越强,意味着假设空间F\mathcal{F}F更容易过拟合带噪声的数据。为了评估整个函数空间的噪声拟合能力,我们需要找到所有函数中最优的拟合情况,因此对于给定的噪声向量σ\boldsymbol{\sigma}σ,定义函数空间F\mathcal{F}F在样本集S={x1,...,xm}S=\{x_1,...,x_m\}S={x1,...,xm}上的噪声拟合能力为:
supf∈F1m∑i=1mσif(xi) \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) f∈Fsupm1i=1∑mσif(xi)
由于噪声向量σ\boldsymbol{\sigma}σ是随机生成的(共有2m2^m2m种可能的取值),为了获得稳定的度量,我们需要对所有可能的噪声配置取期望。这就引出了经验Rademacher复杂度的定义:给定样本集SSS和函数空间F\mathcal{F}F,其经验Rademacher复杂度R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})R^S(F)定义为:
R^S(F)=Eσ[supf∈F1m∑i=1mσif(xi)] \hat{\mathfrak{R}}_S(\mathcal{F}) = \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right] R^S(F)=Eσ[f∈Fsupm1i=1∑mσif(xi)]
经验Rademacher复杂度R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})R^S(F)描述的是针对某个特定样本集SSS的函数类F\mathcal{F}F的复杂度。然而在实际应用中,我们通常希望得到一个与具体抽样无关的度量,它应该仅取决于数据分布D\mathcal{D}D和样本量mmm。为此,我们需要考虑所有可能从D\mathcal{D}D中抽取的大小为mmm的样本集SSS,并对这些样本集上的经验Rademacher复杂度求期望。
基于这个思想,我们定义期望Rademacher复杂度如下:
Rm(F)=ES∼Dm[R^S(F)]=ES∼Dm[Eσ[supf∈F1m∑i=1mσif(xi)]]\mathfrak{R}_m(\mathcal{F}) = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \hat{\mathfrak{R}}_S(\mathcal{F}) \right] = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right] \right]Rm(F)=ES∼Dm[R^S(F)]=ES∼Dm[Eσ[f∈Fsupm1i=1∑mσif(xi)]]
Rademacher复杂度的重要性质在于它能够给出泛化误差的紧致上界(其中mmm表示样本数量,δ\deltaδ表示置信水平参数):
E[f(z)]≤1m∑i=1mf(zi)+2Rm(F)+ln(1/δ)2m
\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}}
E[f(z)]≤m1i=1∑mf(zi)+2Rm(F)+2mln(1/δ)
E[f(z)]≤1m∑i=1mf(zi)+2R^Z(F)+3ln(2/δ)2m
\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\hat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}
E[f(z)]≤m1i=1∑mf(zi)+2R^Z(F)+32mln(2/δ)
第一个不等式基于期望Rademacher复杂度Rm(F)\mathfrak{R}_m(\mathcal{F})Rm(F),第二个不等式基于经验Rademacher复杂度R^Z(F)\hat{\mathfrak{R}}_Z(\mathcal{F})R^Z(F)。前者提供了理论分析的基础框架,后者则更适合实际应用中的计算估计。具体的证明过程可以参考相关教材中的详细推导。
对于二分类问题,类似的泛化误差界可以表示为:
E(h)≤E^(h)+Rm(H)+ln(1/δ)2m
E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}
E(h)≤E^(h)+Rm(H)+2mln(1/δ)
E(h)≤E^(h)+R^Z(H)+3ln(2/δ)2m
E(h) \le \hat{E}(h) + \hat{\mathfrak{R}}_Z(\mathcal{H}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}
E(h)≤E^(h)+R^Z(H)+32mln(2/δ)
其中H\mathcal{H}H表示假设空间。这些结果的证明同样可以参考标准教材中的相关内容。
最后,我们给出Rademacher复杂度和VC维之间的联系。基于前面得到的第一式:
E(h)≤E^(h)+Rm(H)+ln(1/δ)2m
E(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}
E(h)≤E^(h)+Rm(H)+2mln(1/δ)
我们引入Massart引理来进一步分析这个上界。Massart引理的内容如下:设AAA是Rm\mathbb{R}^mRm中的一个有限向量集合,σ1,…,σm\sigma_1, \dots, \sigma_mσ1,…,σm是独立的Rademacher随机变量,则有不等式:
Eσ[maxa∈A∑i=1mσiai]≤(maxa∈A∥a∥2)⋅2ln∣A∣
\mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{a} \in A} \sum_{i=1}^{m} \sigma_i a_i \right] \le \left( \max_{\mathbf{a} \in A} \|\mathbf{a}\|_2 \right) \cdot \sqrt{2\ln|A|}
Eσ[a∈Amaxi=1∑mσiai]≤(a∈Amax∥a∥2)⋅2ln∣A∣
其中∥a∥2=∑i=1mai2\|\mathbf{a}\|_2 = \sqrt{\sum_{i=1}^m a_i^2}∥a∥2=∑i=1mai2表示向量a\mathbf{a}a的L2范数。
将这个引理应用到我们的场景中:
R^S(H)=1mEσ[maxv∈HS∑i=1mσivi]
\hat{\mathfrak{R}}_S(\mathcal{H}) = \frac{1}{m} \mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{v} \in \mathcal{H}_S} \sum_{i=1}^{m} \sigma_i v_i \right]
R^S(H)=m1Eσ[v∈HSmaxi=1∑mσivi]
根据Massart引理,经验Rademacher复杂度可以被上界约束为:
R^S(H)≤1m(maxv∈HS∥v∥2)⋅2ln∣HS∣
\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \left( \max_{\mathbf{v} \in \mathcal{H}_S} \|\mathbf{v}\|_2 \right) \cdot \sqrt{2\ln|\mathcal{H}_S|}
R^S(H)≤m1(v∈HSmax∥v∥2)⋅2ln∣HS∣
由于HS\mathcal{H}_SHS中的每个向量v\mathbf{v}v都是二分类结果(取值为0或1),其L2范数为m\sqrt{m}m,因此可以简化为:
R^S(H)≤1m⋅m⋅2lnΠH(S)=2lnΠH(S)m
\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \cdot \sqrt{m} \cdot \sqrt{2\ln\Pi_{\mathcal{H}}(S)} = \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(S)}{m}}
R^S(H)≤m1⋅m⋅2lnΠH(S)=m2lnΠH(S)
这个不等式对于任意大小为mmm的样本集SSS都成立,因此我们可以进一步放宽这个上界:
R^S(H)≤2lnΠH(m)m
\hat{\mathfrak{R}}_S(\mathcal{H}) \le \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}
R^S(H)≤m2lnΠH(m)
其中ΠH(m)\Pi_{\mathcal{H}}(m)ΠH(m)是假设空间H\mathcal{H}H的增长函数。
将这个结果代回最初的泛化误差界,我们得到:
E(h)≤E^(h)+2lnΠH(m)m+ln(1/δ)2m
E(h) \le \hat{E}(h) + \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}
E(h)≤E^(h)+m2lnΠH(m)+2mln(1/δ)
最后,利用VC维的性质lnΠH(m)≤dln(emd)\ln\Pi_{\mathcal{H}}(m) \le d\ln\left(\frac{em}{d}\right)lnΠH(m)≤dln(dem),其中ddd是假设空间H\mathcal{H}H的VC维,我们得到最终的泛化误差界:
E(h)≤E^(h)+2dln(emd)m+ln(1/δ)2m
E(h) \le \hat{E}(h) + \sqrt{\frac{2d\ln\left(\frac{em}{d}\right)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}
E(h)≤E^(h)+m2dln(dem)+2mln(1/δ)
即Rademacher复杂度和增长函数可以推导出VC维的泛化误差界
12.6 稳定性
在之前的讨论中,我们始终以假设空间H\mathcal{H}H作为主要研究对象。现在我们需要关注学习算法本身的特性——具体来说,当训练数据集SSS发生微小变化(例如增加或删除一个样本)时,研究该算法输出的假设hSh_ShS会产生怎样的变化。这里需要特别注意的是,实际学习算法在寻找解的过程中并不会穷举整个假设空间H\mathcal{H}H,而是根据优化策略在特定的子空间中进行搜索。这就引出一个重要问题:能否避免传统分析方法中针对假设空间全局最坏情况的保守估计,转而分析具体学习算法在实际训练过程中表现出的行为模式?这种针对性研究有望得到与实际应用场景更匹配且数学上更精确的泛化性能保证。
算法稳定性理论的提出正是为了回答这个问题。其基本思想可以表述为:对于一个泛化性能良好的学习算法,当其在训练集DDD上学习得到假设hDh_DhD时,这个结果对训练集中任意单个样本(xi,yi)(x_i,y_i)(xi,yi)的变化应该保持相对稳定。这种稳定性意味着算法输出不会因为训练样本的微小调整而产生显著波动,从而保证了在未知测试数据上的预测性能具有可靠性。
我们沿用先前定义的符号体系:设有一个由mmm个从未知分布D\mathcal{D}D中独立同分布采样得到的样本z1,…,zmz_1, \dots, z_mz1,…,zm构成的训练集DDD,以及一个学习算法L\mathfrak{L}L。该算法以完整数据集DDD作为输入,从假设空间H\mathcal{H}H中输出一个具体的假设(模型),记作LD\mathfrak{L}_DLD。
两种微小变化:
- D\iD^{\backslash i}D\i:表示通过从原始数据集DDD中移除第iii个样本ziz_izi后得到的新数据集。其样本量为m−1m-1m−1,这是留一法的核心操作方式。
- DiD^iDi:表示将原始数据集DDD中的第iii个样本ziz_izi替换为从同一分布D\mathcal{D}D中新独立采样的样本zi′z'_izi′后得到的数据集。其样本量保持为mmm,这是定义算法均匀稳定性时的关键构造方法。
评估算法表现的三个重要指标:
- 泛化损失:衡量模型在总体分布上的预期表现,定义为:
ℓ(L,D)=Ez∼D[ℓ(LD,z)]\ell(\mathfrak{L}, D) = \mathbb{E}_{z \sim \mathcal{D}}[\ell(\mathfrak{L}_D, z)]ℓ(L,D)=Ez∼D[ℓ(LD,z)] - 经验损失:衡量模型在训练集上的平均表现,定义为:
ℓ^(L,D)=1m∑i=1mℓ(LD,zi)\hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D, z_i)ℓ^(L,D)=m1i=1∑mℓ(LD,zi) - 留一损失:通过留一法构造的评估指标,定义为:
ℓloo(L,D)=1m∑i=1mℓ(LD\i,zi)\ell_{loo}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)ℓloo(L,D)=m1i=1∑mℓ(LD\i,zi)
对于留一损失:
- 对于每个样本ziz_izi(其中i=1,…,mi=1,\dots,mi=1,…,m):
- 使用排除ziz_izi后的数据集D\iD^{\backslash i}D\i训练新模型LD\i\mathfrak{L}_{D^{\backslash i}}LD\i
- 用该模型计算在被排除样本ziz_izi上的损失值ℓ(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)ℓ(LD\i,zi)
- 最后将所有mmm次计算的损失值取平均
由于在计算每个ℓ(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)ℓ(LD\i,zi)时,测试样本ziz_izi与训练集D\iD^{\backslash i}D\i完全独立,这使得留一损失ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)ℓloo(L,D)成为泛化损失ℓ(L,D)\ell(\mathfrak{L}, D)ℓ(L,D)的无偏估计。数学上表示为:
ED[ℓloo(L,D)]=ED[ℓ(L,D)]\mathbb{E}_D[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}_D[\ell(\mathfrak{L}, D)]ED[ℓloo(L,D)]=ED[ℓ(L,D)]
因此,ℓloo\ell_{loo}ℓloo在理论上是泛化误差的一个完美代理指标。现在我们来分析ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)ℓloo(L,D)和ℓ^(L,D)\hat{\ell}(\mathfrak{L}, D)ℓ^(L,D)之间的差异:
ℓloo(L,D)−ℓ^(L,D)=1m∑i=1m(ℓ(LD\i,zi)−ℓ(LD,zi))\ell_{loo}(\mathfrak{L}, D) - \hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \left( \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i) \right)ℓloo(L,D)−ℓ^(L,D)=m1i=1∑m(ℓ(LD\i,zi)−ℓ(LD,zi))
让我们仔细观察求和式中的每一项ℓ(LD\i,zi)−ℓ(LD,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i)ℓ(LD\i,zi)−ℓ(LD,zi)。这个差值表示的是:当我们将训练数据集DDD中的第iii个样本ziz_izi移除后,重新训练的模型LD\i\mathfrak{L}_{D^{\backslash i}}LD\i与原始模型LD\mathfrak{L}_DLD在这个被移除的样本ziz_izi上的损失值之差。如果一个学习算法具有稳定性,那么这个差值通常会很小。
基于这个观察,我们引入均匀稳定性的正式定义:一个学习算法L\mathfrak{L}L被称为βm\beta_mβm-均匀稳定的,如果对于任意大小为mmm的数据集DDD,以及通过替换DDD中第iii个样本得到的任意数据集DiD^iDi(其中i∈{1,...,m}i \in \{1,...,m\}i∈{1,...,m}),以下不等式对所有可能的数据点z∈Zz \in \mathcal{Z}z∈Z都成立:
∣ℓ(LD,z)−ℓ(LD\i,z)∣≤βm|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \le \beta_m∣ℓ(LD,z)−ℓ(LD\i,z)∣≤βm
另外,对于差值∣ℓ(LD,z)−ℓ(LDi,z)∣|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)|∣ℓ(LD,z)−ℓ(LDi,z)∣的估计,我们可以直接应用三角不等式进行分解:
∣ℓ(LD,z)−ℓ(LDi,z)∣≤∣ℓ(LD,z)−ℓ(LD\i,z)∣+∣ℓ(LDi,z)−ℓ(LD\i,z)∣≤β+β=2β \begin{align} &|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)| \\ \leq & |\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| + |\ell(\mathfrak{L}_{D^{i}}, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \\ \leq & \beta + \beta \\ = & 2\beta \end{align} ≤≤=∣ℓ(LD,z)−ℓ(LDi,z)∣∣ℓ(LD,z)−ℓ(LD\i,z)∣+∣ℓ(LDi,z)−ℓ(LD\i,z)∣β+β2β
这一结果表明:移除示例的稳定性性质可以直接推导出替换示例的稳定性上界。
进一步地,假设学习算法L\mathfrak{L}L满足βm\beta_mβm-均匀稳定性条件,且损失函数ℓ\ellℓ的取值范围限定在[0,M][0, M][0,M]区间内。那么对于任意置信水平0<δ<10 < \delta < 10<δ<1,以至少1−δ1-\delta1−δ的概率同时成立以下两个泛化界:
ℓ(L,D)≤ℓ^(L,D)+2βm+(4mβm+M)ln(1/δ)2m(1) \ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta_m + (4m\beta_m + M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(1)} ℓ(L,D)≤ℓ^(L,D)+2βm+(4mβm+M)2mln(1/δ)(1)
ℓ(L,D)≤ℓloo(L,D)+βm+(4mβm+M)ln(1/δ)2m(2) \ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta_m + (4m\beta_m+M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(2)} ℓ(L,D)≤ℓloo(L,D)+βm+(4mβm+M)2mln(1/δ)(2)
我们首先证明式(2),这个证明过程中会用到McDiarmid不等式。定义随机变量ZZZ作为数据集DDD的函数:
Z(D)=ℓloo(L,D)−ℓ(L,D)Z(D) = \ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D)Z(D)=ℓloo(L,D)−ℓ(L,D)
需要计算cj=supD,zj′∣Z(D)−Z(Dj)∣c_j = \sup_{D, z'_j} |Z(D) - Z(D^j)|cj=supD,zj′∣Z(D)−Z(Dj)∣,其中DjD^jDj表示将DDD中的样本zjz_jzj替换为zj′z'_jzj′得到的新数据集。根据定义,差值可以表示为:
∣Z(D)−Z(Dj)∣=∣(ℓloo(D)−ℓ(D))−(ℓloo(Dj)−ℓ(Dj))∣|Z(D) - Z(D^j)| = |(\ell_{loo}(D) - \ell(D)) - (\ell_{loo}(D^j) - \ell(D^j))|∣Z(D)−Z(Dj)∣=∣(ℓloo(D)−ℓ(D))−(ℓloo(Dj)−ℓ(Dj))∣
应用三角不等式,这个差值可以被拆分为两部分:
≤∣ℓ(L,D)−ℓ(L,Dj)∣+∣ℓloo(L,D)−ℓloo(L,Dj)∣\le |\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)| + |\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|≤∣ℓ(L,D)−ℓ(L,Dj)∣+∣ℓloo(L,D)−ℓloo(L,Dj)∣
第一项:
∣ℓ(L,D)−ℓ(L,Dj)∣|\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)|∣ℓ(L,D)−ℓ(L,Dj)∣,这反映了替换单个样本对模型整体损失的影响。可以展开为:
∣Ez[ℓ(LD,z)]−Ez[ℓ(LDj,z)]∣≤Ez[∣ℓ(LD,z)−ℓ(LDj,z)∣]=2β|\mathbb{E}_z[\ell(\mathfrak{L}_D, z)] - \mathbb{E}_z[\ell(\mathfrak{L}_{D^j}, z)]| \le \mathbb{E}_z[|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^j}, z)|] = 2\beta∣Ez[ℓ(LD,z)]−Ez[ℓ(LDj,z)]∣≤Ez[∣ℓ(LD,z)−ℓ(LDj,z)∣]=2β
因此第一项的上界是2β2\beta2β。
第二项:
考察留一损失的变化量∣ℓloo(L,D)−ℓloo(L,Dj)∣|\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|∣ℓloo(L,D)−ℓloo(L,Dj)∣,这反映了替换单个样本对交叉验证损失的影响。展开表达式:
∣1m∑i=1mℓ(LD\i,zi)−1m∑i=1mℓ(L(Dj)\i,zij)∣\left|\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i^j)\right|m1i=1∑mℓ(LD\i,zi)−m1i=1∑mℓ(L(Dj)\i,zij)
其中zijz_i^jzij表示DjD^jDj中的第iii个样本。将求和项分为i=ji=ji=j和i≠ji\neq ji=j两种情况处理:
=1m∣(ℓ(LD\j,zj)−ℓ(L(Dj)\j,zj′))+∑i≠j(ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi))∣= \frac{1}{m} \left| (\ell(\mathfrak{L}_{D^{\backslash j}}, z_j) - \ell(\mathfrak{L}_{(D^j)^{\backslash j}}, z'_j)) + \sum_{i\ne j}(\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)) \right|=m1(ℓ(LD\j,zj)−ℓ(L(Dj)\j,zj′))+i=j∑(ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi))
- 当i=ji=ji=j时,两个损失函数值都在[0,M][0, M][0,M]区间内,因此其差的绝对值不超过MMM
- 当i≠ji\neq ji=j时,由于D\iD^{\backslash i}D\i和(Dj)\i(D^j)^{\backslash i}(Dj)\i这两个训练集仅相差一个样本(zjz_jzj与zj′z'_jzj′),所以类似第一部分有:
∣ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi)∣≤2β|\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)| \le 2\beta∣ℓ(LD\i,zi)−ℓ(L(Dj)\i,zi)∣≤2β
综合这两部分结果,可以得到:
≤1m(M+(m−1)⋅2β)≤Mm+2β\le \frac{1}{m} (M + (m-1)\cdot 2\beta) \le \frac{M}{m} + 2\beta≤m1(M+(m−1)⋅2β)≤mM+2β
最终得到cjc_jcj的上界:
cj=sup∣Z(D)−Z(Dj)∣≤2β+(Mm+2β)=4β+Mmc_j = \sup |Z(D) - Z(D^j)| \le 2\beta + \left(\frac{M}{m} + 2\beta\right) = 4\beta + \frac{M}{m}cj=sup∣Z(D)−Z(Dj)∣≤2β+(mM+2β)=4β+mM
接下来我们定义期望泛化误差E[Z(D)]\mathbb{E}[Z(D)]E[Z(D)]为留一误差期望与训练误差期望之差:
E[Z(D)]=E[ℓloo(L,D)]−E[ℓ(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] - \mathbb{E}[\ell(\mathfrak{L}, D)]E[Z(D)]=E[ℓloo(L,D)]−E[ℓ(L,D)]
关于留一误差的无偏性:由于ℓloo\ell_{loo}ℓloo是ℓ\ellℓ的近似无偏估计,其期望可以展开为:
E[ℓloo(L,D)]=E[1m∑i=1mℓ(LD\i,zi)]=E[ℓ(LD\1,z1)]=E[ℓ(L,D\1)]\mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}\left[\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)\right] = \mathbb{E}[\ell(\mathfrak{L}_{D^{\backslash 1}}, z_1)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})]E[ℓloo(L,D)]=E[m1i=1∑mℓ(LD\i,zi)]=E[ℓ(LD\1,z1)]=E[ℓ(L,D\1)]
中间的等式成立是基于数据独立同分布的对称性,即任意删除一个样本后的期望结果相同。
将上述结果代入可得:
E[Z(D)]=E[ℓ(L,D\1)]−E[ℓ(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})] - \mathbb{E}[\ell(\mathfrak{L}, D)]E[Z(D)]=E[ℓ(L,D\1)]−E[ℓ(L,D)]
进一步表示为:
=ED,zm′,zm[ℓ(LD\m,zm′)]−ED,zm′[ℓ(LD,zm′)]= \mathbb{E}_{D, z_m', z_m}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m')\right] - \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D}, z_m')\right]=ED,zm′,zm[ℓ(LD\m,zm′)]−ED,zm′[ℓ(LD,zm′)]
=ED,zm′[ℓ(LD\m,zm′)−ℓ(LD,zm′)]= \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m') - \ell(\mathfrak{L}_D, z_m')\right]=ED,zm′[ℓ(LD\m,zm′)−ℓ(LD,zm′)]
括号内是负的均匀稳定性,最终可得:
E[Z(D)]≥E[−β]=−β\mathbb{E}[Z(D)] \ge \mathbb{E}[-\beta] = -\betaE[Z(D)]≥E[−β]=−β
最后应用McDiarmid不等式,可以得到以下概率不等式:
P(Z(D)−E[Z(D)]≤−ϵ)≤exp(−2ϵ2∑j=1mcj2) \mathbb{P}\left(Z(D) - \mathbb{E}[Z(D)] \le -\epsilon\right) \le \exp\left(-\frac{2\epsilon^2}{\sum_{j=1}^m c_j^2}\right) P(Z(D)−E[Z(D)]≤−ϵ)≤exp(−∑j=1mcj22ϵ2)
其中,我们计算了cjc_jcj的平方和上界:
∑j=1mcj2≤∑j=1m(4β+M/m)2=m(4β+M/m)2 \sum_{j=1}^m c_j^2 \le \sum_{j=1}^m (4\beta + M/m)^2 = m(4\beta + M/m)^2 j=1∑mcj2≤j=1∑m(4β+M/m)2=m(4β+M/m)2
为了将概率上界表示为δ\deltaδ,我们设:
δ=exp(−2ϵ2m(4β+M/m)2) \delta = \exp\left(-\frac{2\epsilon^2}{m(4\beta + M/m)^2}\right) δ=exp(−m(4β+M/m)22ϵ2)
通过解这个方程,可以得到ϵ\epsilonϵ的表达式:
ϵ=m(4β+M/m)2ln(1/δ)2=(4mβ+M)ln(1/δ)2m \epsilon = \sqrt{\frac{m(4\beta + M/m)^2 \ln(1/\delta)}{2}} = (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}} ϵ=2m(4β+M/m)2ln(1/δ)=(4mβ+M)2mln(1/δ)
这意味着,至少有1−δ1-\delta1−δ的概率,以下不等式成立:
Z(D)≥E[Z(D)]−ϵ Z(D) \ge \mathbb{E}[Z(D)] - \epsilon Z(D)≥E[Z(D)]−ϵ
将Z(D)Z(D)Z(D)的定义和E[Z(D)]\mathbb{E}[Z(D)]E[Z(D)]的下界代入后,可以得到:
ℓloo(L,D)−ℓ(L,D)≥−β−(4mβ+M)ln(1/δ)2m \ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D) \ge -\beta - (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓloo(L,D)−ℓ(L,D)≥−β−(4mβ+M)2mln(1/δ)
最后,通过移项整理,我们得到了式(2)(2)(2)的最终表达式:
ℓ(L,D)≤ℓloo(L,D)+β+(4mβ+M)ln(1/δ)2m \ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta + (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓ(L,D)≤ℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
对于式(1)(1)(1)的推导,直接从均匀稳定性的定义出发可以得到:
∣ℓ^(L,D)−ℓloo(L,D)∣≤β |\hat{\ell}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D)| \le \beta ∣ℓ^(L,D)−ℓloo(L,D)∣≤β
这个不等式可以等价地表示为:
ℓloo(L,D)≤ℓ^(L,D)+β \ell_{loo}(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + \beta ℓloo(L,D)≤ℓ^(L,D)+β
现在,我们将这个结果代入前面已经证明的式(2)(2)(2)中。具体做法是将式(2)(2)(2)中的ℓloo(L,D)\ell_{loo}(\mathfrak{L}, D)ℓloo(L,D)替换为其上界ℓ^(L,D)+β\hat{\ell}(\mathfrak{L}, D) + \betaℓ^(L,D)+β:
ℓ(L,D)≤ℓloo(L,D)⏟≤ℓ^(L,D)+β+β+(4mβ+M)ln(1/δ)2m \ell(\mathfrak{L}, D) \le \underbrace{\ell_{loo}(\mathfrak{L}, D)}_{\le \hat{\ell}(\mathfrak{L}, D) + \beta} + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓ(L,D)≤≤ℓ^(L,D)+βℓloo(L,D)+β+(4mβ+M)2mln(1/δ)
将替换后的表达式展开,我们得到:
ℓ(L,D)≤(ℓ^(L,D)+β)+β+(4mβ+M)ln(1/δ)2m \ell(\mathfrak{L}, D) \le (\hat{\ell}(\mathfrak{L}, D) + \beta) + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓ(L,D)≤(ℓ^(L,D)+β)+β+(4mβ+M)2mln(1/δ)
合并同类项后,最终得到式(1)(1)(1)的完整表达式:
ℓ(L,D)≤ℓ^(L,D)+2β+(4mβ+M)ln(1/δ)2m \ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓ(L,D)≤ℓ^(L,D)+2β+(4mβ+M)2mln(1/δ)
我们费这么大劲证明了基于稳定性分析导出的算法L\mathfrak{L}L的泛化误差界,它已经说明了我们的算法是可学习的。现在我们将说明若学习算法L\mathfrak{L}L是ERM且稳定的,则假设空间H\mathcal{H}H可学习。其中若学习算法L\mathfrak{L}L所输出的假设满足经验损失最小化,则称算法L\mathfrak{L}L满足经验风险最小化(ERM)原则.
证明在书上,略。