从零开始学AI——12.1
前言
……说我字数太多,分两部分
第十二章
本章比较理论,主要说的是凭什么相信机器学习,他为什么能给出一个好的结果:本质是研究泛化误差问题
12.1 基础知识
我们先假设有一个样本集D={(x1,y1),…,(xm,ym)}D =\{(x_{1},y_{1}),\dots,(x_{m},y_{m})\}D={(x1,y1),…,(xm,ym)},其中所有样本都是独立同分布地从分布D\mathcal{D}D中采样得到的。这里每个xix_{i}xi属于输入空间X\mathcal{X}X,每个yiy_{i}yi属于输出空间Y\mathcal{Y}Y。在接下来的讨论中,如果没有特别说明,我们默认研究的是二分类问题。
通过机器学习算法,我们得到了一个学习器hhh,它实际上是一个从输入空间到输出空间的映射,即h:X→Yh:\mathcal{X}\to \mathcal{Y}h:X→Y。这个学习器的泛化误差定义为:
E(h;D)=Px∼D(h(x)≠y)
E(h;\mathcal{D})=P_{x\sim \mathcal{D}}(h(x)\neq y)
E(h;D)=Px∼D(h(x)=y)
这个式子表示当输入xxx服从分布D\mathcal{D}D时,学习器hhh预测错误的概率。
同时,基于我们已有的样本集DDD,可以计算出经验误差(也称为训练误差):
E^(h;D)=1m∑i=1mI(h(xi)≠yi)
\hat{E}(h;\mathcal{D})=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i})
E^(h;D)=m1i=1∑mI(h(xi)=yi)
这里I(⋅)\mathbb{I}(\cdot)I(⋅)是指示函数,当括号内条件成立时取值为1,否则为0。由于样本集DDD是从D\mathcal{D}D中独立同分布采样得到的,因此经验误差的期望等于泛化误差。当上下文明确时,我们可以省略误差表示中的D\mathcal{D}D。
上述内容我们应该是很熟悉的了。现在需要明确的是,我们不期望学习到的模型hhh能够完全匹配宇宙中客观存在的完美真理函数ccc(也称概念concept)。我们只要求hhh和ccc之间的误差率足够小,具体来说就是要求泛化误差不超过一个预先设定的很小正值ϵ\epsilonϵ,即满足E(h)≤ϵE(h)\leq\epsilonE(h)≤ϵ。
对于模型hhh在样本集DDD上的表现,如果经验误差E^(h;D)=0\hat{E}(h;D)=0E^(h;D)=0,我们就说hhh与DDD一致;否则称为不一致。此外,对于任意两个模型h1h_{1}h1和h2h_{2}h2,我们可以通过定义它们的不合度来衡量它们之间的差异:
d(h1,h2)=Px∼D(h1(x)≠h2(x))
d(h_{1},h_{2})=P_{x\sim \mathcal{D}}(h_{1}(x)\neq h_{2}(x))
d(h1,h2)=Px∼D(h1(x)=h2(x))
这个不合度度量了两个模型在分布D\mathcal{D}D下产生不同预测的概率。
接下来,我们引入几个常用的不等式:
不想纠结证明的朋友可以只记结论
Jensen不等式:设f(x)f(x)f(x)是任意凸函数,则有
f(E(x))≤E(f(x))f(\mathbb{E}(x))\leq \mathbb{E}(f(x))f(E(x))≤E(f(x))
对于一个凸函数f(x)f(x)f(x),找一个特殊点μ=E(x)\mu=\mathbb{E}(x)μ=E(x)。根据凸函数的定义,在点μ\muμ处存在一条支撑线(支撑超平面),使得对于所有xxx,都有:
f(x)≥f(μ)+c(x−μ)f(x) \ge f(\mu) + c(x - \mu)f(x)≥f(μ)+c(x−μ)
其中ccc是支撑线在μ\muμ处的斜率。对上述不等式两边同时取数学期望:
E[f(x)]≥E[f(μ)+c(x−μ)]\mathbb{E}[f(x)] \ge \mathbb{E}[f(\mu) + c(x - \mu)]E[f(x)]≥E[f(μ)+c(x−μ)]
将右边展开:
- 第一项f(μ)f(\mu)f(μ)是常数,其期望就是它本身:E[f(μ)]=f(μ)=f(E[x])\mathbb{E}[f(\mu)]=f(\mu)=f(\mathbb{E}[x])E[f(μ)]=f(μ)=f(E[x])
- 第二项c(x−μ)c(x-\mu)c(x−μ)可以分解为:
E[c(x−μ)]=cE[x−μ]=c(E[x]−μ)=c(μ−μ)=0\mathbb{E}[c(x - \mu)] = c\mathbb{E}[x - \mu] = c(\mathbb{E}[x] - \mu) = c(\mu - \mu) = 0E[c(x−μ)]=cE[x−μ]=c(E[x]−μ)=c(μ−μ)=0
因此不等式右边简化为f(E[x])f(\mathbb{E}[x])f(E[x]),从而得到:
E[f(x)]≥f(E[x])\mathbb{E}[f(x)] \ge f(\mathbb{E}[x])E[f(x)]≥f(E[x])
证毕。
Hoeffding不等式:设x1,x2,…,xmx_{1},x_{2},\dots,x_{m}x1,x2,…,xm为mmm个独立随机变量,且满足xi∈[0,1]x_{i}\in[0,1]xi∈[0,1],则对于任意ϵ>0\epsilon>0ϵ>0,有
P(1m∑i=1mxi−1m∑i=1mE[xi]≥ϵ)≤exp(−2mϵ2)
P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2m\epsilon^2)
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤exp(−2mϵ2)
同时
P(∣1m∑i=1mxi−1m∑i=1mE[xi]∣≥ϵ)≤2exp(−2mϵ2)
P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2\exp(-2m\epsilon^2)
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤2exp(−2mϵ2)
首先考虑第一个不等式。令Sm=∑i=1mxiS_{m}=\sum_{i=1}^{m}x_{i}Sm=∑i=1mxi,将不等式改写为:
P(Smm−E[Sm]m≥ϵ)≤exp(−2mϵ2)
P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \exp(-2m\epsilon^2)
P(mSm−mE[Sm]≥ϵ)≤exp(−2mϵ2)
对不等式左边进行如下变形:
P(Smm−E[Sm]m≥ϵ)=P(Sm−E[Sm]≥mϵ)=P(es(Sm−E[Sm])≥esmϵ)≤E[es(Sm−E[Sm])]esmϵ
\begin{align}
&P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \\
&=P\left(S_{m} - \mathbb{E}[S_m] \ge m\epsilon\right) \\
&=P\left(e^{s(S_m - \mathbb{E}[S_m])} \ge e^{sm\epsilon}\right) \\
&\leq \frac{\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]}{e^{sm\epsilon}}
\end{align}
P(mSm−mE[Sm]≥ϵ)=P(Sm−E[Sm]≥mϵ)=P(es(Sm−E[Sm])≥esmϵ)≤esmϵE[es(Sm−E[Sm])]
其中:
- 第二步引入了任意正数s>0s>0s>0,这是为了后续应用马尔可夫不等式做准备。
- 第三步应用了马尔可夫不等式:对于非负随机变量Y=es(Sm−E[Sm])Y = e^{s(S_m - \mathbb{E}[S_m])}Y=es(Sm−E[Sm]),有P(Y≥a)≤E[Y]aP(Y \ge a) \le \frac{\mathbb{E}[Y]}{a}P(Y≥a)≤aE[Y]。
接下来处理分子部分E[es(Sm−E[Sm])]\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]E[es(Sm−E[Sm])]。设zi=xi−E[xi]z_i = x_i - \mathbb{E}[x_i]zi=xi−E[xi],则Sm−E[Sm]=∑i=1mziS_m - \mathbb{E}[S_m] = \sum_{i=1}^m z_iSm−E[Sm]=∑i=1mzi。由于xix_ixi相互独立,ziz_izi也相互独立,因此:
E[es(Sm−E[Sm])]=E[es∑i=1mzi]=∏i=1mE[eszi]
\begin{align}
\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}] &= \mathbb{E}[e^{s \sum_{i=1}^m z_i}] \\
&= \prod_{i=1}^m \mathbb{E}[e^{s z_i}]
\end{align}
E[es(Sm−E[Sm])]=E[es∑i=1mzi]=i=1∏mE[eszi]
为了给出E[eszi]\mathbb{E}[e^{s z_i}]E[eszi]的上界,我们使用Hoeffding引理:
若随机变量ZZZ满足E[Z]=0\mathbb{E}[Z]=0E[Z]=0且Z∈[a,b]Z \in [a, b]Z∈[a,b],则对于任意s>0s>0s>0,有:
E[esZ]≤exp(s2(b−a)28)
\mathbb{E}[e^{sZ}] \le \exp\left(\frac{s^2(b-a)^2}{8}\right)
E[esZ]≤exp(8s2(b−a)2)
对于zi=xi−E[xi]z_i = x_i - \mathbb{E}[x_i]zi=xi−E[xi],由于xi∈[0,1]x_i \in [0,1]xi∈[0,1],可得zi∈[−E[xi],1−E[xi]]z_i \in [-\mathbb{E}[x_i], 1-\mathbb{E}[x_i]]zi∈[−E[xi],1−E[xi]],区间长度为111,且E[zi]=0\mathbb{E}[z_i]=0E[zi]=0。因此,应用Hoeffding引理得到:
E[eszi]≤exp(s28)
\mathbb{E}[e^{s z_i}] \le \exp\left(\frac{s^2}{8}\right)
E[eszi]≤exp(8s2)
将其代回分子部分:
∏i=1mE[eszi]≤∏i=1mexp(s28)=exp(ms28)
\prod_{i=1}^m \mathbb{E}[e^{s z_i}] \le \prod_{i=1}^m \exp\left(\frac{s^2}{8}\right) = \exp\left(\frac{m s^2}{8}\right)
i=1∏mE[eszi]≤i=1∏mexp(8s2)=exp(8ms2)
于是不等式变为:
P(Smm−E[Sm]m≥ϵ)≤exp(ms28)esmϵ=exp(ms28−smϵ)
P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \frac{\exp\left(\frac{m s^2}{8}\right)}{e^{s m \epsilon}} = \exp\left(\frac{m s^2}{8} - s m \epsilon\right)
P(mSm−mE[Sm]≥ϵ)≤esmϵexp(8ms2)=exp(8ms2−smϵ)
由于该不等式对所有s>0s>0s>0成立,我们选择sss使得右侧指数最小。对s28−sϵ\frac{s^2}{8} - s \epsilon8s2−sϵ关于sss求导并令导数为零,得到最优s=4ϵs=4\epsilons=4ϵ。将其代入,得到最小上界:
exp(m(4ϵ)28−4ϵmϵ)=exp(−2mϵ2)
\exp\left(\frac{m (4\epsilon)^2}{8} - 4\epsilon m \epsilon\right) = \exp(-2 m \epsilon^2)
exp(8m(4ϵ)2−4ϵmϵ)=exp(−2mϵ2)
因此:
P(1m∑i=1mxi−1m∑i=1mE[xi]≥ϵ)≤exp(−2mϵ2)
P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2 m \epsilon^2)
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤exp(−2mϵ2)
证明第二个不等式:
对于绝对值形式的不等式,可以将其拆分为两个事件:
{∣1m∑i=1mxi−1m∑i=1mE[xi]∣≥ϵ}={1m∑i=1mxi−1m∑i=1mE[xi]≥ϵ}∪{1m∑i=1mxi−1m∑i=1mE[xi]≤−ϵ}
\left\{ \left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon \right\} = \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon \right\} \cup \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \le -\epsilon \right\}
{m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ}={m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ}∪{m1i=1∑mxi−m1i=1∑mE[xi]≤−ϵ}
由概率的并集不等式P(A∪B)≤P(A)+P(B)P(A \cup B) \le P(A) + P(B)P(A∪B)≤P(A)+P(B),有:
P(∣1m∑i=1mxi−1m∑i=1mE[xi]∣≥ϵ)≤P(1m∑i=1mxi−1m∑i=1mE[xi]≥ϵ)+P(1m∑i=1mE[xi]−1m∑i=1mxi≥ϵ)
P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) + P\left(\frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] - \frac{1}{m}\sum_{i=1}^m x_i \ge \epsilon\right)
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)+P(m1i=1∑mE[xi]−m1i=1∑mxi≥ϵ)
第一项的上界已证明为exp(−2mϵ2)\exp(-2 m \epsilon^2)exp(−2mϵ2)。对于第二项,可以通过变量替换xi→−xix_i \to -x_ixi→−xi,由于xi∈[0,1]x_i \in [0,1]xi∈[0,1]的性质和独立性保持不变,其概率上界同样为exp(−2mϵ2)\exp(-2 m \epsilon^2)exp(−2mϵ2)。因此:
P(∣1m∑i=1mxi−1m∑i=1mE[xi]∣≥ϵ)≤2exp(−2mϵ2)
P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2 \exp(-2 m \epsilon^2)
P(m1i=1∑mxi−m1i=1∑mE[xi]≥ϵ)≤2exp(−2mϵ2)
证毕。
McDiarmid不等式:
设 x1,x2,…,xmx_1, x_2, \ldots, x_mx1,x2,…,xm 是 mmm 个独立的随机变量,若函数 fff 满足:对于任意 1⩽i⩽m1 \leqslant i \leqslant m1⩽i⩽m 和任意的 x1,…,xm,xi′x_1, \ldots, x_m, x_i'x1,…,xm,xi′,都有
∣f(x1,…,xm)−f(x1,…,xi−1,xi′,xi+1,…,xm)∣⩽ci,
\left| f(x_1, \ldots, x_m) - f(x_1, \ldots, x_{i-1}, x_i', x_{i+1}, \ldots, x_m) \right| \leqslant c_i,
∣f(x1,…,xm)−f(x1,…,xi−1,xi′,xi+1,…,xm)∣⩽ci,
这意味着当只改变第 iii 个输入变量时,函数值的变化幅度不超过 cic_ici。那么对于任意 ϵ>0\epsilon > 0ϵ>0,有
P(f(x1,…,xm)−E[f(x1,…,xm)]⩾ϵ)⩽exp(−2ϵ2∑i=1mci2),
P \left( f(x_1, \ldots, x_m) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \geqslant \epsilon \right) \leqslant \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right),
P(f(x1,…,xm)−E[f(x1,…,xm)]⩾ϵ)⩽exp(∑i=1mci2−2ϵ2),
以及
P(∣f(x1,…,xm)−E[f(x1,…,xm)]∣⩾ϵ)⩽2exp(−2ϵ2∑i=1mci2).
P \left( \left| f\left( x_1, \ldots, x_m \right) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \right| \geqslant \epsilon \right) \leqslant 2 \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right).
P(∣f(x1,…,xm)−E[f(x1,…,xm)]∣⩾ϵ)⩽2exp(∑i=1mci2−2ϵ2).
为了简化书写,记 X=(x1,…,xm)X = (x_1, \ldots, x_m)X=(x1,…,xm),并定义 Z=f(X)−E[f(X)]Z = f(X) - \mathbb{E}[f(X)]Z=f(X)−E[f(X)]。我们引入条件期望的记号:Ei[⋅]\mathbb{E}_i[\cdot]Ei[⋅] 表示对变量 {xi,xi+1,…,xm}\{x_i, x_{i+1}, \ldots, x_m\}{xi,xi+1,…,xm} 取期望,而将 {x1,…,xi−1}\{x_1, \ldots, x_{i-1}\}{x1,…,xi−1} 视为固定值。定义
Vi=E[f(X)∣x1,…,xi],
V_i = \mathbb{E}[f(X) | x_1, \ldots, x_i],
Vi=E[f(X)∣x1,…,xi],
这是一个仅依赖于前 iii 个变量的函数。特别地:
- Vm=E[f(X)∣x1,…,xm]=f(X)V_m = \mathbb{E}[f(X) | x_1, \ldots, x_m] = f(X)Vm=E[f(X)∣x1,…,xm]=f(X),
- V0=E[f(X)]V_0 = \mathbb{E}[f(X)]V0=E[f(X)]。
于是,ZZZ 可以表示为:
Z=Vm−V0=∑i=1m(Vi−Vi−1).
Z = V_m - V_0 = \sum_{i=1}^m (V_i - V_{i-1}).
Z=Vm−V0=i=1∑m(Vi−Vi−1).
记 Yi=Vi−Vi−1Y_i = V_i - V_{i-1}Yi=Vi−Vi−1,则 Z=∑i=1mYiZ = \sum_{i=1}^m Y_iZ=∑i=1mYi。接下来,我们采用切诺夫界的方法:对于任意 λ>0\lambda > 0λ>0,有
P(Z⩾ϵ)⩽e−λϵE[eλZ]=e−λϵE[exp(λ∑i=1mYi)].
P(Z \geqslant \epsilon) \leqslant e^{-\lambda \epsilon} \mathbb{E}[e^{\lambda Z}] = e^{-\lambda \epsilon} \mathbb{E}\left[\exp\left(\lambda \sum_{i=1}^m Y_i\right)\right].
P(Z⩾ϵ)⩽e−λϵE[eλZ]=e−λϵE[exp(λi=1∑mYi)].
切诺夫界方法:对于随机变量 ZZZ,通过引入参数 λ>0\lambda > 0λ>0,利用马尔可夫不等式可得:
P(Z⩾ϵ)=P(eλZ⩾eλϵ)⩽E[eλZ]eλϵ.P(Z \geqslant \epsilon) = P(e^{\lambda Z} \geqslant e^{\lambda \epsilon}) \leqslant \frac{\mathbb{E}[e^{\lambda Z}]}{e^{\lambda \epsilon}}.P(Z⩾ϵ)=P(eλZ⩾eλϵ)⩽eλϵE[eλZ].
接下来计算 E[eλZ]\mathbb{E}[e^{\lambda Z}]E[eλZ]。根据塔定律(条件期望的迭代性质),可以逐步对变量取条件期望。首先:
E[eλ∑i=1mYi]=E[E[eλ∑i=1mYi∣x1,…,xm−1]].
\mathbb{E}[e^{\lambda \sum_{i=1}^m Y_i}] = \mathbb{E}\left[ \mathbb{E}\left[ e^{\lambda \sum_{i=1}^m Y_i} | x_1, \ldots, x_{m-1} \right] \right].
E[eλ∑i=1mYi]=E[E[eλ∑i=1mYi∣x1,…,xm−1]].
在内层条件期望中,x1,…,xm−1x_1, \ldots, x_{m-1}x1,…,xm−1 是固定的,因此 Y1,…,Ym−1Y_1, \ldots, Y_{m-1}Y1,…,Ym−1 是常数,可以提出:
E[eλ∑i=1m−1Yi⋅eλYm∣x1,…,xm−1]=eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1].
\mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] = e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right].
E[eλ∑i=1m−1Yi⋅eλYm∣x1,…,xm−1]=eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1].
将其代回外层期望,得到:
E[eλZ]=E[eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1]].
\mathbb{E}[e^{\lambda Z}] = \mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] \right].
E[eλZ]=E[eλ∑i=1m−1Yi⋅E[eλYm∣x1,…,xm−1]].
重复这一过程,逐步对 Ym−1,Ym−2,…,Y1Y_{m-1}, Y_{m-2}, \ldots, Y_1Ym−1,Ym−2,…,Y1 取条件期望,最终只需考虑:
E[eλYi∣x1,…,xi−1].
\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right].
E[eλYi∣x1,…,xi−1].
为了对上式进行界估计,我们使用Hoeffding引理。首先验证 YiY_iYi 的条件:
- 零均值性:
E[Yi∣x1,…,xi−1]=E[Vi∣x1,…,xi−1]−Vi−1=Vi−1−Vi−1=0. \mathbb{E}[Y_i | x_1, \ldots, x_{i-1}] = \mathbb{E}[V_i | x_1, \ldots, x_{i-1}] - V_{i-1} = V_{i-1} - V_{i-1} = 0. E[Yi∣x1,…,xi−1]=E[Vi∣x1,…,xi−1]−Vi−1=Vi−1−Vi−1=0. - 有界性:
定义辅助函数:
g(xi′)=E[f(x1,…,xi−1,xi′,…,xm)∣x1,…,xi−1], g(x_i') = \mathbb{E}[f(x_1, \ldots, x_{i-1}, x_i', \ldots, x_m) | x_1, \ldots, x_{i-1}], g(xi′)=E[f(x1,…,xi−1,xi′,…,xm)∣x1,…,xi−1],
则 Vi=g(xi)V_i = g(x_i)Vi=g(xi),Vi−1=E[g(xi′)]V_{i-1} = \mathbb{E}[g(x_i')]Vi−1=E[g(xi′)],因此:
Yi=g(xi)−E[g(xi′)]. Y_i = g(x_i) - \mathbb{E}[g(x_i')]. Yi=g(xi)−E[g(xi′)].
由最开始fff 的性质∣f(…)−f(…)∣≤ci|f(\ldots) - f(\ldots)| \le c_i∣f(…)−f(…)∣≤ci,ggg 的值域满足:
supxi′,xi′′∣g(xi′)−g(xi′′)∣⩽ci. \sup_{x_i', x_i''} |g(x_i') - g(x_i'')| \leqslant c_i. xi′,xi′′sup∣g(xi′)−g(xi′′)∣⩽ci.
因此,YiY_iYi 的取值区间宽度不超过 cic_ici。
根据Hoeffding引理,有:
E[eλYi∣x1,…,xi−1]⩽exp(λ2ci28).
\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right] \leqslant \exp\left( \frac{\lambda^2 c_i^2}{8} \right).
E[eλYi∣x1,…,xi−1]⩽exp(8λ2ci2).
将其代入 E[eλZ]\mathbb{E}[e^{\lambda Z}]E[eλZ] 的表达式,得到:
E[eλZ]⩽∏i=1mexp(λ2ci28)=exp(λ2∑i=1mci28).
\mathbb{E}[e^{\lambda Z}] \leqslant \prod_{i=1}^m \exp\left( \frac{\lambda^2 c_i^2}{8} \right) = \exp\left( \frac{\lambda^2 \sum_{i=1}^m c_i^2}{8} \right).
E[eλZ]⩽i=1∏mexp(8λ2ci2)=exp(8λ2∑i=1mci2).
最后,通过优化 λ\lambdaλ 来最小化右式。令导数为零,解得:
λ=4ϵ∑i=1mci2,
\lambda = \frac{4\epsilon}{\sum_{i=1}^m c_i^2},
λ=∑i=1mci24ϵ,
此时指数部分取得最小值:
−2ϵ2∑i=1mci2.
-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}.
−∑i=1mci22ϵ2.
因此,第一条不等式得证。第二条不等式可以通过类似 Hoeffding 不等式的对称性证明,此处省略。
12.2 PAC学习
回到我们的主线,我们需要解决的问题是学习器的泛化性能分析。为此,提出了可能近似正确(Probably Approximately Correct, PAC)学习框架,旨在为这一问题建立严格的数学理论基础。
正如前文所述,在这个框架下,我们对学习器的要求包含两个关键方面:
-
近似正确:不要求学习器hhh达到零错误率,但要求其错误率能够控制在可接受的范围内。具体来说,对于给定的误差阈值ϵ>0\epsilon > 0ϵ>0,学习器的错误率应当满足err(h)≤ϵerr(h) \leq \epsilonerr(h)≤ϵ。这里的ϵ\epsilonϵ反映了我们对模型精度的要求。
-
可能:不要求学习过程每次都成功,但要求成功的概率足够高。具体而言,对于给定的置信参数δ>0\delta > 0δ>0,学习过程失败的概率不超过δ\deltaδ。换句话说,我们以至少1−δ1-\delta1−δ的概率保证学习器满足近似正确性条件。δ\deltaδ的设定反映了我们对学习过程可靠性的要求。
PAC学习理论主要研究在给定学习要求的情况下,学习算法需要满足的条件,特别是所需的训练数据量。我们沿用之前的符号定义:输入空间X\mathcal{X}X和输出空间Y\mathcal{Y}Y,数据分布D\mathcal{D}D,目标概念ccc。
接着引入两个概念:
- 假设空间H\mathcal{H}H:表示在特定学习算法L\mathcal{L}L作用下可能产生的所有假设hhh的集合。这里需要特别注意,这个H\mathcal{H}H是与算法相关的,不同于学习任务本身的理论假设空间。
- 概念类C\mathcal{C}C:表示我们希望学习的所有可能目标概念的集合。如果目标概念ccc包含在假设空间H\mathcal{H}H中(即c∈Hc\in \mathcal{H}c∈H),那么我们称学习算法L\mathcal{L}L是可分的或者一致的;反之则称为不可分的或不一致的。
接下来给出四个定义:
PAC辨识:对于任意的0<ϵ,δ<10<\epsilon,\delta<10<ϵ,δ<1,针对所有可能的目标概念c∈Cc\in \mathcal{C}c∈C和所有可能的数据分布D\mathcal{D}D,若存在一个学习算法L\mathcal{L}L,使得该算法输出的假设h∈Hh\in \mathcal{H}h∈H满足以下概率不等式:
P(E(h)≤ϵ)≥1−δ
P(E(h)\leq\epsilon)\geq 1-\delta
P(E(h)≤ϵ)≥1−δ
其中E(h)E(h)E(h)表示假设hhh的泛化误差,那么称学习算法L\mathcal{L}L能够从假设空间H\mathcal{H}H中PAC辨识概念类C\mathcal{C}C。这个定义将机器学习算法需要满足的可靠性要求进行了严格的数学表述。
需要特别注意的是,虽然PAC辨识提供了一个理想化的理论保证,但它没有考虑实现这个保证所需的样本数量。如果达到该保证需要无限多个训练样本,那么这个理论结果就失去了实际应用价值。
PAC可学习:设mmm表示从分布D\mathcal{D}D中独立同分布采样得到的训练样本数量,给定参数0<ϵ,δ<10<\epsilon,\delta<10<ϵ,δ<1。如果对于所有可能的分布D\mathcal{D}D,都存在一个学习算法L\mathcal{L}L和一个多项式函数poly(⋅,⋅,⋅,⋅)\text{poly}(\cdot,\cdot,\cdot,\cdot)poly(⋅,⋅,⋅,⋅),使得当样本量mmm满足:
m≥poly(1/ϵ,1/δ,size(x),size(c))
m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))
m≥poly(1/ϵ,1/δ,size(x),size(c))
时,L\mathcal{L}L都能从假设空间H\mathcal{H}H中PAC辨识概念类C\mathcal{C}C,那么就称概念类C\mathcal{C}C相对于假设空间H\mathcal{H}H是PAC可学习的,简称为概念类C\mathcal{C}C是PAC可学习的。
这个定义的核心在于对样本的多项式约束,具体解释如下:
- 1/ϵ1/\epsilon1/ϵ:要求的精度越高(ϵ\epsilonϵ越小),需要的样本量越大
- 1/δ1/\delta1/δ:置信度要求越高(δ\deltaδ越小),需要的样本量越大
- size(x)\text{size}(\boldsymbol{x})size(x):输入样本的表示复杂度
- size(c)\text{size}(c)size(c):目标概念的描述复杂度
多项式增长意味着样本需求量的上界是可控的,这与指数级增长形成鲜明对比,后者在实际中往往是不可行的。
在保证样本效率的基础上,我们还需要考虑计算效率,这就引出了下一个定义:
PAC学习算法:如果一个学习算法L\mathcal{L}L不仅使概念类C\mathcal{C}C是PAC可学习的,而且L\mathcal{L}L本身的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c))\text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))poly(1/ϵ,1/δ,size(x),size(c)),那么就称概念类C\mathcal{C}C是高效PAC可学习的,并称L\mathcal{L}L为概念类C\mathcal{C}C的PAC学习算法。
这个定义在PAC可学习的基础上增加了对算法时间复杂度的约束,其理解方式与PAC可学习类似。
最后,PAC可学习给出了样本量的一个下界,而我们还希望知道这个下界的最小值,这就是:
样本复杂度:对于PAC学习算法L\mathcal{L}L,若存在多项式函数poly(⋅)\text{poly}(\cdot)poly(⋅)使得当样本量mmm满足m≥poly(1/ϵ,1/δ,size(x),size(c))m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))m≥poly(1/ϵ,1/δ,size(x),size(c))时,L\mathcal{L}L能实现PAC学习,则称满足该条件的最小mmm值为该算法的样本复杂度。
这个指标反映了算法达到PAC学习要求所需的最小样本数量。
在PAC学习中,假设空间H\mathcal{H}H的复杂度是一个重要因素:
- 当H=C\mathcal{H}=\mathcal{C}H=C时(即假设空间与概念类完全一致),称为恰PAC学习,但这种情况通常难以实现。
- 更常见的情形是H≠C\mathcal{H}\neq\mathcal{C}H=C,此时H\mathcal{H}H的规模会影响学习难度:
- H\mathcal{H}H越大,包含目标概念ccc的可能性越高,但找到正确的ccc也越困难。
- 若∣H∣|\mathcal{H}|∣H∣有限,称H\mathcal{H}H为有限假设空间;否则称为无限假设空间。
12.3 有限假设空间
我们先考虑最直观且简单的情形:模型假设空间是有限的,并且算法L\mathcal{L}L是可分的(即存在至少一个假设h∈Hh \in \mathcal{H}h∈H在训练集上完全正确)。这种情况下,PAC学习的结论会如何?
由于L\mathcal{L}L可分且H\mathcal{H}H有限,我们可以通过遍历排除法逐步筛选假设:首先丢弃所有与训练集L\mathcal{L}L不一致的假设,剩下的假设称为一致假设。但一致性只是必要条件,PAC学习还要求这些假设的泛化误差必须足够小。根据上一节的知识:对任意一个一致假设hhh,其泛化误差E(h)≤ϵE(h) \leq \epsilonE(h)≤ϵ的概率至少为1−δ1-\delta1−δ,才能满足PAC可辨识性。
证明过程如下:
假设从H\mathcal{H}H中随机选取一个坏假设hbadh_{bad}hbad,其泛化误差满足E(hbad)>ϵE(h_{bad}) > \epsilonE(hbad)>ϵ。对于任意来自分布D\mathcal{D}D的样本(x,y)(\mathbf{x}, y)(x,y),该假设预测正确的概率为:
P(hbad(x)=y)=1−P(hbad(x)≠y)=1−E(hbad)<1−ϵ
P(h_{bad}(\mathbf{x}) = y) = 1 - P(h_{bad}(\mathbf{x}) \neq y) = 1 - E(h_{bad}) < 1 - \epsilon
P(hbad(x)=y)=1−P(hbad(x)=y)=1−E(hbad)<1−ϵ
这意味着,坏假设hbadh_{bad}hbad在单次预测中不犯错(即“蒙混过关”)的概率严格小于1−ϵ1 - \epsilon1−ϵ。如果hbadh_{bad}hbad要成为一致假设,它必须对所有mmm个训练样本都预测正确,这一事件的概率不超过(1−ϵ)m(1 - \epsilon)^m(1−ϵ)m。
接下来考虑假设空间H\mathcal{H}H的整体性质。虽然无法直接计算抽到坏假设的概率,但可以通过联合界得到失败概率的上界:
Pfail≤∣H∣⋅(1−ϵ)m≤∣H∣⋅e−ϵm
P_{\text{fail}} \leq |\mathcal{H}| \cdot (1 - \epsilon)^m \leq |\mathcal{H}| \cdot e^{-\epsilon m}
Pfail≤∣H∣⋅(1−ϵ)m≤∣H∣⋅e−ϵm
其中最后一步利用了不等式1−x≤e−x1 - x \leq e^{-x}1−x≤e−x(x>0x > 0x>0)。这表明,算法L\mathcal{L}L输出坏假设的概率(即学习失败的概率)不超过∣H∣e−ϵm|\mathcal{H}| e^{-\epsilon m}∣H∣e−ϵm。为了满足PAC要求,我们强制该概率小于δ\deltaδ:
∣H∣e−ϵm≤δ
|\mathcal{H}| e^{-\epsilon m} \leq \delta
∣H∣e−ϵm≤δ
解得所需的最小样本量mmm为:
m≥1ϵ(ln∣H∣+ln1δ)
m \geq \frac{1}{\epsilon} \left( \ln|\mathcal{H}| + \ln\frac{1}{\delta} \right)
m≥ϵ1(ln∣H∣+lnδ1)
结论:只要样本数量mmm满足上述条件,有限假设空间H\mathcal{H}H在可分情形下一定是PAC可辨识且可学习的。
以上结论成立的条件中有一个明显的可分情形假设,那么如果数据不可分时该如何处理?在这种情况下,E^(h)≠0,∀h∈H\hat{E}(h)\neq {0} ,\forall h\in HE^(h)=0,∀h∈H,也就是说对于假设空间中的任何假设,其在训练集上都无法达到完美表现。
这时一个自然的思路是放宽要求:我们只需要保证假设空间中在训练集上表现最好的那个假设hhh,其泛化误差E(h)<ϵE(h)<\epsilonE(h)<ϵ的概率达到1−δ1-\delta1−δ即可。
首先,这个证明需要用到之前提到的霍夫丁不等式:
P(∣E^(h)−E(h)∣>ϵ)≤2e−2mϵ2
P(|\hat{E}(h) - E(h)| > \epsilon) \le 2e^{-2m\epsilon^2}
P(∣E^(h)−E(h)∣>ϵ)≤2e−2mϵ2
接下来我们继续使用联合界。学习失败的事件定义为至少存在一个h∈Hh \in \mathcal{H}h∈H使得训练误差和泛化误差的偏差超过ϵ\epsilonϵ:
Pfail=P(∃h∈H,∣E^(h)−E(h)∣>ϵ)≤∑h∈HP(∣E^(h)−E(h)∣>ϵ)≤∑h∈H2e−2mϵ2=2∣H∣e−2mϵ2
\begin{align}
P_{fail} &= P(\exists h\in H,|\hat{E}(h)-E(h)|>\epsilon)\\
&\leq \sum_{h\in H}P(|\hat{E}(h)-E(h)|>\epsilon) \\
&\leq \sum_{h\in H} 2e^{-2m\epsilon^2} \\
&=2|\mathcal{H}|e^{-2m\epsilon^{2}}
\end{align}
Pfail=P(∃h∈H,∣E^(h)−E(h)∣>ϵ)≤h∈H∑P(∣E^(h)−E(h)∣>ϵ)≤h∈H∑2e−2mϵ2=2∣H∣e−2mϵ2
我们希望这个失败概率不超过δ\deltaδ,于是得到不等式∣H∣⋅2e−2mϵ2≤δ|\mathcal{H}| \cdot 2e^{-2m\epsilon^2} \le \delta∣H∣⋅2e−2mϵ2≤δ,解这个不等式可以得到:
m≥12ϵ2(ln∣H∣+ln2δ)
m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)
m≥2ϵ21(ln∣H∣+lnδ2)
这个结果表明即使在不可分情形下,PAC学习仍然是可能的。因此我们定义:
不可知 PAC 可学习:设mmm表示从分布D\mathcal{D}D中独立同分布采样的样本数量,0<ϵ,δ<10 < \epsilon, \delta < 10<ϵ,δ<1。如果对于所有分布D\mathcal{D}D,存在学习算法L\mathcal{L}L和多项式函数poly(⋅,⋅,⋅,⋅)\text{poly}(\cdot, \cdot, \cdot, \cdot)poly(⋅,⋅,⋅,⋅),使得对于任何m≥poly(1/ϵ,1/δ,size(x),size(c))m \ge \text{poly}(1/\epsilon, 1/\delta, \text{size}(x), \text{size}(c))m≥poly(1/ϵ,1/δ,size(x),size(c)),L\mathcal{L}L能从假设空间H\mathcal{H}H中输出满足以下条件的假设hhh:
P(E(h)−minh′∈HE(h′)≤ϵ)≥1−δ
P\left(E(h) - \min_{h' \in \mathcal{H}} E(h') \le \epsilon\right) \ge 1 - \delta
P(E(h)−h′∈HminE(h′)≤ϵ)≥1−δ
则称假设空间H\mathcal{H}H是不可知 PAC 可学习的。
最终我们得到了不可知 PAC 学习的样本复杂度界。将其与之前"可分"情况的结果进行比较:
- 可分情形: m≥1ϵ(ln∣H∣+ln1δ)m \ge \frac{1}{\epsilon} \left(\ln|\mathcal{H}| + \ln\frac{1}{\delta}\right)m≥ϵ1(ln∣H∣+lnδ1)
- 不可分情形: m≥12ϵ2(ln∣H∣+ln2δ)m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)m≥2ϵ21(ln∣H∣+lnδ2)
可以观察到对ϵ\epsilonϵ的依赖关系从1/ϵ1/\epsilon1/ϵ变为1/ϵ21/\epsilon^21/ϵ2,这说明在不可知设定下,要达到相同的精度要求需要多得多的样本。