模式识别 ——第七章—— 统计学习理论概要
模式识别 第七章 统计学习理论概要
- 7.1引言
- 过学习
- 推广能力
- 7.2 机器学习问题的提法
- 7.2.1 机器学习问题的函数估计表示
- 三类基本的机器学习问题
- 7.2.2 经验风险最小化原则
- 7.3 学习过程的一致性
- 7.4 函数集的容量与VC维
- VC维
- 7.5 推广能力的界与结构风险最小化原则
- 置信范围
- 7.6 支持向量机的理论分析
- 7.7 不适定问题和正则化方法简介
- 7.7.1 不适定问题
- 7.7.2 正则化方法
- 7.7.3 常见的正则化方法
- 讨论
7.1引言
统计学习理论概要是在有限样本下的机器学习理论。
过学习
1.在样本数目有限时,机器学习面临的最突出的问题之一就是过学习。
2.过学习:指机器学习在训练样本上的表现明显好于在未来测试样本上或在实际应用上的表现。
推广能力
人们把在一定样本上训练的模型或算法在未来新样本上的表现称作机器学习的推广能力。
1.推广能力是学习机器的一种性质,是否出现过学习是机器学习在具体问题上表现得现象。
7.2 机器学习问题的提法
7.2.1 机器学习问题的函数估计表示
机器学习问题可以形象化的表示为已知变量yyy 和输入xxx 之间存在一定的未知依赖关系,即存在一个位置的联合概率密度函数F(x,y)F(x,y)F(x,y) 。机器学习就是根据lll个独立同分布观测样本
(x1,y1),(x2,y2),...,(xl,yl)(x_1,y_1),(x_2,y_2),...,(x_l,y_l)(x1,y1),(x2,y2),...,(xl,yl)
在一个函数集{f(x,α),α∈∧}\{f(x,\alpha),\alpha \in\wedge\}{f(x,α),α∈∧}中求一个最优的函数f(x,α0)f(x,\alpha_0)f(x,α0)是它给出的预测的期望风险最小.
预测的期望风险R(α)=∫L(y,f(x,α))dF(x,y)R(\alpha)=\int L(y,f(x,\alpha))dF(x,y)R(α)=∫L(y,f(x,α))dF(x,y)
其中L(y,f(x,α))L(y,f(x,\alpha))L(y,f(x,α))为由于用f(x,α)f(x,\alpha)f(x,α)对yyy进行预测而造成的损失,称作损失函数。R(α)R(\alpha)R(α)是函数f(x,α)f(x,\alpha)f(x,α)的函数,故称作期望风险泛函。
三类基本的机器学习问题
有三类基本的机器学习问题,他们是模式识别,函数拟合,概率密度估计。
1.模式识别
仅讨论监督模式识别,系统输出就是类别符号,在两类情况下,y={0,1}y=\{0,1\}y={0,1}或y={−1,1}y=\{-1,1\}y={−1,1}是二值函数,这时预测函数乘坐指示函数,也就是本书前面乘坐的类别函数。
2.函数拟合问题
在函数拟合问题中,yyy是连续变量,它是x的函数,这时损失函数可以定义为
L(y,f(x,α))=(y−f(x,α))2L(y,f(x,\alpha))=(y-f(x,\alpha))^2L(y,f(x,α))=(y−f(x,α))2
3.概率密度估计
没有任何预测密度输出,学习的目的是使得到的概率密度函数p(x,α)p(x,\alpha)p(x,α)能够最好的描述训练样本集,这时学习的损失函数可以设为模型的负对数似然函数,最小化这个损失的解就是概率密度函数的最大似然估计。
7.2.2 经验风险最小化原则
定义经验风险为在训练样本上损失函数的平均
Remp(α)=1l∑i=1lL(yi,f(xi,α))R_{emp}(\alpha)=\frac{1}{l} \sum_{i=1}^lL(y_i,f(x_i, \alpha))Remp(α)=l1i=1∑lL(yi,f(xi,α))
1.历史上大部分机器学习方法实际上都是应用最小化经验风险在替代最小化期望风险的目标。
2.ERM原则(经验风险最小化原则):统计学理论把这种在训练样本上最小化错误或者风险的策略称为经验风险最小化原则。
7.3 学习过程的一致性
学习过程的一致性,就是指在训练样本上以经验风险最小化原则进行的学习,在样本数趋近于无穷大时与期望风险最小的目标是否一致。
1.经验风险最小化学习一直的充分必要条件从直观上理解是保证经验风险泛函在整体上逼近期望风险泛函,但不能保证使经验风险泛函最小化的解也能使期望风险最小。
2.经验风险最小化学习是否具有一致性,不是取决于平均情况,而是取决于最坏情况。
7.4 函数集的容量与VC维
1.一个指示函数集的容量也就是用函数集中的函数对各种样本实现分类的能力,容量这个词在这里与能力是同一个词。
2.一个采用经验风险最小化原则的学习过程要一致,函数集的能力不能够跟随样本数无限增长。
VC维
1.VC维衡量的是一个函数集能打散的最大样本点数是多少。
2.VC维有限是学习过程一致性的充分必要条件,而且这时学习过程也是快的。
3.直观定义:
加入一个有hhh个样本的样本集能被一个函数集中的函数按照所有可能的2h2^h2h种形式分为两类,则称函数集能把样本数为h的样本集打散。
4.指示函数集的VC维就是,就是用这个函数集中的函数把所有能打散的最大样本集的样本数目。
5.函数集的VC维并不简单地与函数中的自由参数个数有关,而是函数本身的复杂程度有关。
7.5 推广能力的界与结构风险最小化原则
【定理】对于两类分类问题,对指数函数集所有函数,经验风险与实际风险之间满足以下关系:
R(a)⩽Remp(α)+Φ(hl)R(a)\leqslant R_{\mathrm{emp}}(\alpha)+\Phi\left(\frac{h}{l}\right)R(a)⩽Remp(α)+Φ(lh)
其中,Φ(l/h)\Phi(l/h)Φ(l/h)是样本数lll的单调减函数、VC维hhh的单调增函数。
置信范围
置信范围:在有限样本下,期望风险可能会大于经验风险,超出部分的最大上界是Φ(l/h)\Phi(l/h)Φ(l/h)。
置信范围与VC维成正比,与样本数成反比。
(1)设计一个机器学习模型即意味着选择了一定的函数集,用样本训练的过程就是寻求经验风险的最小化。
(2)对于有限样本应该尽可能选用相对简单的分类器,因为对于一个特定的问题,样本数是固定的,此时学习机器的VC维越高,置信范围越大,导致真是风险与经验风险之间可能的差就越大,推广能力可能越差。
(3)我们需要同时最小化经验风险和置信范围,设计学习模型和算法的过程就是优化置信范围的过程。再模式识别过程中,选定了一种分类器形式,就是确定了学习机器的VC维。
统计学习理论一个基本的结论就是设计和训练学习机器不应该采用经验风险最小化原则,而应该采用结构风险最小化原则。
7.6 支持向量机的理论分析
1.ddd维空间中不加约束的线性函数集的VC维就是d+1d+1d+1。
2.对于间隔为δ\deltaδ的线性函数子集来说,如果这个间隔足够大,则函数自己的VC维主要由间隔决定,有可能小于甚至远小于空间维数。
3.再改为u空间中,尤其是经过和函数变换后的高维空间中,空间维数很大甚至是无穷大,但通过控制分类间隔,可以有效控制函数子集的VC集,从而保证再函数子集中求得经验风险最小的解具有最好的推广能力。
7.7 不适定问题和正则化方法简介
7.7.1 不适定问题
不适定问题是在20世纪提出的,他发现,在很多情况下,求解算子方程
Af=F,f∈FAf=F,\quad f\in\mathfrak{F}Af=F,f∈F
的问题是不适定的。即即使方程存在唯一解,方程右边的微小扰动会带来很大变化。
7.7.2 正则化方法
不适定问题应该通过最小化下面的正则化泛函(类似于结构风险最小化)解决:
R∗(f)=∣∣Af−Fδ∣∣2+λ(δ)Ω(f)R^{*}(f)=|| Af-F_{\delta}||^{2}+\lambda(\delta)\Omega(f)R∗(f)=∣∣Af−Fδ∣∣2+λ(δ)Ω(f)
其中Ω(f)\Omega(f)Ω(f)是度量解fff的某种性质的泛函,λ(δ)\lambda\left(\delta\right)λ(δ)是与观测噪声水平有关的需适当选取的常数。
7.7.3 常见的正则化方法
选取不同的正则化项Ω(f)\Omega(f)Ω(f),就产生了不同的正则化方法,他们在模型和算法性质上各有不同的特点。
以下β\betaβ表示回归函数中的参数向量,V(yj,βTxj)V(y_{j},\beta^{\mathrm{T}}x_{j})V(yj,βTxj)表示回归误差的某种度量(如绝对值误差或平方误差)
1.L0L_0L0正则化
minβ1l∑i=1lV(yj,βTxj)+λ∣∣β∣∣0\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda|\mid\beta|\mid_{0}βminl1i=1∑lV(yj,βTxj)+λ∣∣β∣∣0
L0L_0L0范数就是对参数向量中非零参数个数的计数,把它放到目标函数中进行最小化,就是要求经验风险最小化的同时希望函数中非零参数的个数尽可能少。实现在减小训练误差的同时实现特征选择的功能。
2.L1L_1L1正则化(Lasso或基追踪算法)
minβ1l∑i=1′(yj−βTxj)2+λ∣∣β∣∣1\min_{\beta}\frac{1}{l}\sum_{i=1}^{\prime}\left(y_{j}-\beta^{\mathrm{T}}x_{j}\right)^{2}+\lambda\left||\beta\right||_{1}βminl1i=1∑′(yj−βTxj)2+λ∣∣β∣∣1
L1L_1L1范数即参数向量各元素的绝对值之和也可以用来作为对非零参数个数的一种惩罚。
3.L2L_2L2正则化(Tikhonov正则化)
minβ1l∑i=1lV(yj,βTxj)+λ∣∣β∣∣2\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda||\beta||^{2}βminl1i=1∑lV(yj,βTxj)+λ∣∣β∣∣2
采用了平方和,在计算上有很大的方便性,也是最早提出正则化方法时采用的范数。L2L_2L2范数能够有效地防止参数变得过大,可以有效地避免过拟合,但平方惩罚对于强制小的参数变成0的作用不大。
4.LqL_qLq正则化
minβ1l∑i=1lV(yj,βTxj)+λ∑j∣βjq∣1q\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda\sum_{j}\mid\beta_{j}^{q}\mid^{\frac{1}{q}}βminl1i=1∑lV(yj,βTxj)+λj∑∣βjq∣q1
弹性网方法是采用了L1L_1L1范数与L2L_2L2范数相结合的方式,可以发挥后者的作用防止参数值过大带来的过学习风险,也利用前者有效减少非零参数个数,两个目标通过人为确定的常数来进行权衡。
5.弹性网(混合正则化)
minβ1l∑i=1l(yj−βTxj)2+λ(α∣∣β∣∣1+(1−α)∣∣β∣∣2)\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}(y_{j}-\beta^{\mathrm{T}}x_{j})^{2}+\lambda(\alpha||\beta||_{1}+(1-\alpha)||\beta||^{2})βminl1i=1∑l(yj−βTxj)2+λ(α∣∣β∣∣1+(1−α)∣∣β∣∣2)
讨论
统计学习理论也有它考虑问题的局限性。