当前位置: 首页 > news >正文

模式识别 ——第七章—— 统计学习理论概要

模式识别 第七章 统计学习理论概要

7.1引言

统计学习理论概要是在有限样本下的机器学习理论。

过学习

1.在样本数目有限时,机器学习面临的最突出的问题之一就是过学习
2.过学习:指机器学习在训练样本上的表现明显好于在未来测试样本上或在实际应用上的表现。

推广能力

人们把在一定样本上训练的模型或算法未来新样本上的表现称作机器学习的推广能力
1.推广能力是学习机器的一种性质,是否出现过学习是机器学习在具体问题上表现得现象。

7.2 机器学习问题的提法

7.2.1 机器学习问题的函数估计表示

机器学习问题可以形象化的表示为已知变量yyy输入xxx 之间存在一定的未知依赖关系,即存在一个位置的联合概率密度函数F(x,y)F(x,y)F(x,y) 。机器学习就是根据lll个独立同分布观测样本
(x1,y1),(x2,y2),...,(xl,yl)(x_1,y_1),(x_2,y_2),...,(x_l,y_l)(x1,y1),(x2,y2),...,(xl,yl)
在一个函数集{f(x,α),α∈∧}\{f(x,\alpha),\alpha \in\wedge\}{f(x,α),α}中求一个最优的函数f(x,α0)f(x,\alpha_0)fx,α0是它给出的预测的期望风险最小.
预测的期望风险R(α)=∫L(y,f(x,α))dF(x,y)R(\alpha)=\int L(y,f(x,\alpha))dF(x,y)R(α)=L(y,f(x,α))dF(x,y)
其中L(y,f(x,α))L(y,f(x,\alpha))L(y,f(x,α))为由于用f(x,α)f(x,\alpha)f(x,α)yyy进行预测而造成的损失,称作损失函数R(α)R(\alpha)R(α)是函数f(x,α)f(x,\alpha)f(x,α)的函数,故称作期望风险泛函

三类基本的机器学习问题

有三类基本的机器学习问题,他们是模式识别函数拟合概率密度估计
1.模式识别
仅讨论监督模式识别,系统输出就是类别符号,在两类情况下,y={0,1}y=\{0,1\}y={0,1}y={−1,1}y=\{-1,1\}y={1,1}是二值函数,这时预测函数乘坐指示函数,也就是本书前面乘坐的类别函数。
2.函数拟合问题
在函数拟合问题中,yyy是连续变量,它是x的函数,这时损失函数可以定义为
L(y,f(x,α))=(y−f(x,α))2L(y,f(x,\alpha))=(y-f(x,\alpha))^2L(y,f(x,α))=(yf(x,α))2
3.概率密度估计
没有任何预测密度输出,学习的目的是使得到的概率密度函数p(x,α)p(x,\alpha)p(x,α)能够最好的描述训练样本集,这时学习的损失函数可以设为模型的负对数似然函数,最小化这个损失的解就是概率密度函数的最大似然估计。

7.2.2 经验风险最小化原则

定义经验风险为在训练样本上损失函数的平均
Remp(α)=1l∑i=1lL(yi,f(xi,α))R_{emp}(\alpha)=\frac{1}{l} \sum_{i=1}^lL(y_i,f(x_i, \alpha))Remp(α)=l1i=1lL(yi,f(xi,α))
1.历史上大部分机器学习方法实际上都是应用最小化经验风险在替代最小化期望风险的目标。
2.ERM原则(经验风险最小化原则):统计学理论把这种在训练样本上最小化错误或者风险的策略称为经验风险最小化原则。

7.3 学习过程的一致性

学习过程的一致性,就是指在训练样本上以经验风险最小化原则进行的学习,在样本数趋近于无穷大时与期望风险最小的目标是否一致。
1.经验风险最小化学习一直的充分必要条件从直观上理解是保证经验风险泛函在整体上逼近期望风险泛函,但不能保证使经验风险泛函最小化的解也能使期望风险最小。
2.经验风险最小化学习是否具有一致性,不是取决于平均情况,而是取决于最坏情况。

7.4 函数集的容量与VC维

1.一个指示函数集的容量也就是用函数集中的函数对各种样本实现分类的能力,容量这个词在这里与能力是同一个词。
2.一个采用经验风险最小化原则的学习过程要一致,函数集的能力不能够跟随样本数无限增长

VC维

1.VC维衡量的是一个函数集能打散的最大样本点数是多少。
2.VC维有限是学习过程一致性的充分必要条件,而且这时学习过程也是快的。
3.直观定义
加入一个有hhh个样本的样本集能被一个函数集中的函数按照所有可能的2h2^h2h种形式分为两类,则称函数集能把样本数为h的样本集打散。
4.指示函数集的VC维就是,就是用这个函数集中的函数把所有能打散的最大样本集的样本数目。
5.函数集的VC维并不简单地与函数中的自由参数个数有关,而是函数本身的复杂程度有关。

7.5 推广能力的界与结构风险最小化原则

【定理】对于两类分类问题,对指数函数集所有函数,经验风险与实际风险之间满足以下关系:
R(a)⩽Remp(α)+Φ(hl)R(a)\leqslant R_{\mathrm{emp}}(\alpha)+\Phi\left(\frac{h}{l}\right)R(a)Remp(α)+Φ(lh)
其中,Φ(l/h)\Phi(l/h)Φ(l/h)是样本数lll的单调减函数、VC维hhh的单调增函数。

置信范围

置信范围:在有限样本下,期望风险可能会大于经验风险,超出部分的最大上界是Φ(l/h)\Phi(l/h)Φ(l/h)

置信范围与VC维成正比,与样本数成反比。

(1)设计一个机器学习模型即意味着选择了一定的函数集,用样本训练的过程就是寻求经验风险的最小化。
(2)对于有限样本应该尽可能选用相对简单的分类器,因为对于一个特定的问题,样本数是固定的,此时学习机器的VC维越高,置信范围越大,导致真是风险与经验风险之间可能的差就越大,推广能力可能越差。
(3)我们需要同时最小化经验风险和置信范围,设计学习模型和算法的过程就是优化置信范围的过程。再模式识别过程中,选定了一种分类器形式,就是确定了学习机器的VC维。

统计学习理论一个基本的结论就是设计和训练学习机器不应该采用经验风险最小化原则,而应该采用结构风险最小化原则。

7.6 支持向量机的理论分析

1.ddd维空间中不加约束的线性函数集的VC维就是d+1d+1d+1

2.对于间隔为δ\deltaδ的线性函数子集来说,如果这个间隔足够大,则函数自己的VC维主要由间隔决定,有可能小于甚至远小于空间维数。
3.再改为u空间中,尤其是经过和函数变换后的高维空间中,空间维数很大甚至是无穷大,但通过控制分类间隔,可以有效控制函数子集的VC集,从而保证再函数子集中求得经验风险最小的解具有最好的推广能力。

7.7 不适定问题和正则化方法简介

7.7.1 不适定问题

不适定问题是在20世纪提出的,他发现,在很多情况下,求解算子方程
Af=F,f∈FAf=F,\quad f\in\mathfrak{F}Af=F,fF
的问题是不适定的。即即使方程存在唯一解,方程右边的微小扰动会带来很大变化。

7.7.2 正则化方法

不适定问题应该通过最小化下面的正则化泛函(类似于结构风险最小化)解决:
R∗(f)=∣∣Af−Fδ∣∣2+λ(δ)Ω(f)R^{*}(f)=|| Af-F_{\delta}||^{2}+\lambda(\delta)\Omega(f)R(f)=∣∣AfFδ2+λ(δ)Ω(f)
其中Ω(f)\Omega(f)Ω(f)是度量解fff的某种性质的泛函,λ(δ)\lambda\left(\delta\right)λ(δ)是与观测噪声水平有关的需适当选取的常数。

7.7.3 常见的正则化方法

选取不同的正则化项Ω(f)\Omega(f)Ω(f),就产生了不同的正则化方法,他们在模型和算法性质上各有不同的特点。


以下β\betaβ表示回归函数中的参数向量V(yj,βTxj)V(y_{j},\beta^{\mathrm{T}}x_{j})V(yj,βTxj)表示回归误差的某种度量(如绝对值误差或平方误差)

1.L0L_0L0正则化

min⁡β1l∑i=1lV(yj,βTxj)+λ∣∣β∣∣0\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda|\mid\beta|\mid_{0}βminl1i=1lV(yj,βTxj)+λβ0
L0L_0L0范数就是对参数向量中非零参数个数的计数,把它放到目标函数中进行最小化,就是要求经验风险最小化的同时希望函数中非零参数的个数尽可能少。实现在减小训练误差的同时实现特征选择的功能。

2.L1L_1L1正则化(Lasso或基追踪算法)

min⁡β1l∑i=1′(yj−βTxj)2+λ∣∣β∣∣1\min_{\beta}\frac{1}{l}\sum_{i=1}^{\prime}\left(y_{j}-\beta^{\mathrm{T}}x_{j}\right)^{2}+\lambda\left||\beta\right||_{1}βminl1i=1(yjβTxj)2+λβ1
L1L_1L1范数即参数向量各元素的绝对值之和也可以用来作为对非零参数个数的一种惩罚。

3.L2L_2L2正则化(Tikhonov正则化)

min⁡β1l∑i=1lV(yj,βTxj)+λ∣∣β∣∣2\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda||\beta||^{2}βminl1i=1lV(yj,βTxj)+λ∣∣β2
采用了平方和,在计算上有很大的方便性,也是最早提出正则化方法时采用的范数。L2L_2L2范数能够有效地防止参数变得过大,可以有效地避免过拟合,但平方惩罚对于强制小的参数变成0的作用不大。

4.LqL_qLq正则化

min⁡β1l∑i=1lV(yj,βTxj)+λ∑j∣βjq∣1q\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}V(y_{j},\beta^{\mathrm{T}}x_{j})+\lambda\sum_{j}\mid\beta_{j}^{q}\mid^{\frac{1}{q}}βminl1i=1lV(yj,βTxj)+λjβjqq1
弹性网方法是采用了L1L_1L1范数与L2L_2L2范数相结合的方式,可以发挥后者的作用防止参数值过大带来的过学习风险,也利用前者有效减少非零参数个数,两个目标通过人为确定的常数来进行权衡。

5.弹性网(混合正则化)

min⁡β1l∑i=1l(yj−βTxj)2+λ(α∣∣β∣∣1+(1−α)∣∣β∣∣2)\min_{\beta}\frac{1}{l}\sum_{i=1}^{l}(y_{j}-\beta^{\mathrm{T}}x_{j})^{2}+\lambda(\alpha||\beta||_{1}+(1-\alpha)||\beta||^{2})βminl1i=1l(yjβTxj)2+λ(α∣∣β1+(1α)∣∣β2)

讨论

统计学习理论也有它考虑问题的局限性。

http://www.dtcms.com/a/404381.html

相关文章:

  • 360网站服务监控英文网站seo发展前景
  • 深圳网站开发外包公司网站设计主色学校
  • 印刷报价网站源码下载广州做seo的公司
  • 千秋网络是家西安做网站的公司虚拟app制作
  • 招聘网站做竞品分析js统计网站访问人数
  • 网站开发与设计需要哪些技术广西城乡建设厅网站首
  • 网站建设需要租用什么科目乐清做网站建设公司哪家好
  • 昆山设计网站的公司哪家好网站推广的方式和管理方法
  • 网站营销案例公司制作网站怎么做的
  • 网站建设费用5万入账wordpress grace7 破解
  • 安徽金鹏建设集团网站深圳做企业网站公司
  • Nginx 简介与 LNMP 架构部署
  • 做个小网站 虚拟空间 买服务器苏州网站建设logo
  • 网站做支付功能花生壳域名注册官网
  • 黑客做网站哪些企业是中小企业
  • 上海市建设工程协会网站遵义服务好的网站建设公司
  • 沈阳做网站哪家最便宜定制开发app软件
  • 绍兴免费自助建站注册人力资源公司大概要多少钱
  • 太原网站制作在线网站建设内容介绍
  • 做网站需要什么知识阜南县城乡建设局官方网站
  • 网站不能风格工程建设领域包括哪些
  • 做标书有哪些好网站开发cms网站系统
  • 镇江网站建设咨询自学it怎么入门
  • 网站图标做多大好东门网
  • 如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘diffusers’ 问题
  • python引用计数的增加和减少
  • 重庆做网站好的公司怎么搭建自己的电影网站
  • 网站建设包括的内容有什么宁波网页平面设计
  • 龙岗网站建设推广中国城乡和住房建设部网站首页
  • 网站黄页推广软件专业网页制作平台