模式识别与机器学习课程笔记(3):统计决策中的经典学习方法
模式识别与机器学习课程笔记(3):统计决策中的经典学习方法
- 1 统计推断概述
- 1.1 基本概念
- 1.2 估计的方法
- 1.3 估计量的性质
- 2 参数估计
- 2.1 参数的辨识性
- 2.2 矩法估计
- 核心步骤
- 示例:正态分布的矩法估计
- 2.3 最大似然估计(ML估计)
- 核心公式与步骤
- 示例:正态分布的ML估计
- 2.4 贝叶斯估计
- 核心公式与步骤
- 示例:正态分布均值的贝叶斯估计
- 3 贝叶斯学习
- 3.1 基本思想
- 3.2 主干公式
- 3.3 基本步骤
- 3.4 递推贝叶斯参数学习
- 4 概率的窗函数估计法
- 4.1 引言:参数估计与非参数估计的对比
- 4.2 概率密度的基本估计式
- 4.3 提高概率密度估计精度的要求
- 4.4 两种经典非参数估计方法
- 4.4.1 Parzen窗法
- 4.4.2 kNk_NkN近邻法
- 5 错误率估计
- 5.1 分类器错误率的实验估算基本原理
- 5.2 样本抽取方式对误判概率估计的影响
- 5.3 训练与测试样本集的大小对错误率的影响
- 5.4 训练样本使用技术及错误率的测试
- 5.5 从学习曲线估计错误率
- 小结
1 统计推断概述
统计推断是模式识别中“从数据到模型”的核心环节,核心目标是通过有限的样本数据,推断总体数据的分布规律或关键参数,为后续决策(如分类、回归)提供依据。
1.1 基本概念
- 训练与学习:通过“输入样本+标签(或无标签)”调整模型参数的过程。本质是让模型从数据中捕捉总体的统计规律,最终实现对未知样本的预测。
- 总体:所有待研究对象的集合(如所有手写数字“0”的图像),其统计特性由固定的分布(如概率密度函数f(x)f(x)f(x))描述。
- 子样(样本):从总体中随机抽取的有限个个体(如1000张手写“0”的图像),需满足独立同分布(i.i.d.) 假设,以保证样本能反映总体特性。
- 估计:从子样数据出发,计算一个“近似值”来替代总体的未知参数(如用样本均值估计总体均值)或未知分布(如用Parzen窗估计总体概率密度)的过程。
1.2 估计的方法
根据是否假设总体分布的“概型”(即分布形式,如正态分布、泊松分布),估计方法分为两类:
- 参数估计方法:假设总体分布概型已知(如已知总体服从正态分布N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)),仅需估计分布中的未知参数(如μ\muμ和σ2\sigma^2σ2)。常见方法包括矩法、最大似然估计、贝叶斯估计。
- 非参数估计方法:不假设总体分布概型,直接通过样本数据“拟合”总体的概率密度或分布函数。适用于总体分布未知或分布形式复杂的场景,常见方法包括Parzen窗法、kNk_NkN近邻法。
1.3 估计量的性质
评价一个“估计结果”是否可靠,需通过估计量的统计性质衡量,核心性质包括:
- 估计的无偏性:估计量的期望等于总体真实参数。若θ^\hat{\theta}θ^是参数θ\thetaθ的估计量,则无偏性要求E[θ^]=θE[\hat{\theta}] = \thetaE[θ^]=θ。例如,样本均值xˉ=1N∑i=1Nxi\bar{x} = \frac{1}{N}\sum_{i=1}^N x_ixˉ=N1∑i=1Nxi是总体均值μ\muμ的无偏估计。
- 估计的相合性(一致性):当样本量NNN趋近于无穷大时,估计量θ^\hat{\theta}θ^以概率1收敛到真实参数θ\thetaθ,即θ^→Pθ\hat{\theta} \xrightarrow{P} \thetaθ^Pθ(依概率收敛)。相合性保证了“数据越多,估计越准”。
- 估计的充分性:估计量θ^\hat{\theta}θ^包含了样本中关于参数θ\thetaθ的“所有信息”,即没有任何其他估计量能从样本中提取更多关于θ\thetaθ的信息。例如,样本均值和样本方差共同构成了正态分布参数(μ,σ2)(\mu,\sigma^2)(μ,σ2)的充分统计量。
2 参数估计
参数估计是“已知分布概型,求未知参数”的过程,核心是通过合理的准则从样本中提取参数信息。
2.1 参数的辨识性
若总体分布p(x∣θ)p(x|\theta)p(x∣θ)满足:“当θ1≠θ2\theta_1 \neq \theta_2θ1=θ2时,必有p(x∣θ1)≠p(x∣θ2)p(x|\theta_1) \neq p(x|\theta_2)p(x∣θ1)=p(x∣θ2)(即两个分布在几乎所有xxx处的概率密度不同)”,则称参数θ\thetaθ是可辨识的。
- 辨识性是参数估计的前提:若参数不可辨识,即使拥有无穷多样本,也无法唯一确定真实参数。
- 示例:混合高斯分布p(x∣θ)=αN(x∣μ1,σ2)+(1−α)N(x∣μ2,σ2)p(x|\theta) = \alpha N(x|\mu_1,\sigma^2) + (1-\alpha) N(x|\mu_2,\sigma^2)p(x∣θ)=αN(x∣μ1,σ2)+(1−α)N(x∣μ2,σ2)中,若交换(μ1,α)(\mu_1,\alpha)(μ1,α)和(μ2,1−α)(\mu_2,1-\alpha)(μ2,1−α),分布不变,因此(α,μ1,μ2)(\alpha,\mu_1,\mu_2)(α,μ1,μ2)不可辨识。
2.2 矩法估计
矩法估计的核心思想是“用样本矩匹配总体矩”——总体矩由参数决定,通过样本矩的表达式反解出参数估计值。
核心步骤
- 计算总体的kkk阶原点矩mk=E[Xk]m_k = E[X^k]mk=E[Xk](由未知参数θ\thetaθ表示);
- 计算样本的kkk阶原点矩m^k=1N∑i=1Nxik\hat{m}_k = \frac{1}{N}\sum_{i=1}^N x_i^km^k=N1∑i=1Nxik(由样本数据计算);
- 令mk=m^km_k = \hat{m}_kmk=m^k,建立方程并解出θ\thetaθ的估计量θ^\hat{\theta}θ^。
示例:正态分布的矩法估计
设总体X∼N(μ,σ2)X \sim N(\mu,\sigma^2)X∼N(μ,σ2),未知参数为θ=(μ,σ2)\theta = (\mu,\sigma^2)θ=(μ,σ2):
- 总体1阶矩:m1=E[X]=μm_1 = E[X] = \mum1=E[X]=μ;
- 总体2阶矩:m2=E[X2]=μ2+σ2m_2 = E[X^2] = \mu^2 + \sigma^2m2=E[X2]=μ2+σ2;
- 样本1阶矩:m^1=xˉ=1N∑i=1Nxi\hat{m}_1 = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_im^1=xˉ=N1∑i=1Nxi;
- 样本2阶矩:m^2=1N∑i=1Nxi2\hat{m}_2 = \frac{1}{N}\sum_{i=1}^N x_i^2m^2=N1∑i=1Nxi2;
- 联立解得:μ^=xˉ\hat{\mu} = \bar{x}μ^=xˉ,σ^2=m^2−m^12=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2 = \hat{m}_2 - \hat{m}_1^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2σ^2=m^2−m^12=N1∑i=1N(xi−xˉ)2(注:此方差估计是有偏的,修正后为1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N−11∑i=1N(xi−xˉ)2)。
2.3 最大似然估计(ML估计)
最大似然估计的核心思想是“让观测到的样本数据出现概率最大”——对于给定样本,选择使“样本似然函数”最大的参数作为估计值。
核心公式与步骤
- 似然函数:设样本x1,x2,...,xNx_1,x_2,...,x_Nx1,x2,...,xN独立同分布,总体概率密度为p(x∣θ)p(x|\theta)p(x∣θ),则似然函数为样本联合概率密度:
L(θ∣x1,...,xN)=∏i=1Np(xi∣θ)L(\theta|x_1,...,x_N) = \prod_{i=1}^N p(x_i|\theta) L(θ∣x1,...,xN)=i=1∏Np(xi∣θ) - 对数似然函数:为简化乘积运算,取对数(对数是单调递增函数,不改变极值位置):
l(θ∣x1,...,xN)=∑i=1Nlnp(xi∣θ)l(\theta|x_1,...,x_N) = \sum_{i=1}^N \ln p(x_i|\theta) l(θ∣x1,...,xN)=i=1∑Nlnp(xi∣θ) - 求极值:对l(θ)l(\theta)l(θ)关于θ\thetaθ求导,令导数为0,解出θ\thetaθ的估计量θ^ML\hat{\theta}_{ML}θ^ML。
示例:正态分布的ML估计
设X∼N(μ,σ2)X \sim N(\mu,\sigma^2)X∼N(μ,σ2),对数似然函数为:
l(μ,σ2)=−N2ln(2π)−N2ln(σ2)−12σ2∑i=1N(xi−μ)2l(\mu,\sigma^2) = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2 l(μ,σ2)=−2Nln(2π)−2Nln(σ2)−2σ21i=1∑N(xi−μ)2
分别对μ\muμ和σ2\sigma^2σ2求导并令导数为0,解得:
μ^ML=xˉ=1N∑i=1Nxi\hat{\mu}_{ML} = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i μ^ML=xˉ=N1i=1∑Nxi
σ^ML2=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2_{ML} = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 σ^ML2=N1i=1∑N(xi−xˉ)2
(注:σ^ML2\hat{\sigma}^2_{ML}σ^ML2是有偏估计,需修正为1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N−11∑i=1N(xi−xˉ)2)。
2.4 贝叶斯估计
贝叶斯估计与频率派(如ML估计)的核心区别是:将未知参数θ\thetaθ视为随机变量,而非固定常数。估计过程需结合“先验信息”和“样本信息”,最终得到参数的后验分布。
核心公式与步骤
- 贝叶斯公式:后验概率密度p(θ∣x)p(\theta|x)p(θ∣x)由先验概率密度p(θ)p(\theta)p(θ)和似然函数p(x∣θ)p(x|\theta)p(x∣θ)计算:
p(θ∣x)=p(x∣θ)p(θ)p(x)p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} p(θ∣x)=p(x)p(x∣θ)p(θ)
其中p(x)=∫p(x∣θ)p(θ)dθp(x) = \int p(x|\theta)p(\theta)d\thetap(x)=∫p(x∣θ)p(θ)dθ是边缘似然(证据因子),仅与样本有关,与θ\thetaθ无关。 - 损失函数与估计量:贝叶斯估计需定义“损失函数”衡量估计误差,选择使“期望损失最小”的θ^\hat{\theta}θ^作为估计量:
- 若用平方损失函数L(θ,θ^)=(θ−θ^)2L(\theta,\hat{\theta}) = (\theta - \hat{\theta})^2L(θ,θ^)=(θ−θ^)2,则最优估计量为后验均值:θ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ\hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x)d\thetaθ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ;
- 若用绝对值损失函数L(θ,θ^)=∣θ−θ^∣L(\theta,\hat{\theta}) = |\theta - \hat{\theta}|L(θ,θ^)=∣θ−θ^∣,则最优估计量为后验中位数。
示例:正态分布均值的贝叶斯估计
设X∼N(μ,σ2)X \sim N(\mu,\sigma^2)X∼N(μ,σ2)(σ2\sigma^2σ2已知),先验μ∼N(μ0,σ02)\mu \sim N(\mu_0,\sigma_0^2)μ∼N(μ0,σ02),则后验p(μ∣x)∼N(μn,σn2)p(\mu|x) \sim N(\mu_n,\sigma_n^2)p(μ∣x)∼N(μn,σn2),其中:
μn=σ2σ2+Nσ02μ0+Nσ02σ2+Nσ02xˉ\mu_n = \frac{\sigma^2}{\sigma^2 + N\sigma_0^2}\mu_0 + \frac{N\sigma_0^2}{\sigma^2 + N\sigma_0^2}\bar{x} μn=σ2+Nσ02σ2μ0+σ2+Nσ02Nσ02xˉ
σn2=σ2σ02σ2+Nσ02\sigma_n^2 = \frac{\sigma^2 \sigma_0^2}{\sigma^2 + N\sigma_0^2} σn2=σ2+Nσ02σ2σ02
可见,贝叶斯估计是“先验均值μ0\mu_0μ0”和“样本均值xˉ\bar{x}xˉ”的加权平均,样本量NNN越大,样本信息权重越高。
3 贝叶斯学习
贝叶斯学习是贝叶斯估计的延伸,核心思想是:不直接估计参数θ\thetaθ,而是通过参数的后验分布直接估计总体的概率密度p(x)p(x)p(x),从而跳过“参数估计”步骤,直接为决策提供分布依据。
3.1 基本思想
频率派和贝叶斯学习的路径对比:
- 频率派(如ML估计):样本→估计参数θ^\hat{\theta}θ^→用p(x∣θ^)p(x|\hat{\theta})p(x∣θ^)近似总体p(x)p(x)p(x);
- 贝叶斯学习:样本→计算参数后验p(θ∣x)p(\theta|x)p(θ∣x)→用p(x)=∫p(x∣θ)p(θ∣x)dθp(x) = \int p(x|\theta)p(\theta|x)d\thetap(x)=∫p(x∣θ)p(θ∣x)dθ直接估计总体p(x)p(x)p(x)。
贝叶斯学习更贴合“不确定性建模”,尤其适用于小样本场景(先验信息可弥补样本不足)。
3.2 主干公式
贝叶斯学习的核心是“边际化参数”以得到总体概率密度,关键公式包括:
- 参数后验分布(同贝叶斯估计):
p(θ∣D)=p(D∣θ)p(θ)p(D)p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)} p(θ∣D)=p(D)p(D∣θ)p(θ)
其中D={x1,...,xN}D = \{x_1,...,x_N\}D={x1,...,xN}为样本集。 - 总体概率密度估计(边际化参数θ\thetaθ):
p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x|D) = \int p(x|\theta)p(\theta|D)d\theta p(x∣D)=∫p(x∣θ)p(θ∣D)dθ
该式表示:总体密度是“参数条件下的密度p(x∣θ)p(x|\theta)p(x∣θ)”在“参数后验分布p(θ∣D)p(\theta|D)p(θ∣D)”上的加权平均。
3.3 基本步骤
- 确定先验分布p(θ)p(\theta)p(θ):根据领域知识或无信息先验(如均匀分布)设定参数的初始分布;
- 计算似然函数p(D∣θ)p(D|\theta)p(D∣θ):由样本的独立同分布性,p(D∣θ)=∏i=1Np(xi∣θ)p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)p(D∣θ)=∏i=1Np(xi∣θ);
- 求参数后验分布p(θ∣D)p(\theta|D)p(θ∣D):利用贝叶斯公式计算,若先验与似然共轭(如正态-正态、Beta-二项),后验与先验同分布,计算更简便;
- 估计总体密度p(x∣D)p(x|D)p(x∣D):通过边际化参数得到p(x∣D)p(x|D)p(x∣D),用于后续分类(如贝叶斯分类器)或预测。
3.4 递推贝叶斯参数学习
当样本逐次到来(在线学习场景)时,无需重新计算所有样本的似然,可通过“递推”更新后验分布:
- 初始状态:给定初始先验p(θ∣D0)=p(θ)p(\theta|D_0) = p(\theta)p(θ∣D0)=p(θ)(D0D_0D0为空样本集);
- 递推更新:若新增样本xN+1x_{N+1}xN+1,则新后验p(θ∣DN+1)p(\theta|D_{N+1})p(θ∣DN+1)可由旧后验p(θ∣DN)p(\theta|D_N)p(θ∣DN)更新:
p(θ∣DN+1)=p(xN+1∣θ)p(θ∣DN)p(xN+1∣DN)p(\theta|D_{N+1}) = \frac{p(x_{N+1}|\theta)p(\theta|D_N)}{p(x_{N+1}|D_N)} p(θ∣DN+1)=p(xN+1∣DN)p(xN+1∣θ)p(θ∣DN)
其中p(xN+1∣DN)=∫p(xN+1∣θ)p(θ∣DN)dθp(x_{N+1}|D_N) = \int p(x_{N+1}|\theta)p(\theta|D_N)d\thetap(xN+1∣DN)=∫p(xN+1∣θ)p(θ∣DN)dθ为边际似然。 - 优势:避免存储所有历史样本,仅需保存当前后验分布,适合实时数据处理。
4 概率的窗函数估计法
窗函数估计法是典型的非参数密度估计方法,核心思想是“用样本在局部区域的‘密度’近似总体在该点的密度”,无需假设总体分布概型。
4.1 引言:参数估计与非参数估计的对比
估计类型 | 核心假设 | 优势 | 劣势 | 适用场景 |
---|---|---|---|---|
参数估计 | 总体分布概型已知 | 计算简单、样本效率高 | 假设不成立时误差大 | 分布已知(如正态、泊松) |
非参数估计 | 无分布假设 | 适应性强、鲁棒性高 | 计算复杂、需大量样本 | 分布未知或复杂 |
4.2 概率密度的基本估计式
从概率密度的定义出发推导非参数估计的核心公式:
- 概率密度定义:f(x)=limV→0P(x∈V)Vf(x) = \lim_{V \to 0} \frac{P(x \in V)}{V}f(x)=limV→0VP(x∈V),其中VVV是包含xxx的小邻域体积,P(x∈V)P(x \in V)P(x∈V)是样本落在VVV中的概率。
- 样本近似:用样本频率替代概率,即P(x∈V)≈kNP(x \in V) \approx \frac{k}{N}P(x∈V)≈Nk(kkk是落在VVV中的样本数,NNN是总样本数)。
- 基本估计式:当VVV足够小时,
f(x)≈f^N(x)=kNVf(x) \approx \hat{f}_N(x) = \frac{k}{N V} f(x)≈f^N(x)=NVk
该式是所有窗函数估计法的基础,关键在于如何选择VVV(或kkk)以平衡估计的偏差和方差。
4.3 提高概率密度估计精度的要求
为使f^N(x)\hat{f}_N(x)f^N(x)收敛到真实密度f(x)f(x)f(x),需满足以下渐近条件(当N→∞N \to \inftyN→∞时):
- 邻域体积V→0V \to 0V→0:保证邻域足够小,近似“局部密度”;
- 邻域内样本数k→∞k \to \inftyk→∞:保证频率kN\frac{k}{N}Nk能稳定近似概率P(x∈V)P(x \in V)P(x∈V);
- kN→0\frac{k}{N} \to 0Nk→0:避免kkk增长过快导致VVV无法趋近于0。
4.4 两种经典非参数估计方法
4.4.1 Parzen窗法
Parzen窗法通过“窗函数(核函数)”对邻域内的样本进行加权,解决“固定VVV时样本离散分布”的问题。
- 核心公式:选择窗函数ϕ(u)\phi(u)ϕ(u)(满足∫ϕ(u)du=1\int \phi(u)du = 1∫ϕ(u)du=1,如高斯窗、矩形窗),令V=hNdV = h_N^dV=hNd(ddd为样本维度,hNh_NhN为窗宽,随NNN减小),则:
f^N(x)=1NhNd∑i=1Nϕ(x−xihN)\hat{f}_N(x) = \frac{1}{N h_N^d} \sum_{i=1}^N \phi\left( \frac{x - x_i}{h_N} \right) f^N(x)=NhNd1i=1∑Nϕ(hNx−xi) - 窗函数的条件:
- 非负性:ϕ(u)≥0\phi(u) \geq 0ϕ(u)≥0;
- 归一性:∫−∞∞ϕ(u)du=1\int_{-\infty}^{\infty} \phi(u)du = 1∫−∞∞ϕ(u)du=1;
- 对称性:ϕ(u)=ϕ(−u)\phi(u) = \phi(-u)ϕ(u)=ϕ(−u)(保证估计无偏)。
- 示例:高斯窗函数ϕ(u)=1(2π)d/2exp(−12∥u∥2)\phi(u) = \frac{1}{(2\pi)^{d/2}} \exp\left( -\frac{1}{2} \|u\|^2 \right)ϕ(u)=(2π)d/21exp(−21∥u∥2),此时Parzen窗估计为样本的“加权高斯核叠加”。
4.4.2 kNk_NkN近邻法
kNk_NkN近邻法与Parzen窗法的核心区别是:固定邻域内的样本数kNk_NkN,调整邻域体积VN(x)V_N(x)VN(x)(VN(x)V_N(x)VN(x)是包含xxx和kNk_NkN个样本的最小邻域体积)。
- 核心公式:令kNk_NkN满足kN→∞k_N \to \inftykN→∞且kNN→0\frac{k_N}{N} \to 0NkN→0(N→∞N \to \inftyN→∞),则:
f^N(x)=kNNVN(x)\hat{f}_N(x) = \frac{k_N}{N V_N(x)} f^N(x)=NVN(x)kN - 优势:自适应调整邻域体积——在样本密集区域,VN(x)V_N(x)VN(x)小,估计精度高;在样本稀疏区域,VN(x)V_N(x)VN(x)大,避免估计值为0。
- 与Parzen窗法的对比:Parzen窗法是“固定VVV,变kkk”,kNk_NkN近邻法是“固定kkk,变VVV”。
5 错误率估计
错误率是评价分类器性能的核心指标,定义为“分类器对未知样本分类错误的概率”。由于真实错误率无法直接计算,需通过样本数据进行实验估算。
5.1 分类器错误率的实验估算基本原理
- 真实错误率(贝叶斯错误率):Pe=E[I(y≠y^)]P_e = E[I(y \neq \hat{y})]Pe=E[I(y=y^)],其中I(⋅)I(\cdot)I(⋅)为指示函数(真为1,假为0),yyy为真实标签,y^\hat{y}y^为分类器预测标签。
- 实验估算原理:用“独立于训练集的测试集”上的错误频率替代真实错误率,即:
P^e=1M∑i=1MI(yi≠y^i)\hat{P}_e = \frac{1}{M} \sum_{i=1}^M I(y_i \neq \hat{y}_i) P^e=M1i=1∑MI(yi=y^i)
其中MMM为测试集样本数,yiy_iyi和y^i\hat{y}_iy^i分别为测试样本的真实标签和预测标签。
5.2 样本抽取方式对误判概率估计的影响
样本抽取的关键是“训练集与测试集独立”,否则会导致估计偏倚:
- 无偏抽取:训练集DtrD_{tr}Dtr和测试集DteD_{te}Dte从同一总体独立抽取,且Dtr∩Dte=∅D_{tr} \cap D_{te} = \emptysetDtr∩Dte=∅,此时P^e\hat{P}_eP^e是PeP_ePe的无偏估计。
- 有偏抽取:
- 测试集包含训练集样本(过拟合测试):P^e\hat{P}_eP^e远小于真实PeP_ePe,高估分类器性能;
- 训练集与测试集来自不同总体(如训练集是“白天图像”,测试集是“夜晚图像”):P^e\hat{P}_eP^e远大于真实PeP_ePe,低估分类器性能。
5.3 训练与测试样本集的大小对错误率的影响
- 训练集大小NNN的影响:
- NNN较小时:分类器无法充分学习总体规律,过拟合风险高,测试错误率高;
- NNN增大时:分类器逐渐逼近总体规律,测试错误率下降并趋于稳定(收敛到贝叶斯错误率)。
- 测试集大小MMM的影响:
- MMM较小时:错误频率的方差大,P^e\hat{P}_eP^e波动大(如M=10M=10M=10时,错误数差1个就导致P^e\hat{P}_eP^e差10%);
- MMM增大时:错误频率的方差减小,P^e\hat{P}_eP^e更接近真实PeP_ePe(依大数定律收敛)。
5.4 训练样本使用技术及错误率的测试
当样本总量有限时(如N+MN+MN+M较小),需通过“重复利用样本”提高估计精度,常见方法包括:
-
留一法(Leave-One-Out, LOO):
- 将NNN个样本依次留1个作为测试集,剩余N−1N-1N−1个作为训练集;
- 共进行NNN次实验,计算平均错误率:P^LOO=1N∑i=1NI(yi≠y^i(i))\hat{P}_{LOO} = \frac{1}{N} \sum_{i=1}^N I(y_i \neq \hat{y}_i^{(i)})P^LOO=N1∑i=1NI(yi=y^i(i)),其中y^i(i)\hat{y}_i^{(i)}y^i(i)是用不含xix_ixi的训练集预测xix_ixi的结果;
- 优势:无偏估计,充分利用样本;劣势:计算量大(需训练NNN个分类器)。
-
kkk折交叉验证(kkk-fold Cross Validation):
- 将样本随机分为kkk个等大子集(如k=5k=5k=5或k=10k=10k=10);
- 依次用k−1k-1k−1个子集作为训练集,1个子集作为测试集,共进行kkk次实验;
- 平均错误率:P^k−fold=1k∑j=1kP^e,j\hat{P}_{k-fold} = \frac{1}{k} \sum_{j=1}^k \hat{P}_{e,j}P^k−fold=k1∑j=1kP^e,j,其中P^e,j\hat{P}_{e,j}P^e,j是第jjj次实验的错误率;
- 优势:平衡估计无偏性和计算量,是工程中最常用的方法。
5.5 从学习曲线估计错误率
学习曲线是“分类器错误率随训练样本量NNN变化的曲线”,其核心作用是:
- 判断样本是否充足:若曲线趋于平缓,说明当前NNN已足够,增加样本对错误率降低无明显帮助;
- 估计贝叶斯错误率:曲线平缓后的极限值可视为贝叶斯错误率的近似;
- 诊断过拟合/欠拟合:
- 欠拟合:训练错误率和测试错误率都高,且曲线未平缓,需增加NNN或改进模型;
- 过拟合:训练错误率低,但测试错误率高,且两者差距大,需正则化或增加样本。
小结
本文围绕“统计推断”展开,从“参数估计”(矩法、ML、贝叶斯)到“贝叶斯学习”(直接估计总体密度),再到“非参数估计”(Parzen窗、kNk_NkN近邻),最终落脚于“错误率估计”(交叉验证、学习曲线),形成了“从数据建模到性能评价”的完整逻辑链。这些方法是模式识别中“数据驱动决策”的基础,也是后续复杂模型(如神经网络、支持向量机)的理论支撑。