当前位置: 首页 > news >正文

模式识别与机器学习课程笔记(3):统计决策中的经典学习方法

模式识别与机器学习课程笔记(3):统计决策中的经典学习方法

    • 1 统计推断概述
      • 1.1 基本概念
      • 1.2 估计的方法
      • 1.3 估计量的性质
    • 2 参数估计
      • 2.1 参数的辨识性
      • 2.2 矩法估计
        • 核心步骤
        • 示例:正态分布的矩法估计
      • 2.3 最大似然估计(ML估计)
        • 核心公式与步骤
        • 示例:正态分布的ML估计
      • 2.4 贝叶斯估计
        • 核心公式与步骤
        • 示例:正态分布均值的贝叶斯估计
    • 3 贝叶斯学习
      • 3.1 基本思想
      • 3.2 主干公式
      • 3.3 基本步骤
      • 3.4 递推贝叶斯参数学习
    • 4 概率的窗函数估计法
      • 4.1 引言:参数估计与非参数估计的对比
      • 4.2 概率密度的基本估计式
      • 4.3 提高概率密度估计精度的要求
      • 4.4 两种经典非参数估计方法
    • 5 错误率估计
      • 5.1 分类器错误率的实验估算基本原理
      • 5.2 样本抽取方式对误判概率估计的影响
      • 5.3 训练与测试样本集的大小对错误率的影响
      • 5.4 训练样本使用技术及错误率的测试
      • 5.5 从学习曲线估计错误率
    • 小结

1 统计推断概述

统计推断是模式识别中“从数据到模型”的核心环节,核心目标是通过有限的样本数据,推断总体数据的分布规律或关键参数,为后续决策(如分类、回归)提供依据。

1.1 基本概念

  • 训练与学习:通过“输入样本+标签(或无标签)”调整模型参数的过程。本质是让模型从数据中捕捉总体的统计规律,最终实现对未知样本的预测。
  • 总体:所有待研究对象的集合(如所有手写数字“0”的图像),其统计特性由固定的分布(如概率密度函数f(x)f(x)f(x))描述。
  • 子样(样本):从总体中随机抽取的有限个个体(如1000张手写“0”的图像),需满足独立同分布(i.i.d.) 假设,以保证样本能反映总体特性。
  • 估计:从子样数据出发,计算一个“近似值”来替代总体的未知参数(如用样本均值估计总体均值)或未知分布(如用Parzen窗估计总体概率密度)的过程。

1.2 估计的方法

根据是否假设总体分布的“概型”(即分布形式,如正态分布、泊松分布),估计方法分为两类:

  • 参数估计方法:假设总体分布概型已知(如已知总体服从正态分布N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)),仅需估计分布中的未知参数(如μ\muμσ2\sigma^2σ2)。常见方法包括矩法、最大似然估计、贝叶斯估计。
  • 非参数估计方法:不假设总体分布概型,直接通过样本数据“拟合”总体的概率密度或分布函数。适用于总体分布未知或分布形式复杂的场景,常见方法包括Parzen窗法、kNk_NkN近邻法。

1.3 估计量的性质

评价一个“估计结果”是否可靠,需通过估计量的统计性质衡量,核心性质包括:

  • 估计的无偏性:估计量的期望等于总体真实参数。若θ^\hat{\theta}θ^是参数θ\thetaθ的估计量,则无偏性要求E[θ^]=θE[\hat{\theta}] = \thetaE[θ^]=θ。例如,样本均值xˉ=1N∑i=1Nxi\bar{x} = \frac{1}{N}\sum_{i=1}^N x_ixˉ=N1i=1Nxi是总体均值μ\muμ的无偏估计。
  • 估计的相合性(一致性):当样本量NNN趋近于无穷大时,估计量θ^\hat{\theta}θ^以概率1收敛到真实参数θ\thetaθ,即θ^→Pθ\hat{\theta} \xrightarrow{P} \thetaθ^Pθ(依概率收敛)。相合性保证了“数据越多,估计越准”。
  • 估计的充分性:估计量θ^\hat{\theta}θ^包含了样本中关于参数θ\thetaθ的“所有信息”,即没有任何其他估计量能从样本中提取更多关于θ\thetaθ的信息。例如,样本均值和样本方差共同构成了正态分布参数(μ,σ2)(\mu,\sigma^2)(μ,σ2)的充分统计量。

2 参数估计

参数估计是“已知分布概型,求未知参数”的过程,核心是通过合理的准则从样本中提取参数信息。

2.1 参数的辨识性

若总体分布p(x∣θ)p(x|\theta)p(xθ)满足:“当θ1≠θ2\theta_1 \neq \theta_2θ1=θ2时,必有p(x∣θ1)≠p(x∣θ2)p(x|\theta_1) \neq p(x|\theta_2)p(xθ1)=p(xθ2)(即两个分布在几乎所有xxx处的概率密度不同)”,则称参数θ\thetaθ可辨识的

  • 辨识性是参数估计的前提:若参数不可辨识,即使拥有无穷多样本,也无法唯一确定真实参数。
  • 示例:混合高斯分布p(x∣θ)=αN(x∣μ1,σ2)+(1−α)N(x∣μ2,σ2)p(x|\theta) = \alpha N(x|\mu_1,\sigma^2) + (1-\alpha) N(x|\mu_2,\sigma^2)p(xθ)=αN(xμ1,σ2)+(1α)N(xμ2,σ2)中,若交换(μ1,α)(\mu_1,\alpha)(μ1,α)(μ2,1−α)(\mu_2,1-\alpha)(μ2,1α),分布不变,因此(α,μ1,μ2)(\alpha,\mu_1,\mu_2)(α,μ1,μ2)不可辨识。

2.2 矩法估计

矩法估计的核心思想是“用样本矩匹配总体矩”——总体矩由参数决定,通过样本矩的表达式反解出参数估计值。

核心步骤
  1. 计算总体的kkk阶原点矩mk=E[Xk]m_k = E[X^k]mk=E[Xk](由未知参数θ\thetaθ表示);
  2. 计算样本的kkk阶原点矩m^k=1N∑i=1Nxik\hat{m}_k = \frac{1}{N}\sum_{i=1}^N x_i^km^k=N1i=1Nxik(由样本数据计算);
  3. mk=m^km_k = \hat{m}_kmk=m^k,建立方程并解出θ\thetaθ的估计量θ^\hat{\theta}θ^
示例:正态分布的矩法估计

设总体X∼N(μ,σ2)X \sim N(\mu,\sigma^2)XN(μ,σ2),未知参数为θ=(μ,σ2)\theta = (\mu,\sigma^2)θ=(μ,σ2)

  • 总体1阶矩:m1=E[X]=μm_1 = E[X] = \mum1=E[X]=μ
  • 总体2阶矩:m2=E[X2]=μ2+σ2m_2 = E[X^2] = \mu^2 + \sigma^2m2=E[X2]=μ2+σ2
  • 样本1阶矩:m^1=xˉ=1N∑i=1Nxi\hat{m}_1 = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_im^1=xˉ=N1i=1Nxi
  • 样本2阶矩:m^2=1N∑i=1Nxi2\hat{m}_2 = \frac{1}{N}\sum_{i=1}^N x_i^2m^2=N1i=1Nxi2
  • 联立解得:μ^=xˉ\hat{\mu} = \bar{x}μ^=xˉσ^2=m^2−m^12=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2 = \hat{m}_2 - \hat{m}_1^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2σ^2=m^2m^12=N1i=1N(xixˉ)2(注:此方差估计是有偏的,修正后为1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N11i=1N(xixˉ)2)。

2.3 最大似然估计(ML估计)

最大似然估计的核心思想是“让观测到的样本数据出现概率最大”——对于给定样本,选择使“样本似然函数”最大的参数作为估计值。

核心公式与步骤
  1. 似然函数:设样本x1,x2,...,xNx_1,x_2,...,x_Nx1,x2,...,xN独立同分布,总体概率密度为p(x∣θ)p(x|\theta)p(xθ),则似然函数为样本联合概率密度:
    L(θ∣x1,...,xN)=∏i=1Np(xi∣θ)L(\theta|x_1,...,x_N) = \prod_{i=1}^N p(x_i|\theta) L(θx1,...,xN)=i=1Np(xiθ)
  2. 对数似然函数:为简化乘积运算,取对数(对数是单调递增函数,不改变极值位置):
    l(θ∣x1,...,xN)=∑i=1Nln⁡p(xi∣θ)l(\theta|x_1,...,x_N) = \sum_{i=1}^N \ln p(x_i|\theta) l(θx1,...,xN)=i=1Nlnp(xiθ)
  3. 求极值:对l(θ)l(\theta)l(θ)关于θ\thetaθ求导,令导数为0,解出θ\thetaθ的估计量θ^ML\hat{\theta}_{ML}θ^ML
示例:正态分布的ML估计

X∼N(μ,σ2)X \sim N(\mu,\sigma^2)XN(μ,σ2),对数似然函数为:
l(μ,σ2)=−N2ln⁡(2π)−N2ln⁡(σ2)−12σ2∑i=1N(xi−μ)2l(\mu,\sigma^2) = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2 l(μ,σ2)=2Nln(2π)2Nln(σ2)2σ21i=1N(xiμ)2
分别对μ\muμσ2\sigma^2σ2求导并令导数为0,解得:
μ^ML=xˉ=1N∑i=1Nxi\hat{\mu}_{ML} = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i μ^ML=xˉ=N1i=1Nxi
σ^ML2=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2_{ML} = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 σ^ML2=N1i=1N(xixˉ)2
(注:σ^ML2\hat{\sigma}^2_{ML}σ^ML2是有偏估计,需修正为1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2N11i=1N(xixˉ)2)。

2.4 贝叶斯估计

贝叶斯估计与频率派(如ML估计)的核心区别是:将未知参数θ\thetaθ视为随机变量,而非固定常数。估计过程需结合“先验信息”和“样本信息”,最终得到参数的后验分布。

核心公式与步骤
  1. 贝叶斯公式:后验概率密度p(θ∣x)p(\theta|x)p(θx)由先验概率密度p(θ)p(\theta)p(θ)和似然函数p(x∣θ)p(x|\theta)p(xθ)计算:
    p(θ∣x)=p(x∣θ)p(θ)p(x)p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)} p(θx)=p(x)p(xθ)p(θ)
    其中p(x)=∫p(x∣θ)p(θ)dθp(x) = \int p(x|\theta)p(\theta)d\thetap(x)=p(xθ)p(θ)dθ是边缘似然(证据因子),仅与样本有关,与θ\thetaθ无关。
  2. 损失函数与估计量:贝叶斯估计需定义“损失函数”衡量估计误差,选择使“期望损失最小”的θ^\hat{\theta}θ^作为估计量:
    • 若用平方损失函数L(θ,θ^)=(θ−θ^)2L(\theta,\hat{\theta}) = (\theta - \hat{\theta})^2L(θ,θ^)=(θθ^)2,则最优估计量为后验均值:θ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ\hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x)d\thetaθ^Bayes=E[θx]=θp(θx)dθ
    • 若用绝对值损失函数L(θ,θ^)=∣θ−θ^∣L(\theta,\hat{\theta}) = |\theta - \hat{\theta}|L(θ,θ^)=θθ^,则最优估计量为后验中位数。
示例:正态分布均值的贝叶斯估计

X∼N(μ,σ2)X \sim N(\mu,\sigma^2)XN(μ,σ2)σ2\sigma^2σ2已知),先验μ∼N(μ0,σ02)\mu \sim N(\mu_0,\sigma_0^2)μN(μ0,σ02),则后验p(μ∣x)∼N(μn,σn2)p(\mu|x) \sim N(\mu_n,\sigma_n^2)p(μx)N(μn,σn2),其中:
μn=σ2σ2+Nσ02μ0+Nσ02σ2+Nσ02xˉ\mu_n = \frac{\sigma^2}{\sigma^2 + N\sigma_0^2}\mu_0 + \frac{N\sigma_0^2}{\sigma^2 + N\sigma_0^2}\bar{x} μn=σ2+Nσ02σ2μ0+σ2+Nσ02Nσ02xˉ
σn2=σ2σ02σ2+Nσ02\sigma_n^2 = \frac{\sigma^2 \sigma_0^2}{\sigma^2 + N\sigma_0^2} σn2=σ2+Nσ02σ2σ02
可见,贝叶斯估计是“先验均值μ0\mu_0μ0”和“样本均值xˉ\bar{x}xˉ”的加权平均,样本量NNN越大,样本信息权重越高。


3 贝叶斯学习

贝叶斯学习是贝叶斯估计的延伸,核心思想是:不直接估计参数θ\thetaθ,而是通过参数的后验分布直接估计总体的概率密度p(x)p(x)p(x),从而跳过“参数估计”步骤,直接为决策提供分布依据。

3.1 基本思想

频率派和贝叶斯学习的路径对比:

  • 频率派(如ML估计):样本→估计参数θ^\hat{\theta}θ^→用p(x∣θ^)p(x|\hat{\theta})p(xθ^)近似总体p(x)p(x)p(x)
  • 贝叶斯学习:样本→计算参数后验p(θ∣x)p(\theta|x)p(θx)→用p(x)=∫p(x∣θ)p(θ∣x)dθp(x) = \int p(x|\theta)p(\theta|x)d\thetap(x)=p(xθ)p(θx)dθ直接估计总体p(x)p(x)p(x)

贝叶斯学习更贴合“不确定性建模”,尤其适用于小样本场景(先验信息可弥补样本不足)。

3.2 主干公式

贝叶斯学习的核心是“边际化参数”以得到总体概率密度,关键公式包括:

  1. 参数后验分布(同贝叶斯估计):
    p(θ∣D)=p(D∣θ)p(θ)p(D)p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)} p(θD)=p(D)p(Dθ)p(θ)
    其中D={x1,...,xN}D = \{x_1,...,x_N\}D={x1,...,xN}为样本集。
  2. 总体概率密度估计(边际化参数θ\thetaθ):
    p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x|D) = \int p(x|\theta)p(\theta|D)d\theta p(xD)=p(xθ)p(θD)dθ
    该式表示:总体密度是“参数条件下的密度p(x∣θ)p(x|\theta)p(xθ)”在“参数后验分布p(θ∣D)p(\theta|D)p(θD)”上的加权平均。

3.3 基本步骤

  1. 确定先验分布p(θ)p(\theta)p(θ):根据领域知识或无信息先验(如均匀分布)设定参数的初始分布;
  2. 计算似然函数p(D∣θ)p(D|\theta)p(Dθ):由样本的独立同分布性,p(D∣θ)=∏i=1Np(xi∣θ)p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)p(Dθ)=i=1Np(xiθ)
  3. 求参数后验分布p(θ∣D)p(\theta|D)p(θD):利用贝叶斯公式计算,若先验与似然共轭(如正态-正态、Beta-二项),后验与先验同分布,计算更简便;
  4. 估计总体密度p(x∣D)p(x|D)p(xD):通过边际化参数得到p(x∣D)p(x|D)p(xD),用于后续分类(如贝叶斯分类器)或预测。

3.4 递推贝叶斯参数学习

当样本逐次到来(在线学习场景)时,无需重新计算所有样本的似然,可通过“递推”更新后验分布:

  1. 初始状态:给定初始先验p(θ∣D0)=p(θ)p(\theta|D_0) = p(\theta)p(θD0)=p(θ)D0D_0D0为空样本集);
  2. 递推更新:若新增样本xN+1x_{N+1}xN+1,则新后验p(θ∣DN+1)p(\theta|D_{N+1})p(θDN+1)可由旧后验p(θ∣DN)p(\theta|D_N)p(θDN)更新:
    p(θ∣DN+1)=p(xN+1∣θ)p(θ∣DN)p(xN+1∣DN)p(\theta|D_{N+1}) = \frac{p(x_{N+1}|\theta)p(\theta|D_N)}{p(x_{N+1}|D_N)} p(θDN+1)=p(xN+1DN)p(xN+1θ)p(θDN)
    其中p(xN+1∣DN)=∫p(xN+1∣θ)p(θ∣DN)dθp(x_{N+1}|D_N) = \int p(x_{N+1}|\theta)p(\theta|D_N)d\thetap(xN+1DN)=p(xN+1θ)p(θDN)dθ为边际似然。
  3. 优势:避免存储所有历史样本,仅需保存当前后验分布,适合实时数据处理。

4 概率的窗函数估计法

窗函数估计法是典型的非参数密度估计方法,核心思想是“用样本在局部区域的‘密度’近似总体在该点的密度”,无需假设总体分布概型。

4.1 引言:参数估计与非参数估计的对比

估计类型核心假设优势劣势适用场景
参数估计总体分布概型已知计算简单、样本效率高假设不成立时误差大分布已知(如正态、泊松)
非参数估计无分布假设适应性强、鲁棒性高计算复杂、需大量样本分布未知或复杂

4.2 概率密度的基本估计式

从概率密度的定义出发推导非参数估计的核心公式:

  • 概率密度定义:f(x)=lim⁡V→0P(x∈V)Vf(x) = \lim_{V \to 0} \frac{P(x \in V)}{V}f(x)=limV0VP(xV),其中VVV是包含xxx的小邻域体积,P(x∈V)P(x \in V)P(xV)是样本落在VVV中的概率。
  • 样本近似:用样本频率替代概率,即P(x∈V)≈kNP(x \in V) \approx \frac{k}{N}P(xV)Nkkkk是落在VVV中的样本数,NNN是总样本数)。
  • 基本估计式:当VVV足够小时,
    f(x)≈f^N(x)=kNVf(x) \approx \hat{f}_N(x) = \frac{k}{N V} f(x)f^N(x)=NVk
    该式是所有窗函数估计法的基础,关键在于如何选择VVV(或kkk)以平衡估计的偏差和方差。

4.3 提高概率密度估计精度的要求

为使f^N(x)\hat{f}_N(x)f^N(x)收敛到真实密度f(x)f(x)f(x),需满足以下渐近条件(当N→∞N \to \inftyN时):

  1. 邻域体积V→0V \to 0V0:保证邻域足够小,近似“局部密度”;
  2. 邻域内样本数k→∞k \to \inftyk:保证频率kN\frac{k}{N}Nk能稳定近似概率P(x∈V)P(x \in V)P(xV)
  3. kN→0\frac{k}{N} \to 0Nk0:避免kkk增长过快导致VVV无法趋近于0。

4.4 两种经典非参数估计方法

4.4.1 Parzen窗法

Parzen窗法通过“窗函数(核函数)”对邻域内的样本进行加权,解决“固定VVV时样本离散分布”的问题。

  • 核心公式:选择窗函数ϕ(u)\phi(u)ϕ(u)(满足∫ϕ(u)du=1\int \phi(u)du = 1ϕ(u)du=1,如高斯窗、矩形窗),令V=hNdV = h_N^dV=hNdddd为样本维度,hNh_NhN为窗宽,随NNN减小),则:
    f^N(x)=1NhNd∑i=1Nϕ(x−xihN)\hat{f}_N(x) = \frac{1}{N h_N^d} \sum_{i=1}^N \phi\left( \frac{x - x_i}{h_N} \right) f^N(x)=NhNd1i=1Nϕ(hNxxi)
  • 窗函数的条件
    1. 非负性:ϕ(u)≥0\phi(u) \geq 0ϕ(u)0
    2. 归一性:∫−∞∞ϕ(u)du=1\int_{-\infty}^{\infty} \phi(u)du = 1ϕ(u)du=1
    3. 对称性:ϕ(u)=ϕ(−u)\phi(u) = \phi(-u)ϕ(u)=ϕ(u)(保证估计无偏)。
  • 示例:高斯窗函数ϕ(u)=1(2π)d/2exp⁡(−12∥u∥2)\phi(u) = \frac{1}{(2\pi)^{d/2}} \exp\left( -\frac{1}{2} \|u\|^2 \right)ϕ(u)=(2π)d/21exp(21u2),此时Parzen窗估计为样本的“加权高斯核叠加”。
4.4.2 kNk_NkN近邻法

kNk_NkN近邻法与Parzen窗法的核心区别是:固定邻域内的样本数kNk_NkN,调整邻域体积VN(x)V_N(x)VN(x)VN(x)V_N(x)VN(x)是包含xxxkNk_NkN个样本的最小邻域体积)。

  • 核心公式:令kNk_NkN满足kN→∞k_N \to \inftykNkNN→0\frac{k_N}{N} \to 0NkN0N→∞N \to \inftyN),则:
    f^N(x)=kNNVN(x)\hat{f}_N(x) = \frac{k_N}{N V_N(x)} f^N(x)=NVN(x)kN
  • 优势:自适应调整邻域体积——在样本密集区域,VN(x)V_N(x)VN(x)小,估计精度高;在样本稀疏区域,VN(x)V_N(x)VN(x)大,避免估计值为0。
  • 与Parzen窗法的对比:Parzen窗法是“固定VVV,变kkk”,kNk_NkN近邻法是“固定kkk,变VVV”。

5 错误率估计

错误率是评价分类器性能的核心指标,定义为“分类器对未知样本分类错误的概率”。由于真实错误率无法直接计算,需通过样本数据进行实验估算。

5.1 分类器错误率的实验估算基本原理

  • 真实错误率(贝叶斯错误率)Pe=E[I(y≠y^)]P_e = E[I(y \neq \hat{y})]Pe=E[I(y=y^)],其中I(⋅)I(\cdot)I()为指示函数(真为1,假为0),yyy为真实标签,y^\hat{y}y^为分类器预测标签。
  • 实验估算原理:用“独立于训练集的测试集”上的错误频率替代真实错误率,即:
    P^e=1M∑i=1MI(yi≠y^i)\hat{P}_e = \frac{1}{M} \sum_{i=1}^M I(y_i \neq \hat{y}_i) P^e=M1i=1MI(yi=y^i)
    其中MMM为测试集样本数,yiy_iyiy^i\hat{y}_iy^i分别为测试样本的真实标签和预测标签。

5.2 样本抽取方式对误判概率估计的影响

样本抽取的关键是“训练集与测试集独立”,否则会导致估计偏倚:

  • 无偏抽取:训练集DtrD_{tr}Dtr和测试集DteD_{te}Dte从同一总体独立抽取,且Dtr∩Dte=∅D_{tr} \cap D_{te} = \emptysetDtrDte=,此时P^e\hat{P}_eP^ePeP_ePe的无偏估计。
  • 有偏抽取
    1. 测试集包含训练集样本(过拟合测试):P^e\hat{P}_eP^e远小于真实PeP_ePe,高估分类器性能;
    2. 训练集与测试集来自不同总体(如训练集是“白天图像”,测试集是“夜晚图像”):P^e\hat{P}_eP^e远大于真实PeP_ePe,低估分类器性能。

5.3 训练与测试样本集的大小对错误率的影响

  • 训练集大小NNN的影响
    • NNN较小时:分类器无法充分学习总体规律,过拟合风险高,测试错误率高;
    • NNN增大时:分类器逐渐逼近总体规律,测试错误率下降并趋于稳定(收敛到贝叶斯错误率)。
  • 测试集大小MMM的影响
    • MMM较小时:错误频率的方差大,P^e\hat{P}_eP^e波动大(如M=10M=10M=10时,错误数差1个就导致P^e\hat{P}_eP^e差10%);
    • MMM增大时:错误频率的方差减小,P^e\hat{P}_eP^e更接近真实PeP_ePe(依大数定律收敛)。

5.4 训练样本使用技术及错误率的测试

当样本总量有限时(如N+MN+MN+M较小),需通过“重复利用样本”提高估计精度,常见方法包括:

  • 留一法(Leave-One-Out, LOO)

    1. NNN个样本依次留1个作为测试集,剩余N−1N-1N1个作为训练集;
    2. 共进行NNN次实验,计算平均错误率:P^LOO=1N∑i=1NI(yi≠y^i(i))\hat{P}_{LOO} = \frac{1}{N} \sum_{i=1}^N I(y_i \neq \hat{y}_i^{(i)})P^LOO=N1i=1NI(yi=y^i(i)),其中y^i(i)\hat{y}_i^{(i)}y^i(i)是用不含xix_ixi的训练集预测xix_ixi的结果;
    3. 优势:无偏估计,充分利用样本;劣势:计算量大(需训练NNN个分类器)。
  • kkk折交叉验证(kkk-fold Cross Validation)

    1. 将样本随机分为kkk个等大子集(如k=5k=5k=5k=10k=10k=10);
    2. 依次用k−1k-1k1个子集作为训练集,1个子集作为测试集,共进行kkk次实验;
    3. 平均错误率:P^k−fold=1k∑j=1kP^e,j\hat{P}_{k-fold} = \frac{1}{k} \sum_{j=1}^k \hat{P}_{e,j}P^kfold=k1j=1kP^e,j,其中P^e,j\hat{P}_{e,j}P^e,j是第jjj次实验的错误率;
    4. 优势:平衡估计无偏性和计算量,是工程中最常用的方法。

5.5 从学习曲线估计错误率

学习曲线是“分类器错误率随训练样本量NNN变化的曲线”,其核心作用是:

  1. 判断样本是否充足:若曲线趋于平缓,说明当前NNN已足够,增加样本对错误率降低无明显帮助;
  2. 估计贝叶斯错误率:曲线平缓后的极限值可视为贝叶斯错误率的近似;
  3. 诊断过拟合/欠拟合
    • 欠拟合:训练错误率和测试错误率都高,且曲线未平缓,需增加NNN或改进模型;
    • 过拟合:训练错误率低,但测试错误率高,且两者差距大,需正则化或增加样本。

小结

本文围绕“统计推断”展开,从“参数估计”(矩法、ML、贝叶斯)到“贝叶斯学习”(直接估计总体密度),再到“非参数估计”(Parzen窗、kNk_NkN近邻),最终落脚于“错误率估计”(交叉验证、学习曲线),形成了“从数据建模到性能评价”的完整逻辑链。这些方法是模式识别中“数据驱动决策”的基础,也是后续复杂模型(如神经网络、支持向量机)的理论支撑。

http://www.dtcms.com/a/495948.html

相关文章:

  • 网站建设提升医院信息化水平大连网站设计九即问仟亿科技
  • QML学习笔记(四十二)QML的MessageDialog
  • 国内专业网站建设公司东莞市建设规划局网站
  • [Linux系统编程——Lesson15.文件缓冲区]
  • 江苏天德建设工程有限公司网站黄冈公司网站建设平台
  • springboot中server.main.web-application-type=reactive导致的拦截器不生效
  • 1688黄页网免费网站做外贸服饰哪个个网站好
  • 杭州做企业网站公司网络营销策略应遵循的原则
  • 对“机器人VCU”进行一个详细、系统的讲解。
  • 陕西省城乡住房和建设厅网站网站建设shzanen
  • 49.字母异位词分组
  • 移动网站登录入口wordpress孕婴模板
  • 网站开发的四个高级阶段包括天津网站优化流程
  • 3.6 第一个JSON Schema(一)
  • 指针终极理解
  • 门头沟区专业网站制作网站建设wordpress登录框插件
  • 没网站做推广wordpress建站 域名
  • 企业客户管理优化方案:构建高效客户关系体系
  • 【隐语SecretFlow用户案例】亚信科技构建统一隐私计算框架探索实践
  • Win11系统安装TranslucentTB报错解决
  • 国外唯美flash个人网站欣赏资阳房产网站建设
  • 营销型企业网站怎么建站虚拟商品自动发货网站搭建教程
  • 网站文件命名规则网站做电源
  • ProE/Creo模型高效转换3DXML技术方案:在线转换工具全解析
  • 投资网站策划wordpress配置七牛
  • 吉林电商网站建设公司哪家好旅游网页制作教程
  • C#实现SQL Server→Snowflake建表语句转换工具
  • 一种面向 AIoT 定制化场景的服务架构设计方案
  • 免费做网站刮刮卡舆情查询
  • 深圳建设厅网站官网免费虚拟主机官网