当前位置：首页 > news >正文

模式识别与机器学习课程笔记（3）：统计决策中的经典学习方法

news 2025/10/18 10:22:58

模式识别与机器学习课程笔记（3）：统计决策中的经典学习方法

- 1 统计推断概述
- - 1.1 基本概念
  - 1.2 估计的方法
  - 1.3 估计量的性质
- 2 参数估计
- - 2.1 参数的辨识性
  - 2.2 矩法估计
  - - 核心步骤
    - 示例：正态分布的矩法估计
  - 2.3 最大似然估计（ML估计）
  - - 核心公式与步骤
    - 示例：正态分布的ML估计
  - 2.4 贝叶斯估计
  - - 核心公式与步骤
    - 示例：正态分布均值的贝叶斯估计
- 3 贝叶斯学习
- - 3.1 基本思想
  - 3.2 主干公式
  - 3.3 基本步骤
  - 3.4 递推贝叶斯参数学习
- 4 概率的窗函数估计法
- - 4.1 引言：参数估计与非参数估计的对比
  - 4.2 概率密度的基本估计式
  - 4.3 提高概率密度估计精度的要求
  - 4.4 两种经典非参数估计方法
  - - 4.4.1 Parzen窗法
    - 4.4.2 $k_N$ 近邻法
- 5 错误率估计
- - 5.1 分类器错误率的实验估算基本原理
  - 5.2 样本抽取方式对误判概率估计的影响
  - 5.3 训练与测试样本集的大小对错误率的影响
  - 5.4 训练样本使用技术及错误率的测试
  - 5.5 从学习曲线估计错误率
- 小结

1 统计推断概述

统计推断是模式识别中“从数据到模型”的核心环节，核心目标是通过有限的样本数据，推断总体数据的分布规律或关键参数，为后续决策（如分类、回归）提供依据。

1.1 基本概念

训练与学习：通过“输入样本+标签（或无标签）”调整模型参数的过程。本质是让模型从数据中捕捉总体的统计规律，最终实现对未知样本的预测。
总体：所有待研究对象的集合（如所有手写数字“0”的图像），其统计特性由固定的分布（如概率密度函数 $f (x)$ ）描述。
子样（样本）：从总体中随机抽取的有限个个体（如1000张手写“0”的图像），需满足独立同分布（i.i.d.） 假设，以保证样本能反映总体特性。
估计：从子样数据出发，计算一个“近似值”来替代总体的未知参数（如用样本均值估计总体均值）或未知分布（如用Parzen窗估计总体概率密度）的过程。

1.2 估计的方法

根据是否假设总体分布的“概型”（即分布形式，如正态分布、泊松分布），估计方法分为两类：

参数估计方法：假设总体分布概型已知（如已知总体服从正态分布 $N(μ,σ2)N(\mu,\sigma^2)$ ），仅需估计分布中的未知参数（如 $μ\mu$ 和 $σ2\sigma^2$ ）。常见方法包括矩法、最大似然估计、贝叶斯估计。
非参数估计方法：不假设总体分布概型，直接通过样本数据“拟合”总体的概率密度或分布函数。适用于总体分布未知或分布形式复杂的场景，常见方法包括Parzen窗法、 $k_N$ 近邻法。

1.3 估计量的性质

评价一个“估计结果”是否可靠，需通过估计量的统计性质衡量，核心性质包括：

估计的无偏性：估计量的期望等于总体真实参数。若 $θ^\hat{\theta}$ 是参数 $θ\theta$ 的估计量，则无偏性要求 $E[θ^]=θE[\hat{\theta}] = \theta$ 。例如，样本均值 $xˉ=1N∑i=1Nxi\bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$ 是总体均值 $μ\mu$ 的无偏估计。
估计的相合性（一致性）：当样本量 $N$ 趋近于无穷大时，估计量 $θ^\hat{\theta}$ 以概率1收敛到真实参数 $θ\theta$ ，即 $θ^→Pθ\hat{\theta} \xrightarrow{P} \theta$ （依概率收敛）。相合性保证了“数据越多，估计越准”。
估计的充分性：估计量 $θ^\hat{\theta}$ 包含了样本中关于参数 $θ\theta$ 的“所有信息”，即没有任何其他估计量能从样本中提取更多关于 $θ\theta$ 的信息。例如，样本均值和样本方差共同构成了正态分布参数 $(μ,σ2)(\mu,\sigma^2)$ 的充分统计量。

2 参数估计

参数估计是“已知分布概型，求未知参数”的过程，核心是通过合理的准则从样本中提取参数信息。

2.1 参数的辨识性

若总体分布 $p(x∣θ)p(x|\theta)$ 满足：“当 $θ1≠θ2\theta_1 \neq \theta_2$ 时，必有 $p(x∣θ1)≠p(x∣θ2)p(x|\theta_1) \neq p(x|\theta_2)$ （即两个分布在几乎所有 $x$ 处的概率密度不同）”，则称参数 $θ\theta$ 是可辨识的。

辨识性是参数估计的前提：若参数不可辨识，即使拥有无穷多样本，也无法唯一确定真实参数。
示例：混合高斯分布 $p(x∣θ)=αN(x∣μ1,σ2)+(1−α)N(x∣μ2,σ2)p(x|\theta) = \alpha N(x|\mu_1,\sigma^2) + (1-\alpha) N(x|\mu_2,\sigma^2)$ 中，若交换 $(μ1,α)(\mu_1,\alpha)$ 和 $(μ2,1−α)(\mu_2,1-\alpha)$ ，分布不变，因此 $(α,μ1,μ2)(\alpha,\mu_1,\mu_2)$ 不可辨识。

2.2 矩法估计

矩法估计的核心思想是“用样本矩匹配总体矩”——总体矩由参数决定，通过样本矩的表达式反解出参数估计值。

核心步骤

计算总体的 $k$ 阶原点矩 $m_k = E[X^k]$ （由未知参数 $θ\theta$ 表示）；
计算样本的 $k$ 阶原点矩 $m^k=1N∑i=1Nxik\hat{m}_k = \frac{1}{N}\sum_{i=1}^N x_i^k$ （由样本数据计算）；
令 $mk=m^km_k = \hat{m}_k$ ，建立方程并解出 $θ\theta$ 的估计量 $θ^\hat{\theta}$ 。

示例：正态分布的矩法估计

设总体 $\sim N(\mu,\sigma^2)$ ，未知参数为 $θ=(μ,σ2)\theta = (\mu,\sigma^2)$ ：

总体1阶矩： $m1=E[X]=μm_1 = E[X] = \mu$ ；
总体2阶矩： $m2=E[X2]=μ2+σ2m_2 = E[X^2] = \mu^2 + \sigma^2$ ；
样本1阶矩： $m^1=xˉ=1N∑i=1Nxi\hat{m}_1 = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$ ；
样本2阶矩： $m^2=1N∑i=1Nxi2\hat{m}_2 = \frac{1}{N}\sum_{i=1}^N x_i^2$ ；
联立解得： $μ^=xˉ\hat{\mu} = \bar{x}$ ， $σ^2=m^2−m^12=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2 = \hat{m}_2 - \hat{m}_1^2 = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2$ （注：此方差估计是有偏的，修正后为 $1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2$ ）。

2.3 最大似然估计（ML估计）

最大似然估计的核心思想是“让观测到的样本数据出现概率最大”——对于给定样本，选择使“样本似然函数”最大的参数作为估计值。

核心公式与步骤

似然函数：设样本 $x_1,x_2,...,x_N$ 独立同分布，总体概率密度为 $p(x∣θ)p(x|\theta)$ ，则似然函数为样本联合概率密度：
$L(θ∣x1,...,xN)=∏i=1Np(xi∣θ)L(\theta|x_1,...,x_N) = \prod_{i=1}^N p(x_i|\theta)$
对数似然函数：为简化乘积运算，取对数（对数是单调递增函数，不改变极值位置）：
$l(θ∣x1,...,xN)=∑i=1Nln⁡p(xi∣θ)l(\theta|x_1,...,x_N) = \sum_{i=1}^N \ln p(x_i|\theta)$
求极值：对 $l(θ)l(\theta)$ 关于 $θ\theta$ 求导，令导数为0，解出 $θ\theta$ 的估计量 $θ^ML\hat{\theta}_{ML}$ 。

示例：正态分布的ML估计

设 $\sim N(\mu,\sigma^2)$ ，对数似然函数为：
$l(μ,σ2)=−N2ln⁡(2π)−N2ln⁡(σ2)−12σ2∑i=1N(xi−μ)2l(\mu,\sigma^2) = -\frac{N}{2}\ln(2\pi) - \frac{N}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^N (x_i - \mu)^2$
分别对 $μ\mu$ 和 $σ2\sigma^2$ 求导并令导数为0，解得：
$μ^ML=xˉ=1N∑i=1Nxi\hat{\mu}_{ML} = \bar{x} = \frac{1}{N}\sum_{i=1}^N x_i$
$σ^ML2=1N∑i=1N(xi−xˉ)2\hat{\sigma}^2_{ML} = \frac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2$
（注： $σ^ML2\hat{\sigma}^2_{ML}$ 是有偏估计，需修正为 $1N−1∑i=1N(xi−xˉ)2\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar{x})^2$ ）。

2.4 贝叶斯估计

贝叶斯估计与频率派（如ML估计）的核心区别是：将未知参数 $θ\theta$ 视为随机变量，而非固定常数。估计过程需结合“先验信息”和“样本信息”，最终得到参数的后验分布。

核心公式与步骤

贝叶斯公式：后验概率密度 $p(θ∣x)p(\theta|x)$ 由先验概率密度 $p(θ)p(\theta)$ 和似然函数 $p(x∣θ)p(x|\theta)$ 计算：
$p(θ∣x)=p(x∣θ)p(θ)p(x)p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$
其中 $\int p(x|\theta)p(\theta)d\theta$ 是边缘似然（证据因子），仅与样本有关，与 $θ\theta$ 无关。
损失函数与估计量：贝叶斯估计需定义“损失函数”衡量估计误差，选择使“期望损失最小”的 $θ^\hat{\theta}$ 作为估计量：
- 若用平方损失函数 $L(θ,θ^)=(θ−θ^)2L(\theta,\hat{\theta}) = (\theta - \hat{\theta})^2$ ，则最优估计量为后验均值： $θ^Bayes=E[θ∣x]=∫θp(θ∣x)dθ\hat{\theta}_{Bayes} = E[\theta|x] = \int \theta p(\theta|x)d\theta$ ；
- 若用绝对值损失函数 $L(θ,θ^)=∣θ−θ^∣L(\theta,\hat{\theta}) = |\theta - \hat{\theta}|$ ，则最优估计量为后验中位数。

示例：正态分布均值的贝叶斯估计

设 $\sim N(\mu,\sigma^2)$ （ $σ2\sigma^2$ 已知），先验 $μ∼N(μ0,σ02)\mu \sim N(\mu_0,\sigma_0^2)$ ，则后验 $p(μ∣x)∼N(μn,σn2)p(\mu|x) \sim N(\mu_n,\sigma_n^2)$ ，其中：
$μn=σ2σ2+Nσ02μ0+Nσ02σ2+Nσ02xˉ\mu_n = \frac{\sigma^2}{\sigma^2 + N\sigma_0^2}\mu_0 + \frac{N\sigma_0^2}{\sigma^2 + N\sigma_0^2}\bar{x}$
$σn2=σ2σ02σ2+Nσ02\sigma_n^2 = \frac{\sigma^2 \sigma_0^2}{\sigma^2 + N\sigma_0^2}$
可见，贝叶斯估计是“先验均值 $μ0\mu_0$ ”和“样本均值 $xˉ\bar{x}$ ”的加权平均，样本量 $N$ 越大，样本信息权重越高。

3 贝叶斯学习

贝叶斯学习是贝叶斯估计的延伸，核心思想是：不直接估计参数 $θ\theta$ ，而是通过参数的后验分布直接估计总体的概率密度 $p (x)$ ，从而跳过“参数估计”步骤，直接为决策提供分布依据。

3.1 基本思想

频率派和贝叶斯学习的路径对比：

频率派（如ML估计）：样本→估计参数 $θ^\hat{\theta}$ →用 $p(x∣θ^)p(x|\hat{\theta})$ 近似总体 $p (x)$ ；
贝叶斯学习：样本→计算参数后验 $p(θ∣x)p(\theta|x)$ →用 $\int p(x|\theta)p(\theta|x)d\theta$ 直接估计总体 $p (x)$ 。

贝叶斯学习更贴合“不确定性建模”，尤其适用于小样本场景（先验信息可弥补样本不足）。

3.2 主干公式

贝叶斯学习的核心是“边际化参数”以得到总体概率密度，关键公式包括：

参数后验分布（同贝叶斯估计）：
$p(θ∣D)=p(D∣θ)p(θ)p(D)p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}$
其中 $D = \{x_1,...,x_N\}$ 为样本集。
总体概率密度估计（边际化参数 $θ\theta$ ）：
$\int p(x|\theta)p(\theta|D)d\theta$
该式表示：总体密度是“参数条件下的密度 $p(x∣θ)p(x|\theta)$ ”在“参数后验分布 $p(θ∣D)p(\theta|D)$ ”上的加权平均。

3.3 基本步骤

确定先验分布 $p(θ)p(\theta)$ ：根据领域知识或无信息先验（如均匀分布）设定参数的初始分布；
计算似然函数 $p(D∣θ)p(D|\theta)$ ：由样本的独立同分布性， $p(D∣θ)=∏i=1Np(xi∣θ)p(D|\theta) = \prod_{i=1}^N p(x_i|\theta)$ ；
求参数后验分布 $p(θ∣D)p(\theta|D)$ ：利用贝叶斯公式计算，若先验与似然共轭（如正态-正态、Beta-二项），后验与先验同分布，计算更简便；
估计总体密度 $p (x ∣ D)$ ：通过边际化参数得到 $p (x ∣ D)$ ，用于后续分类（如贝叶斯分类器）或预测。

3.4 递推贝叶斯参数学习

当样本逐次到来（在线学习场景）时，无需重新计算所有样本的似然，可通过“递推”更新后验分布：

初始状态：给定初始先验 $p(θ∣D0)=p(θ)p(\theta|D_0) = p(\theta)$ （ $D_0$ 为空样本集）；
递推更新：若新增样本 $x_{N+1}$ ，则新后验 $p(θ∣DN+1)p(\theta|D_{N+1})$ 可由旧后验 $p(θ∣DN)p(\theta|D_N)$ 更新：
$p(θ∣DN+1)=p(xN+1∣θ)p(θ∣DN)p(xN+1∣DN)p(\theta|D_{N+1}) = \frac{p(x_{N+1}|\theta)p(\theta|D_N)}{p(x_{N+1}|D_N)}$
其中 $p(xN+1∣DN)=∫p(xN+1∣θ)p(θ∣DN)dθp(x_{N+1}|D_N) = \int p(x_{N+1}|\theta)p(\theta|D_N)d\theta$ 为边际似然。
优势：避免存储所有历史样本，仅需保存当前后验分布，适合实时数据处理。

4 概率的窗函数估计法

窗函数估计法是典型的非参数密度估计方法，核心思想是“用样本在局部区域的‘密度’近似总体在该点的密度”，无需假设总体分布概型。

4.1 引言：参数估计与非参数估计的对比

估计类型	核心假设	优势	劣势	适用场景
参数估计	总体分布概型已知	计算简单、样本效率高	假设不成立时误差大	分布已知（如正态、泊松）
非参数估计	无分布假设	适应性强、鲁棒性高	计算复杂、需大量样本	分布未知或复杂

4.2 概率密度的基本估计式

从概率密度的定义出发推导非参数估计的核心公式：

概率密度定义： $\lim_{V \to 0} \frac{P(x \in V)}{V}$ ，其中 $V$ 是包含 $x$ 的小邻域体积， $\in V)$ 是样本落在 $V$ 中的概率。
样本近似：用样本频率替代概率，即 $\in V) \approx \frac{k}{N}$ （ $k$ 是落在 $V$ 中的样本数， $N$ 是总样本数）。
基本估计式：当 $V$ 足够小时，
$f(x)≈f^N(x)=kNVf(x) \approx \hat{f}_N(x) = \frac{k}{N V}$
该式是所有窗函数估计法的基础，关键在于如何选择 $V$ （或 $k$ ）以平衡估计的偏差和方差。

4.3 提高概率密度估计精度的要求

为使 $f^N(x)\hat{f}_N(x)$ 收敛到真实密度 $f (x)$ ，需满足以下渐近条件（当 $\to \infty$ 时）：

邻域体积 $\to 0$ ：保证邻域足够小，近似“局部密度”；
邻域内样本数 $\to \infty$ ：保证频率 $kN\frac{k}{N}$ 能稳定近似概率 $\in V)$ ；
$kN→0\frac{k}{N} \to 0$ ：避免 $k$ 增长过快导致 $V$ 无法趋近于0。

4.4 两种经典非参数估计方法

4.4.1 Parzen窗法

Parzen窗法通过“窗函数（核函数）”对邻域内的样本进行加权，解决“固定 $V$ 时样本离散分布”的问题。

核心公式：选择窗函数 $ϕ(u)\phi(u)$ （满足 $∫ϕ(u)du=1\int \phi(u)du = 1$ ，如高斯窗、矩形窗），令 $V = h_N^d$ （ $d$ 为样本维度， $h_N$ 为窗宽，随 $N$ 减小），则：
$f^N(x)=1NhNd∑i=1Nϕ(x−xihN)\hat{f}_N(x) = \frac{1}{N h_N^d} \sum_{i=1}^N \phi\left( \frac{x - x_i}{h_N} \right)$
窗函数的条件：
1. 非负性： $ϕ(u)≥0\phi(u) \geq 0$ ；
2. 归一性： $∫−∞∞ϕ(u)du=1\int_{-\infty}^{\infty} \phi(u)du = 1$ ；
3. 对称性： $ϕ(u)=ϕ(−u)\phi(u) = \phi(-u)$ （保证估计无偏）。
示例：高斯窗函数 $ϕ(u)=1(2π)d/2exp⁡(−12∥u∥2)\phi(u) = \frac{1}{(2\pi)^{d/2}} \exp\left( -\frac{1}{2} \|u\|^2 \right)$ ，此时Parzen窗估计为样本的“加权高斯核叠加”。

4.4.2 $k_N$ 近邻法

$k_N$ 近邻法与Parzen窗法的核心区别是：固定邻域内的样本数 $k_N$ ，调整邻域体积 $V_N(x)$ （ $V_N(x)$ 是包含 $x$ 和 $k_N$ 个样本的最小邻域体积）。

核心公式：令 $k_N$ 满足 $kN→∞k_N \to \infty$ 且 $kNN→0\frac{k_N}{N} \to 0$ （ $\to \infty$ ），则：
$f^N(x)=kNNVN(x)\hat{f}_N(x) = \frac{k_N}{N V_N(x)}$
优势：自适应调整邻域体积——在样本密集区域， $V_N(x)$ 小，估计精度高；在样本稀疏区域， $V_N(x)$ 大，避免估计值为0。
与Parzen窗法的对比：Parzen窗法是“固定 $V$ ，变 $k$ ”， $k_N$ 近邻法是“固定 $k$ ，变 $V$ ”。

5 错误率估计

错误率是评价分类器性能的核心指标，定义为“分类器对未知样本分类错误的概率”。由于真实错误率无法直接计算，需通过样本数据进行实验估算。

5.1 分类器错误率的实验估算基本原理

真实错误率（贝叶斯错误率）： $Pe=E[I(y≠y^)]P_e = E[I(y \neq \hat{y})]$ ，其中 $I(⋅)I(\cdot)$ 为指示函数（真为1，假为0）， $y$ 为真实标签， $y^\hat{y}$ 为分类器预测标签。
实验估算原理：用“独立于训练集的测试集”上的错误频率替代真实错误率，即：
$P^e=1M∑i=1MI(yi≠y^i)\hat{P}_e = \frac{1}{M} \sum_{i=1}^M I(y_i \neq \hat{y}_i)$
其中 $M$ 为测试集样本数， $y_i$ 和 $y^i\hat{y}_i$ 分别为测试样本的真实标签和预测标签。

5.2 样本抽取方式对误判概率估计的影响

样本抽取的关键是“训练集与测试集独立”，否则会导致估计偏倚：

无偏抽取：训练集 $D_{tr}$ 和测试集 $D_{te}$ 从同一总体独立抽取，且 $Dtr∩Dte=∅D_{tr} \cap D_{te} = \emptyset$ ，此时 $P^e\hat{P}_e$ 是 $P_e$ 的无偏估计。
有偏抽取：
1. 测试集包含训练集样本（过拟合测试）： $P^e\hat{P}_e$ 远小于真实 $P_e$ ，高估分类器性能；
2. 训练集与测试集来自不同总体（如训练集是“白天图像”，测试集是“夜晚图像”）： $P^e\hat{P}_e$ 远大于真实 $P_e$ ，低估分类器性能。

5.3 训练与测试样本集的大小对错误率的影响

训练集大小 $N$ 的影响：
- $N$ 较小时：分类器无法充分学习总体规律，过拟合风险高，测试错误率高；
- $N$ 增大时：分类器逐渐逼近总体规律，测试错误率下降并趋于稳定（收敛到贝叶斯错误率）。
测试集大小 $M$ 的影响：
- $M$ 较小时：错误频率的方差大， $P^e\hat{P}_e$ 波动大（如 $M = 10$ 时，错误数差1个就导致 $P^e\hat{P}_e$ 差10%）；
- $M$ 增大时：错误频率的方差减小， $P^e\hat{P}_e$ 更接近真实 $P_e$ （依大数定律收敛）。

5.4 训练样本使用技术及错误率的测试

当样本总量有限时（如 $N + M$ 较小），需通过“重复利用样本”提高估计精度，常见方法包括：

留一法（Leave-One-Out, LOO）：
1. 将 $N$ 个样本依次留1个作为测试集，剩余 $N - 1$ 个作为训练集；
2. 共进行 $N$ 次实验，计算平均错误率： $P^LOO=1N∑i=1NI(yi≠y^i(i))\hat{P}_{LOO} = \frac{1}{N} \sum_{i=1}^N I(y_i \neq \hat{y}_i^{(i)})$ ，其中 $y^i(i)\hat{y}_i^{(i)}$ 是用不含 $x_i$ 的训练集预测 $x_i$ 的结果；
3. 优势：无偏估计，充分利用样本；劣势：计算量大（需训练 $N$ 个分类器）。
$k$ 折交叉验证（ $k$ -fold Cross Validation）：
1. 将样本随机分为 $k$ 个等大子集（如 $k = 5$ 或 $k = 10$ ）；
2. 依次用 $k - 1$ 个子集作为训练集，1个子集作为测试集，共进行 $k$ 次实验；
3. 平均错误率： $P^k−fold=1k∑j=1kP^e,j\hat{P}_{k-fold} = \frac{1}{k} \sum_{j=1}^k \hat{P}_{e,j}$ ，其中 $P^e,j\hat{P}_{e,j}$ 是第 $j$ 次实验的错误率；
4. 优势：平衡估计无偏性和计算量，是工程中最常用的方法。

5.5 从学习曲线估计错误率

学习曲线是“分类器错误率随训练样本量 $N$ 变化的曲线”，其核心作用是：

判断样本是否充足：若曲线趋于平缓，说明当前 $N$ 已足够，增加样本对错误率降低无明显帮助；
估计贝叶斯错误率：曲线平缓后的极限值可视为贝叶斯错误率的近似；
诊断过拟合/欠拟合：
- 欠拟合：训练错误率和测试错误率都高，且曲线未平缓，需增加 $N$ 或改进模型；
- 过拟合：训练错误率低，但测试错误率高，且两者差距大，需正则化或增加样本。

小结

本文围绕“统计推断”展开，从“参数估计”（矩法、ML、贝叶斯）到“贝叶斯学习”（直接估计总体密度），再到“非参数估计”（Parzen窗、 $k_N$ 近邻），最终落脚于“错误率估计”（交叉验证、学习曲线），形成了“从数据建模到性能评价”的完整逻辑链。这些方法是模式识别中“数据驱动决策”的基础，也是后续复杂模型（如神经网络、支持向量机）的理论支撑。

查看全文

http://www.dtcms.com/a/495948.html