当前位置：首页 > news >正文

【高级机器学习】 7. 带噪声数据的学习：从 MLE 到 MAP

news 2025/11/15 6:55:14

利用含噪数据进行学习：从 MLE 到 MAP

1. 我们为什么需要“利用”含噪数据？

通过社交网络、组织内部专门采集渠道、以及传感器网络等来源，数据正呈现爆炸式增长。
由于大数据具有高度分布式、动态与非结构化的特性，在采集、传输与融合过程中很容易被噪声污染。
含噪是常态，所以目标不是只“清除噪声”，而是学会在噪声存在时依然有效学习。

2. 面对含噪数据的两条路

数据清洗（Cleansing）：去噪、纠错、标准化等。
设计对噪声鲁棒的模型：通过正则化、贝叶斯方法、稳健损失等，使模型对噪声不敏感。

3. 贝叶斯法则（Bayes’ rule）

$p(\theta\mid S)=\frac{p(S\mid\theta),p(\theta)}{p(S)}$

直观记忆：后验 $=$ 似然 $×\times$ 先验（再除以证据做归一化）。

贝叶斯的核心逻辑很简单：

“在看见新数据后，更新你原来的信念。”

举个例子：

我先“猜”今天下雨的概率是 30%（先验）。

我看到天阴了（新证据）。

我于是更新我的信念：可能 70% 要下雨（后验）。

公式：
$\frac{p(天阴∣下雨)×p(下雨)}{p(天阴)}$

翻译成话：
“在天阴的情况下下雨的概率 = 天阴在下雨时出现的可能 × 原本的下雨概率 ÷ 天阴的总体概率。”

这就是贝叶斯更新：原来的信念 × 数据证据 → 新信念。

4. 三个核心量：似然、先验、后验

似然（Likelihood）：在参数 $θ\theta$ 给定时，观测到数据 $S$ 的概率，记为 $p(S∣θ)p(S\mid\theta)$ 。

如果真下雨，天阴的可能性有多大？

先验（Prior）：表示在看见数据前对参数 $θ\theta$ 的信念分布，记为 $p(θ)p(\theta)$ 。

比如你知道这个城市雨多，那先验就高。

后验（Posterior）：观测数据后对参数的更新认知 $p(θ∣S)p(\theta\mid S)$ ，满足 $p(θ∣S)∝p(S∣θ)p(θ)p(\theta\mid S)\propto p(S\mid\theta)p(\theta)$ 。

结合证据之后的判断。 “天阴+这是多雨城市” → 今天大概率下雨。

5. 极大似然估计（MLE）

在独立同分布（i.i.d.）假设下，似然可写为
$p(S\mid \theta)=\prod_{i=1}^{n}p(x_i,y_i\mid \theta).$

也常写为条件似然
$p(S\mid \theta)=\prod_{i=1}^{n}p(y_i\mid x_i,\theta).$

极大似然目标：寻找使 $p(S∣θ)p(S\mid\theta)$ 最大的 $θ\theta$ （也就是让观测数据最可能的参数）。

MLE 的想法是：

选一个参数，让它解释你手上这些数据最合理。

已知一堆样本数据，用它们来反推出最可能生成这些样本的参数值。

举个例子：
假设你认为数据服从正态分布 $N(μ,1)N(\mu, 1)$ ，
你有 5 个样本：[1.1, 0.9, 1.0, 1.2, 0.8]。

哪一个 $μ\mu$ 让这些数据的出现最可能？
答案就是样本平均数：
$μ=\frac{1.1+0.9+1.0+1.2+0.8}{5} =1.0.$
这就是 MLE：找到让数据最可能出现的参数。

题目：
掷硬币 10 次，观测到 7 次正面、3 次反面。
假设硬币正面朝上的概率为 $p$ （未知），每次独立同分布。
求 $p$ 的极大似然估计。

解：

写出似然函数

每次抛掷为伯努利分布 $Bernoulli(p)\text{Bernoulli}(p)$ ，联合似然：
$L(p)=p^7(1-p)^3.$

取对数简化

$\ell(p)=\log L(p)=7\log p+3\log(1-p).$

对 $p$ 求导并令为零

$\frac{d\ell}{dp}=\frac{7}{p}-\frac{3}{1-p}=0 \Rightarrow 7(1-p)=3p \Rightarrow p=\frac{7}{10}=0.7.$

验证极值类型

$\frac{d^2\ell}{dp^2}=-\frac{7}{p^2}-\frac{3}{(1-p)^2}<0,$
因此为最大值。

最终答案：
$p^MLE=0.7 \boxed{\hat{p}_{\text{MLE}}=0.7}$

解释：MLE 找到让数据最“可能”发生的参数值，即在 10 次实验中出现 7 次正面，最合理的概率估计是 0.7。

6. 最大后验估计（MAP）

由贝叶斯法则
$p(\theta\mid S)\propto p(S\mid \theta),p(\theta),$

于是
$\arg\max_{\theta}p(\theta\mid S)=\arg\max_{\theta};p(S\mid \theta),p(\theta).$

取负对数等价为最小化：
$\arg\min_{\theta}\big(-\log p(\theta\mid S)\big) =\arg\min_{\theta}\big(-\log p(S\mid \theta)-\log p(\theta)\big).$

MAP = MLE + 先验惩罚，通常更稳健、更抗噪。

MLE 只看数据，有时会被噪声“骗”。
MAP 在此基础上加上“先验”这一保险。

假设你觉得“ $μ\mu$ 应该接近 0”，
这就是一个“高斯先验”——参数越远离 0，越不可能。

那么 MAP 的目标变成：
$最大化 p (数据 ∣ μ) \times p (μ)$
也就是：
既要数据解释得好（拟合好），又要参数别太奇怪（符合先验）。

对应到机器学习，就是加正则项的思想。

7. 含噪观测的建模

假设数据由确定性函数加高斯噪声生成：
$y=h(x)+\epsilon,\qquad \epsilon\sim \mathcal{N}(0,\beta^{-1}).$

等价的条件分布写作
$\{{y\mid x,h,\beta}\}=\mathcal{N}\big(y\mid h(x),\beta^{-1}\big).$

给定训练集 $S=(x1,y1),…,(xn,yn)S={(x_1,y_1),\ldots,(x_n,y_n)}$ ，模型的似然为
$p(S\mid X,h,\beta^{-1}) =\prod_{i=1}^{n}\mathcal{N}\big(y_i\mid h(x_i),\beta^{-1}\big).$

8. 极大似然的具体展开

从上式得到
$\begin{aligned} p(S\mid X,h,\beta^{-1}) &=\prod_{i=1}^{n}\sqrt{\frac{\beta}{2\pi}} \exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right) \ &=\left(\frac{\beta}{2\pi}\right)^{!n/2} \prod_{i=1}^{n}\exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right). \end{aligned}$

取负对数（便于最优化）：
$-\ln p(S\mid X,h,\beta^{-1}) =-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2}\sum_{i=1}^{n}(y_i-h(x_i))^2.$

记经验风险（均方误差）
$R_S(h)=\frac{1}{n}\sum_{i=1}^{n}(y_i-h(x_i))^2,$

则
$-\ln p(S\mid X,h,\beta^{-1}) =-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)+\frac{\beta}{2},n,R_S(h).$

结论：在高斯噪声假设下，MLE 等价于最小化均方误差（常数项可忽略）。

9. 再看一次 MAP：把先验并进来

由贝叶斯法则，有
$\arg\max_{\theta}p(\theta\mid S) =\arg\max_{\theta};p(S\mid\theta)p(\theta).$

转为最小化负对数：
$\arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big) =\arg\min_{h}\Big(-\ln p(S\mid X,h,\beta^{-1})-\ln p(h)\Big),$

结合前面的展开，即
$\arg\min_{h}\left( -\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2},n,R_S(h);-;\ln p(h) \right).$

这表明：MAP = MSE 项 $+$ 先验的负对数惩罚。不同先验 $⇒\Rightarrow$ 不同正则化。

10. 多项式回归 + 高斯先验 $⇒\Rightarrow$ $L_2$ 正则

设模型为 9 次多项式
$h(x)=w_0+w_1x+\cdots+w_9 x^9.$

假设参数先验为独立零均值高斯
$p(h)=\prod_{i=0}^{9}\sqrt{\frac{\tau}{2\pi}}, \exp!\left(-\frac{\tau,w_i^{2}}{2}\right).$

于是
$\arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big) =\arg\min_{h}\left( -\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2},n,R_S(h); -;5\ln\tau+5\ln(2\pi)+\frac{\tau}{2}\sum_{i=0}^{9}w_i^2 \right).$

忽略与 $h$ 无关的常数项，等价于最小化
$\min; R_S(h);+;\lambda\sum_{i=0}^{9}w_i^2 ;=; R_S(h)+\lambda\lVert w\rVert_2^2, \qquad \lambda=\frac{\tau}{\beta}.$

关键结论：高斯先验 $⇒\Rightarrow$ $L_2$ 正则化（权重衰减/岭回归）。
其中 $λ=τ/β\lambda=\tau/\beta$ ：先验精度 $τ\tau$ 越大（更相信权重应接近 0），或噪声精度 $β\beta$ 越小（噪声越大），正则强度越大。

小结（串联全流程）

含噪是常态：大数据在采集/传输/融合中易受噪声污染。
两条应对路线：数据清洗与鲁棒学习（正则化/贝叶斯）。
MLE：在高斯噪声下，等价于最小化 MSE。
MAP：在 MLE 基础上加上先验惩罚（负对数先验）。
高斯先验 $⇒L2\Rightarrow L_2$ 正则：得到 $RS(h)+λ∥w∥22R_S(h)+\lambda\lVert w\rVert_2^2$ ，其中 $λ=τ/β\lambda=\tau/\beta$ 。