【高级机器学习】 7. 带噪声数据的学习:从 MLE 到 MAP
利用含噪数据进行学习:从 MLE 到 MAP
1. 我们为什么需要“利用”含噪数据?
- 通过社交网络、组织内部专门采集渠道、以及传感器网络等来源,数据正呈现爆炸式增长。
- 由于大数据具有高度分布式、动态与非结构化的特性,在采集、传输与融合过程中很容易被噪声污染。
含噪是常态,所以目标不是只“清除噪声”,而是学会在噪声存在时依然有效学习。
2. 面对含噪数据的两条路
- 数据清洗(Cleansing):去噪、纠错、标准化等。
- 设计对噪声鲁棒的模型:通过正则化、贝叶斯方法、稳健损失等,使模型对噪声不敏感。
3. 贝叶斯法则(Bayes’ rule)
p(θ∣S)=p(S∣θ),p(θ)p(S) p(\theta\mid S)=\frac{p(S\mid\theta),p(\theta)}{p(S)} p(θ∣S)=p(S)p(S∣θ),p(θ)
- 直观记忆:后验 === 似然 ×\times× 先验(再除以证据做归一化)。
贝叶斯的核心逻辑很简单:
“在看见新数据后,更新你原来的信念。”
举个例子:
我先“猜”今天下雨的概率是 30%(先验)。
我看到天阴了(新证据)。
我于是更新我的信念:可能 70% 要下雨(后验)。
公式:
p(下雨∣天阴)=p(天阴∣下雨)×p(下雨)p(天阴)
p(下雨∣天阴)= \frac{p(天阴∣下雨)×p(下雨)}{p(天阴)}
p(下雨∣天阴)=p(天阴)p(天阴∣下雨)×p(下雨)
翻译成话:
“在天阴的情况下下雨的概率 = 天阴在下雨时出现的可能 × 原本的下雨概率 ÷ 天阴的总体概率。”
这就是贝叶斯更新:原来的信念 × 数据证据 → 新信念。
4. 三个核心量:似然、先验、后验
- 似然(Likelihood):在参数 θ\thetaθ 给定时,观测到数据 SSS 的概率,记为 p(S∣θ)p(S\mid\theta)p(S∣θ)。
如果真下雨,天阴的可能性有多大?
- 先验(Prior):表示在看见数据前对参数 θ\thetaθ 的信念分布,记为 p(θ)p(\theta)p(θ)。
比如你知道这个城市雨多,那先验就高。
- 后验(Posterior):观测数据后对参数的更新认知 p(θ∣S)p(\theta\mid S)p(θ∣S),满足 p(θ∣S)∝p(S∣θ)p(θ)p(\theta\mid S)\propto p(S\mid\theta)p(\theta)p(θ∣S)∝p(S∣θ)p(θ)。
结合证据之后的判断。 “天阴+这是多雨城市” → 今天大概率下雨。
5. 极大似然估计(MLE)
在独立同分布(i.i.d.)假设下,似然可写为
p(S∣θ)=∏i=1np(xi,yi∣θ).
p(S\mid \theta)=\prod_{i=1}^{n}p(x_i,y_i\mid \theta).
p(S∣θ)=i=1∏np(xi,yi∣θ).
也常写为条件似然
p(S∣θ)=∏i=1np(yi∣xi,θ).
p(S\mid \theta)=\prod_{i=1}^{n}p(y_i\mid x_i,\theta).
p(S∣θ)=i=1∏np(yi∣xi,θ).
极大似然目标:寻找使 p(S∣θ)p(S\mid\theta)p(S∣θ) 最大的 θ\thetaθ(也就是让观测数据最可能的参数)。
MLE 的想法是:
选一个参数,让它解释你手上这些数据最合理。
已知一堆样本数据,用它们来反推出最可能生成这些样本的参数值。
举个例子:
假设你认为数据服从正态分布 N(μ,1)N(\mu, 1)N(μ,1),
你有 5 个样本:[1.1, 0.9, 1.0, 1.2, 0.8]。
哪一个 μ\muμ 让这些数据的出现最可能?
答案就是样本平均数:
μ=1.1+0.9+1.0+1.2+0.85=1.0.
μ=\frac{1.1+0.9+1.0+1.2+0.8}{5} =1.0.
μ=51.1+0.9+1.0+1.2+0.8=1.0.
这就是 MLE:找到让数据最可能出现的参数。
题目:
掷硬币 10 次,观测到 7 次正面、3 次反面。
假设硬币正面朝上的概率为 ppp(未知),每次独立同分布。
求 ppp 的极大似然估计。
解:
- 写出似然函数
每次抛掷为伯努利分布 Bernoulli(p)\text{Bernoulli}(p)Bernoulli(p),联合似然:
L(p)=p7(1−p)3.
L(p)=p^7(1-p)^3.
L(p)=p7(1−p)3.
- 取对数简化
ℓ(p)=logL(p)=7logp+3log(1−p). \ell(p)=\log L(p)=7\log p+3\log(1-p). ℓ(p)=logL(p)=7logp+3log(1−p).
- 对 ppp 求导并令为零
dℓdp=7p−31−p=0⇒7(1−p)=3p⇒p=710=0.7. \frac{d\ell}{dp}=\frac{7}{p}-\frac{3}{1-p}=0 \Rightarrow 7(1-p)=3p \Rightarrow p=\frac{7}{10}=0.7. dpdℓ=p7−1−p3=0⇒7(1−p)=3p⇒p=107=0.7.
- 验证极值类型
d2ℓdp2=−7p2−3(1−p)2<0,
\frac{d^2\ell}{dp^2}=-\frac{7}{p^2}-\frac{3}{(1-p)^2}<0,
dp2d2ℓ=−p27−(1−p)23<0,
因此为最大值。
最终答案:
p^MLE=0.7
\boxed{\hat{p}_{\text{MLE}}=0.7}
p^MLE=0.7
解释:MLE 找到让数据最“可能”发生的参数值,即在 10 次实验中出现 7 次正面,最合理的概率估计是 0.7。
6. 最大后验估计(MAP)
由贝叶斯法则
p(θ∣S)∝p(S∣θ),p(θ),
p(\theta\mid S)\propto p(S\mid \theta),p(\theta),
p(θ∣S)∝p(S∣θ),p(θ),
于是
argmaxθp(θ∣S)=argmaxθ;p(S∣θ),p(θ).
\arg\max_{\theta}p(\theta\mid S)=\arg\max_{\theta};p(S\mid \theta),p(\theta).
argθmaxp(θ∣S)=argθmax;p(S∣θ),p(θ).
取负对数等价为最小化:
argminθ(−logp(θ∣S))=argminθ(−logp(S∣θ)−logp(θ)).
\arg\min_{\theta}\big(-\log p(\theta\mid S)\big)
=\arg\min_{\theta}\big(-\log p(S\mid \theta)-\log p(\theta)\big).
argθmin(−logp(θ∣S))=argθmin(−logp(S∣θ)−logp(θ)).
MAP = MLE + 先验惩罚,通常更稳健、更抗噪。
MLE 只看数据,有时会被噪声“骗”。
MAP 在此基础上加上“先验”这一保险。
假设你觉得“μ\muμ 应该接近 0”,
这就是一个“高斯先验”——参数越远离 0,越不可能。
那么 MAP 的目标变成:
最大化p(数据∣μ)×p(μ)
最大化 p(数据∣μ)×p(μ)
最大化p(数据∣μ)×p(μ)
也就是:
既要数据解释得好(拟合好),又要参数别太奇怪(符合先验)。
对应到机器学习,就是加正则项的思想。
7. 含噪观测的建模
假设数据由确定性函数加高斯噪声生成:
y=h(x)+ϵ,ϵ∼N(0,β−1).
y=h(x)+\epsilon,\qquad \epsilon\sim \mathcal{N}(0,\beta^{-1}).
y=h(x)+ϵ,ϵ∼N(0,β−1).
等价的条件分布写作
p{y∣x,h,β}=N(y∣h(x),β−1).
p \{{y\mid x,h,\beta}\}=\mathcal{N}\big(y\mid h(x),\beta^{-1}\big).
p{y∣x,h,β}=N(y∣h(x),β−1).
给定训练集 S=(x1,y1),…,(xn,yn)S={(x_1,y_1),\ldots,(x_n,y_n)}S=(x1,y1),…,(xn,yn),模型的似然为
p(S∣X,h,β−1)=∏i=1nN(yi∣h(xi),β−1).
p(S\mid X,h,\beta^{-1})
=\prod_{i=1}^{n}\mathcal{N}\big(y_i\mid h(x_i),\beta^{-1}\big).
p(S∣X,h,β−1)=i=1∏nN(yi∣h(xi),β−1).
8. 极大似然的具体展开
从上式得到
p(S∣X,h,β−1)=∏i=1nβ2πexp!(−β,(yi−h(xi))22) =(β2π)!n/2∏i=1nexp!(−β,(yi−h(xi))22).
\begin{aligned}
p(S\mid X,h,\beta^{-1})
&=\prod_{i=1}^{n}\sqrt{\frac{\beta}{2\pi}}
\exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right) \
&=\left(\frac{\beta}{2\pi}\right)^{!n/2}
\prod_{i=1}^{n}\exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right).
\end{aligned}
p(S∣X,h,β−1)=i=1∏n2πβexp!(−2β,(yi−h(xi))2) =(2πβ)!n/2i=1∏nexp!(−2β,(yi−h(xi))2).
取负对数(便于最优化):
−lnp(S∣X,h,β−1)=−n2lnβ+n2ln(2π)+β2∑i=1n(yi−h(xi))2.
-\ln p(S\mid X,h,\beta^{-1})
=-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)
+\frac{\beta}{2}\sum_{i=1}^{n}(y_i-h(x_i))^2.
−lnp(S∣X,h,β−1)=−2nlnβ+2nln(2π)+2βi=1∑n(yi−h(xi))2.
记经验风险(均方误差)
RS(h)=1n∑i=1n(yi−h(xi))2,
R_S(h)=\frac{1}{n}\sum_{i=1}^{n}(y_i-h(x_i))^2,
RS(h)=n1i=1∑n(yi−h(xi))2,
则
−lnp(S∣X,h,β−1)=−n2lnβ+n2ln(2π)+β2,n,RS(h).
-\ln p(S\mid X,h,\beta^{-1})
=-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)+\frac{\beta}{2},n,R_S(h).
−lnp(S∣X,h,β−1)=−2nlnβ+2nln(2π)+2β,n,RS(h).
结论:在高斯噪声假设下,MLE 等价于最小化均方误差(常数项可忽略)。
9. 再看一次 MAP:把先验并进来
由贝叶斯法则,有
argmaxθp(θ∣S)=argmaxθ;p(S∣θ)p(θ).
\arg\max_{\theta}p(\theta\mid S)
=\arg\max_{\theta};p(S\mid\theta)p(\theta).
argθmaxp(θ∣S)=argθmax;p(S∣θ)p(θ).
转为最小化负对数:
argminh(−lnp(h∣S,β−1))=argminh(−lnp(S∣X,h,β−1)−lnp(h)),
\arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big)
=\arg\min_{h}\Big(-\ln p(S\mid X,h,\beta^{-1})-\ln p(h)\Big),
arghmin(−lnp(h∣S,β−1))=arghmin(−lnp(S∣X,h,β−1)−lnp(h)),
结合前面的展开,即
argminh(−n2lnβ+n2ln(2π)+β2,n,RS(h);−;lnp(h)).
\arg\min_{h}\left(
-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)
+\frac{\beta}{2},n,R_S(h);-;\ln p(h)
\right).
arghmin(−2nlnβ+2nln(2π)+2β,n,RS(h);−;lnp(h)).
这表明:MAP = MSE 项 +++ 先验的负对数惩罚。不同先验 ⇒\Rightarrow⇒ 不同正则化。
10. 多项式回归 + 高斯先验 ⇒\Rightarrow⇒ L2L_2L2 正则
设模型为 9 次多项式
h(x)=w0+w1x+⋯+w9x9.
h(x)=w_0+w_1x+\cdots+w_9 x^9.
h(x)=w0+w1x+⋯+w9x9.
假设参数先验为独立零均值高斯
p(h)=∏i=09τ2π,exp!(−τ,wi22).
p(h)=\prod_{i=0}^{9}\sqrt{\frac{\tau}{2\pi}},
\exp!\left(-\frac{\tau,w_i^{2}}{2}\right).
p(h)=i=0∏92πτ,exp!(−2τ,wi2).
于是
argminh(−lnp(h∣S,β−1))=argminh(−n2lnβ+n2ln(2π)+β2,n,RS(h);−;5lnτ+5ln(2π)+τ2∑i=09wi2).
\arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big)
=\arg\min_{h}\left(
-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)
+\frac{\beta}{2},n,R_S(h);
-;5\ln\tau+5\ln(2\pi)+\frac{\tau}{2}\sum_{i=0}^{9}w_i^2
\right).
arghmin(−lnp(h∣S,β−1))=arghmin(−2nlnβ+2nln(2π)+2β,n,RS(h);−;5lnτ+5ln(2π)+2τi=0∑9wi2).
忽略与 hhh 无关的常数项,等价于最小化
min;RS(h);+;λ∑i=09wi2;=;RS(h)+λ∥w∥22,λ=τβ.
\min; R_S(h);+;\lambda\sum_{i=0}^{9}w_i^2
;=; R_S(h)+\lambda\lVert w\rVert_2^2,
\qquad \lambda=\frac{\tau}{\beta}.
min;RS(h);+;λi=0∑9wi2;=;RS(h)+λ∥w∥22,λ=βτ.
关键结论:高斯先验 ⇒\Rightarrow⇒ L2L_2L2 正则化(权重衰减/岭回归)。
其中 λ=τ/β\lambda=\tau/\betaλ=τ/β:先验精度 τ\tauτ 越大(更相信权重应接近 0),或噪声精度 β\betaβ 越小(噪声越大),正则强度越大。
小结(串联全流程)
- 含噪是常态:大数据在采集/传输/融合中易受噪声污染。
- 两条应对路线:数据清洗与鲁棒学习(正则化/贝叶斯)。
- MLE:在高斯噪声下,等价于最小化 MSE。
- MAP:在 MLE 基础上加上先验惩罚(负对数先验)。
- 高斯先验 ⇒L2\Rightarrow L_2⇒L2 正则:得到 RS(h)+λ∥w∥22R_S(h)+\lambda\lVert w\rVert_2^2RS(h)+λ∥w∥22,其中 λ=τ/β\lambda=\tau/\betaλ=τ/β。
这套框架把噪声建模(β\betaβ)与先验知识(τ\tauτ)自然地结合到优化目标里,使我们在含噪环境下仍能稳定、可控地学习出泛化更好的模型。
