当前位置: 首页 > news >正文

【高级机器学习】 7. 带噪声数据的学习:从 MLE 到 MAP

利用含噪数据进行学习:从 MLE 到 MAP

1. 我们为什么需要“利用”含噪数据?

  • 通过社交网络组织内部专门采集渠道、以及传感器网络等来源,数据正呈现爆炸式增长
  • 由于大数据具有高度分布式动态非结构化的特性,在采集传输融合过程中很容易被噪声污染
    含噪是常态,所以目标不是只“清除噪声”,而是学会在噪声存在时依然有效学习

2. 面对含噪数据的两条路

  • 数据清洗(Cleansing):去噪、纠错、标准化等。
  • 设计对噪声鲁棒的模型:通过正则化贝叶斯方法稳健损失等,使模型对噪声不敏感。

3. 贝叶斯法则(Bayes’ rule)

p(θ∣S)=p(S∣θ),p(θ)p(S) p(\theta\mid S)=\frac{p(S\mid\theta),p(\theta)}{p(S)} p(θS)=p(S)p(Sθ),p(θ)

  • 直观记忆:后验 === 似然 ×\times× 先验(再除以证据做归一化)。

贝叶斯的核心逻辑很简单:

“在看见新数据后,更新你原来的信念。”

举个例子:

我先“猜”今天下雨的概率是 30%(先验)。

我看到天阴了(新证据)。

我于是更新我的信念:可能 70% 要下雨(后验)。

公式:
p(下雨∣天阴)=p(天阴∣下雨)×p(下雨)p(天阴) p(下雨∣天阴)= \frac{p(天阴∣下雨)×p(下雨)}{p(天阴)} p(下雨天阴)=p(天阴)p(天阴下雨)×p(下雨)

翻译成话:
“在天阴的情况下下雨的概率 = 天阴在下雨时出现的可能 × 原本的下雨概率 ÷ 天阴的总体概率。”

这就是贝叶斯更新:原来的信念 × 数据证据 → 新信念。


4. 三个核心量:似然、先验、后验

  • 似然(Likelihood):在参数 θ\thetaθ 给定时,观测到数据 SSS 的概率,记为 p(S∣θ)p(S\mid\theta)p(Sθ)

如果真下雨,天阴的可能性有多大?

  • 先验(Prior):表示在看见数据前对参数 θ\thetaθ 的信念分布,记为 p(θ)p(\theta)p(θ)

比如你知道这个城市雨多,那先验就高。

  • 后验(Posterior):观测数据后对参数的更新认知 p(θ∣S)p(\theta\mid S)p(θS),满足 p(θ∣S)∝p(S∣θ)p(θ)p(\theta\mid S)\propto p(S\mid\theta)p(\theta)p(θS)p(Sθ)p(θ)

结合证据之后的判断。 “天阴+这是多雨城市” → 今天大概率下雨。


5. 极大似然估计(MLE)

在独立同分布(i.i.d.)假设下,似然可写为
p(S∣θ)=∏i=1np(xi,yi∣θ). p(S\mid \theta)=\prod_{i=1}^{n}p(x_i,y_i\mid \theta). p(Sθ)=i=1np(xi,yiθ).

也常写为条件似然
p(S∣θ)=∏i=1np(yi∣xi,θ). p(S\mid \theta)=\prod_{i=1}^{n}p(y_i\mid x_i,\theta). p(Sθ)=i=1np(yixi,θ).

极大似然目标:寻找使 p(S∣θ)p(S\mid\theta)p(Sθ) 最大的 θ\thetaθ(也就是让观测数据最可能的参数)。

MLE 的想法是:

选一个参数,让它解释你手上这些数据最合理。

已知一堆样本数据,用它们来反推出最可能生成这些样本的参数值。

举个例子:
假设你认为数据服从正态分布 N(μ,1)N(\mu, 1)N(μ,1)
你有 5 个样本:[1.1, 0.9, 1.0, 1.2, 0.8]。

哪一个 μ\muμ 让这些数据的出现最可能?
答案就是样本平均数:
μ=1.1+0.9+1.0+1.2+0.85=1.0. μ=\frac{1.1+0.9+1.0+1.2+0.8}{5} =1.0. μ=51.1+0.9+1.0+1.2+0.8=1.0.
这就是 MLE:找到让数据最可能出现的参数。

题目:
掷硬币 10 次,观测到 7 次正面、3 次反面。
假设硬币正面朝上的概率为 ppp(未知),每次独立同分布。
ppp 的极大似然估计。


解:

  1. 写出似然函数

每次抛掷为伯努利分布 Bernoulli(p)\text{Bernoulli}(p)Bernoulli(p),联合似然:
L(p)=p7(1−p)3. L(p)=p^7(1-p)^3. L(p)=p7(1p)3.


  1. 取对数简化

ℓ(p)=log⁡L(p)=7log⁡p+3log⁡(1−p). \ell(p)=\log L(p)=7\log p+3\log(1-p). (p)=logL(p)=7logp+3log(1p).


  1. ppp 求导并令为零

dℓdp=7p−31−p=0⇒7(1−p)=3p⇒p=710=0.7. \frac{d\ell}{dp}=\frac{7}{p}-\frac{3}{1-p}=0 \Rightarrow 7(1-p)=3p \Rightarrow p=\frac{7}{10}=0.7. dpd=p71p3=07(1p)=3pp=107=0.7.


  1. 验证极值类型

d2ℓdp2=−7p2−3(1−p)2<0, \frac{d^2\ell}{dp^2}=-\frac{7}{p^2}-\frac{3}{(1-p)^2}<0, dp2d2=p27(1p)23<0,
因此为最大值。


最终答案:
p^MLE=0.7 \boxed{\hat{p}_{\text{MLE}}=0.7} p^MLE=0.7

解释:MLE 找到让数据最“可能”发生的参数值,即在 10 次实验中出现 7 次正面,最合理的概率估计是 0.7


6. 最大后验估计(MAP)

由贝叶斯法则
p(θ∣S)∝p(S∣θ),p(θ), p(\theta\mid S)\propto p(S\mid \theta),p(\theta), p(θS)p(Sθ),p(θ),

于是
arg⁡max⁡θp(θ∣S)=arg⁡max⁡θ;p(S∣θ),p(θ). \arg\max_{\theta}p(\theta\mid S)=\arg\max_{\theta};p(S\mid \theta),p(\theta). argθmaxp(θS)=argθmax;p(Sθ),p(θ).

取负对数等价为最小化:
arg⁡min⁡θ(−log⁡p(θ∣S))=arg⁡min⁡θ(−log⁡p(S∣θ)−log⁡p(θ)). \arg\min_{\theta}\big(-\log p(\theta\mid S)\big) =\arg\min_{\theta}\big(-\log p(S\mid \theta)-\log p(\theta)\big). argθmin(logp(θS))=argθmin(logp(Sθ)logp(θ)).

MAP = MLE + 先验惩罚,通常更稳健、更抗噪。

MLE 只看数据,有时会被噪声“骗”。
MAP 在此基础上加上“先验”这一保险。

假设你觉得“μ\muμ 应该接近 0”,
这就是一个“高斯先验”——参数越远离 0,越不可能。

那么 MAP 的目标变成:
最大化p(数据∣μ)×p(μ) 最大化 p(数据∣μ)×p(μ) 最大化p(数据μ)×p(μ)
也就是:
既要数据解释得好(拟合好),又要参数别太奇怪(符合先验)。

对应到机器学习,就是加正则项的思想。


7. 含噪观测的建模

假设数据由确定性函数高斯噪声生成:
y=h(x)+ϵ,ϵ∼N(0,β−1). y=h(x)+\epsilon,\qquad \epsilon\sim \mathcal{N}(0,\beta^{-1}). y=h(x)+ϵ,ϵN(0,β1).

等价的条件分布写作
p{y∣x,h,β}=N(y∣h(x),β−1). p \{{y\mid x,h,\beta}\}=\mathcal{N}\big(y\mid h(x),\beta^{-1}\big). p{yx,h,β}=N(yh(x),β1).

给定训练集 S=(x1,y1),…,(xn,yn)S={(x_1,y_1),\ldots,(x_n,y_n)}S=(x1,y1),,(xn,yn),模型的似然为
p(S∣X,h,β−1)=∏i=1nN(yi∣h(xi),β−1). p(S\mid X,h,\beta^{-1}) =\prod_{i=1}^{n}\mathcal{N}\big(y_i\mid h(x_i),\beta^{-1}\big). p(SX,h,β1)=i=1nN(yih(xi),β1).


8. 极大似然的具体展开

从上式得到
p(S∣X,h,β−1)=∏i=1nβ2πexp⁡!(−β,(yi−h(xi))22) =(β2π)!n/2∏i=1nexp⁡!(−β,(yi−h(xi))22). \begin{aligned} p(S\mid X,h,\beta^{-1}) &=\prod_{i=1}^{n}\sqrt{\frac{\beta}{2\pi}} \exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right) \ &=\left(\frac{\beta}{2\pi}\right)^{!n/2} \prod_{i=1}^{n}\exp!\left(-\frac{\beta,(y_i-h(x_i))^2}{2}\right). \end{aligned} p(SX,h,β1)=i=1n2πβexp!(2β,(yih(xi))2) =(2πβ)!n/2i=1nexp!(2β,(yih(xi))2).

取负对数(便于最优化):
−ln⁡p(S∣X,h,β−1)=−n2ln⁡β+n2ln⁡(2π)+β2∑i=1n(yi−h(xi))2. -\ln p(S\mid X,h,\beta^{-1}) =-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2}\sum_{i=1}^{n}(y_i-h(x_i))^2. lnp(SX,h,β1)=2nlnβ+2nln(2π)+2βi=1n(yih(xi))2.

经验风险(均方误差)
RS(h)=1n∑i=1n(yi−h(xi))2, R_S(h)=\frac{1}{n}\sum_{i=1}^{n}(y_i-h(x_i))^2, RS(h)=n1i=1n(yih(xi))2,


−ln⁡p(S∣X,h,β−1)=−n2ln⁡β+n2ln⁡(2π)+β2,n,RS(h). -\ln p(S\mid X,h,\beta^{-1}) =-\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi)+\frac{\beta}{2},n,R_S(h). lnp(SX,h,β1)=2nlnβ+2nln(2π)+2β,n,RS(h).

结论:在高斯噪声假设下,MLE 等价于最小化均方误差(常数项可忽略)。


9. 再看一次 MAP:把先验并进来

由贝叶斯法则,有
arg⁡max⁡θp(θ∣S)=arg⁡max⁡θ;p(S∣θ)p(θ). \arg\max_{\theta}p(\theta\mid S) =\arg\max_{\theta};p(S\mid\theta)p(\theta). argθmaxp(θS)=argθmax;p(Sθ)p(θ).

转为最小化负对数:
arg⁡min⁡h(−ln⁡p(h∣S,β−1))=arg⁡min⁡h(−ln⁡p(S∣X,h,β−1)−ln⁡p(h)), \arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big) =\arg\min_{h}\Big(-\ln p(S\mid X,h,\beta^{-1})-\ln p(h)\Big), arghmin(lnp(hS,β1))=arghmin(lnp(SX,h,β1)lnp(h)),

结合前面的展开,即
arg⁡min⁡h(−n2ln⁡β+n2ln⁡(2π)+β2,n,RS(h);−;ln⁡p(h)). \arg\min_{h}\left( -\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2},n,R_S(h);-;\ln p(h) \right). arghmin(2nlnβ+2nln(2π)+2β,n,RS(h);;lnp(h)).

这表明:MAP = MSE 项 +++ 先验的负对数惩罚。不同先验 ⇒\Rightarrow 不同正则化。


10. 多项式回归 + 高斯先验 ⇒\Rightarrow L2L_2L2 正则

设模型为 9 次多项式
h(x)=w0+w1x+⋯+w9x9. h(x)=w_0+w_1x+\cdots+w_9 x^9. h(x)=w0+w1x++w9x9.

假设参数先验为独立零均值高斯
p(h)=∏i=09τ2π,exp⁡!(−τ,wi22). p(h)=\prod_{i=0}^{9}\sqrt{\frac{\tau}{2\pi}}, \exp!\left(-\frac{\tau,w_i^{2}}{2}\right). p(h)=i=092πτ,exp!(2τ,wi2).

于是
arg⁡min⁡h(−ln⁡p(h∣S,β−1))=arg⁡min⁡h(−n2ln⁡β+n2ln⁡(2π)+β2,n,RS(h);−;5ln⁡τ+5ln⁡(2π)+τ2∑i=09wi2). \arg\min_{h}\big(-\ln p(h\mid S,\beta^{-1})\big) =\arg\min_{h}\left( -\frac{n}{2}\ln\beta+\frac{n}{2}\ln(2\pi) +\frac{\beta}{2},n,R_S(h); -;5\ln\tau+5\ln(2\pi)+\frac{\tau}{2}\sum_{i=0}^{9}w_i^2 \right). arghmin(lnp(hS,β1))=arghmin(2nlnβ+2nln(2π)+2β,n,RS(h);;5lnτ+5ln(2π)+2τi=09wi2).

忽略与 hhh 无关的常数项,等价于最小化
min⁡;RS(h);+;λ∑i=09wi2;=;RS(h)+λ∥w∥22,λ=τβ. \min; R_S(h);+;\lambda\sum_{i=0}^{9}w_i^2 ;=; R_S(h)+\lambda\lVert w\rVert_2^2, \qquad \lambda=\frac{\tau}{\beta}. min;RS(h);+;λi=09wi2;=;RS(h)+λw22,λ=βτ.

关键结论:高斯先验 ⇒\Rightarrow L2L_2L2 正则化(权重衰减/岭回归)
其中 λ=τ/β\lambda=\tau/\betaλ=τ/β:先验精度 τ\tauτ 越大(更相信权重应接近 0),或噪声精度 β\betaβ 越小(噪声越大),正则强度越大


小结(串联全流程)

  1. 含噪是常态:大数据在采集/传输/融合中易受噪声污染。
  2. 两条应对路线:数据清洗与鲁棒学习(正则化/贝叶斯)。
  3. MLE:在高斯噪声下,等价于最小化 MSE
  4. MAP:在 MLE 基础上加上先验惩罚(负对数先验)。
  5. 高斯先验 ⇒L2\Rightarrow L_2L2 正则:得到 RS(h)+λ∥w∥22R_S(h)+\lambda\lVert w\rVert_2^2RS(h)+λw22,其中 λ=τ/β\lambda=\tau/\betaλ=τ/β

这套框架把噪声建模(β\betaβ先验知识(τ\tauτ自然地结合到优化目标里,使我们在含噪环境下仍能稳定、可控地学习出泛化更好的模型。

http://www.dtcms.com/a/609548.html

相关文章:

  • 横沥镇做网站北京公司注册地址出租
  • 北湖区网站建设哪个好中网互联网站建设
  • @Autowired和@Resource的区别
  • MongoDB | python操作MongoDB的基础使用
  • 【C++进阶】异常
  • 《非暴力沟通》马歇尔•卢森堡博士(美)
  • Rust 从零到精通:构建一个专业级命令行工具 greprs
  • 大足网站建设网络营销市场调研的内容
  • CSS3 分页技术解析
  • HTMLElement 与MouseEvent 事件对象属性详解
  • 建设网站都要学些什么手续拍卖网站模板下载
  • 【火语言RPA实战案例】根据ISBN 编码批量查询孔夫子书籍信息,自动导出本地 Excel(附完整脚本)
  • 从零开始理解状态机:C语言与Verilog的双重视角
  • 做软件常用的网站有哪些软件微信怎么做网站推广
  • 设计模式面试题(14道含答案)
  • [智能体设计模式] 第9章 :学习与适应
  • 肇庆市建设局网站西双版纳建设厅网站
  • LingJing(灵境)桌面级靶场平台新增:真实入侵复刻,知攻善防实验室-Linux应急响应靶机2,通关挑战
  • 融合尺度感知注意力、多模态提示学习与融合适配器的RGBT跟踪
  • 基于脚手架微服务的视频点播系统-脚手架开发部分Fast-dfs,redis++,odb的简单使用与二次封装
  • 构建高可用Redis:哨兵模式深度解析与Nacos微服务适配实践
  • Linux -- 线程同步、POSIX信号量与生产者消费者模型
  • 微服务重要知识点
  • 东莞seo建站排名昆山有名的网站建设公司
  • 主从服务器
  • Linux 文件缓冲区
  • Node.js中常见的事件类型
  • Nacos的三层缓存是什么
  • 交通事故自动识别_YOLO11分割_DRB实现
  • 用flex做的网站空间注册网站