当前位置: 首页 > news >正文

MLE, MAP, Full Bayes

总结

  1. MLE:纯数据驱动,简单高效,大样本最优
  2. MAP:MLE + 正则化,利用先验,防止过拟合
  3. Full Bayes:完整不确定性,小样本最佳,计算昂贵
  • 数据多用MLE,先验强用MAP,不确定找Bayes!

最大似然估计 (Maximum Likelihood Estimation, MLE)

核心思想:找到使观测数据出现概率最大的参数值。

数学表达
θ^MLE=arg⁡max⁡θP(D∣θ)=arg⁡max⁡θ∏i=1nP(xi∣θ)\hat{\theta}_{MLE} = \arg\max_{\theta} P(D|\theta) = \arg\max_{\theta} \prod_{i=1}^{n} P(x_i|\theta)θ^MLE=argθmaxP(Dθ)=argθmaxi=1nP(xiθ)

对数似然(更常用):
θ^MLE=arg⁡max⁡θlog⁡P(D∣θ)=arg⁡max⁡θ∑i=1nlog⁡P(xi∣θ)\hat{\theta}_{MLE} = \arg\max_{\theta} \log P(D|\theta) = \arg\max_{\theta} \sum_{i=1}^{n} \log P(x_i|\theta)θ^MLE=argθmaxlogP(Dθ)=argθmaxi=1nlogP(xiθ)

直觉:数据已经发生了,什么样的参数最有可能产生这些数据?

最大后验估计 (Maximum A Posteriori, MAP)

核心思想:结合先验知识,找到在观测数据下后验概率最大的参数值。

数学表达
θ^MAP=arg⁡max⁡θP(θ∣D)\hat{\theta}_{MAP} = \arg\max_{\theta} P(\theta|D)θ^MAP=argθmaxP(θD)

利用贝叶斯定理:
P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θD)=P(D)P(Dθ)P(θ)

由于 P(D)P(D)P(D)θ\thetaθ 无关,可以忽略:
θ^MAP=arg⁡max⁡θP(D∣θ)P(θ)\hat{\theta}_{MAP} = \arg\max_{\theta} P(D|\theta)P(\theta)θ^MAP=argθmaxP(Dθ)P(θ)

对数形式
θ^MAP=arg⁡max⁡θ[log⁡P(D∣θ)+log⁡P(θ)]\hat{\theta}_{MAP} = \arg\max_{\theta} [\log P(D|\theta) + \log P(\theta)]θ^MAP=argθmax[logP(Dθ)+logP(θ)]

直觉:在有先验信念的情况下,结合数据和先验,什么参数最合理?

MAP与正则化的联系

MAP估计与正则化有深刻联系!

L2正则化 = 高斯先验

在线性回归中,假设参数服从高斯先验:
P(θ)∝e−λ2∥θ∥2P(\theta) \propto e^{-\frac{\lambda}{2}\|\theta\|^2}P(θ)e2λθ2

MAP目标函数:
θ^MAP=arg⁡max⁡θ[log⁡P(D∣θ)+log⁡P(θ)]\hat{\theta}_{MAP} = \arg\max_{\theta} [\log P(D|\theta) + \log P(\theta)]θ^MAP=argθmax[logP(Dθ)+logP(θ)]
=arg⁡max⁡θ[log⁡P(D∣θ)−λ2∥θ∥2]= \arg\max_{\theta} [\log P(D|\theta) - \frac{\lambda}{2}\|\theta\|^2]=argθmax[logP(Dθ)2λθ2]
=arg⁡min⁡θ[−log⁡P(D∣θ)+λ2∥θ∥2]= \arg\min_{\theta} [-\log P(D|\theta) + \frac{\lambda}{2}\|\theta\|^2]=argθmin[logP(Dθ)+2λθ2]

这正是带L2正则化的损失函数(Ridge回归)!

L1正则化 = 拉普拉斯先验

假设参数服从拉普拉斯先验:
P(θ)∝e−λ∥θ∥1P(\theta) \propto e^{-\lambda\|\theta\|_1}P(θ)eλθ1

MAP目标函数:
θ^MAP=arg⁡min⁡θ[−log⁡P(D∣θ)+λ∥θ∥1]\hat{\theta}_{MAP} = \arg\min_{\theta} [-\log P(D|\theta) + \lambda\|\theta\|_1]θ^MAP=argθmin[logP(Dθ)+λθ1]

这正是带L1正则化的损失函数(Lasso回归)!

结论:正则化本质上是在做MAP估计,正则化项对应先验分布!

完全贝叶斯方法

问题设定

  • 已观测数据:D={x1,x2,...,xn}D = \{x_1, x_2, ..., x_n\}D={x1,x2,...,xn}
  • 未知参数:θ\thetaθ(已通过贝叶斯推断得到后验分布 P(θ∣D)P(\theta|D)P(θD)
  • 目标:预测新数据 xnewx_{new}xnew 的分布

核心思想

问题:我们想知道 P(xnew∣D)P(x_{new}|D)P(xnewD),但参数 θ\thetaθ 是未知的(不确定的)

频率派做法

  1. 用点估计 θ^\hat{\theta}θ^(如MLE)
  2. 预测:P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnewθ^)
  3. 问题:忽略了参数的不确定性

贝叶斯做法

  1. 考虑所有可能的 θ\thetaθ
  2. 用后验概率 P(θ∣D)P(\theta|D)P(θD) 加权
  3. 对所有 θ\thetaθ 进行积分(边缘化)

与MLE和MAP都不同,完全贝叶斯方法不估计单一参数值,而是计算参数的完整后验分布:

P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θD)=P(D)P(Dθ)P(θ)

预测时使用后验分布的期望或积分:
P(xnew∣D)=∫P(xnew∣θ)P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta)P(\theta|D)d\thetaP(xnewD)=P(xnewθ)P(θD)dθ


推导过程

目标:求 P(xnew∣D)P(x_{new}|D)P(xnewD)

步骤1:引入参数

利用全概率公式(Law of Total Probability),对参数 θ\thetaθ 进行边缘化:

P(xnew∣D)=∫P(xnew,θ∣D)dθP(x_{new}|D) = \int P(x_{new}, \theta|D) d\thetaP(xnewD)=P(xnew,θD)dθ

这是在说:“xnewx_{new}xnew 的概率等于对所有可能的 θ\thetaθ 求和”

步骤2:分解联合概率

使用条件概率的链式法则:

P(xnew,θ∣D)=P(xnew∣θ,D)⋅P(θ∣D)P(x_{new}, \theta|D) = P(x_{new}|\theta, D) \cdot P(\theta|D)P(xnew,θD)=P(xnewθ,D)P(θD)

步骤3:条件独立性假设

关键假设:给定参数 θ\thetaθ 后,新数据 xnewx_{new}xnew 与旧数据 DDD 条件独立

P(xnew∣θ,D)=P(xnew∣θ)P(x_{new}|\theta, D) = P(x_{new}|\theta)P(xnewθ,D)=P(xnewθ)

为什么成立?

这是因为:

  • θ\thetaθ 包含了生成数据的全部信息
  • 一旦知道 θ\thetaθxnewx_{new}xnew 的分布就确定了
  • 旧数据 DDD 不再提供额外信息

数学表达
xnew⊥D∣θx_{new} \perp D | \thetaxnewDθ
xnewx_{new}xnewDDD 在给定 θ\thetaθ 下独立)

步骤4:代入得到最终公式

P(xnew∣D)=∫P(xnew∣θ,D)⋅P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta, D) \cdot P(\theta|D) d\thetaP(xnewD)=P(xnewθ,D)P(θD)dθ
=∫P(xnew∣θ)⋅P(θ∣D)dθ= \int P(x_{new}|\theta) \cdot P(\theta|D) d\theta=P(xnewθ)P(θD)dθ

这就是后验预测分布!

MLE vs MAP vs Full Bayes 对比表

维度MLE (最大似然估计)MAP (最大后验估计)Full Bayes (完全贝叶斯)
核心公式arg⁡max⁡P(D∣θ)\arg\max P(D|\theta)argmaxP(Dθ)arg⁡max⁡P(D∣θ)P(θ)\arg\max P(D|\theta)P(\theta)argmaxP(Dθ)P(θ)P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}P(θD)=P(D)P(Dθ)P(θ)
输出单个点 θ^\hat{\theta}θ^单个点 θ^\hat{\theta}θ^完整分布 P(θ∣D)P(\theta|D)P(θD)
参数观点固定未知常数随机变量(取众数,概率峰值)随机变量(保留分布)
使用先验❌ 不使用✅ 使用✅ 使用
不确定性❌ 无❌ 无✅ 完整量化
等价形式min⁡−log⁡P(D∣θ)\min -\log P(D|\theta)minlogP(Dθ)min⁡[−log⁡P(D∣θ)−log⁡P(θ)]\min [-\log P(D|\theta) - \log P(\theta)]min[logP(Dθ)logP(θ)]无简化(完整分布)
与正则化关系无正则化L2正则=高斯先验
L1正则=拉普拉斯先验
正则化=先验分布
硬币例子
10次抛6正
θ=0.6\theta=0.6θ=0.6θ=0.583\theta=0.583θ=0.583
(Beta(2,2)先验)
均值=0.571
95%CI=[0.34,0.80]
小样本
1次抛1正
θ=1.0\theta=1.0θ=1.0 ❌极端θ=0.67\theta=0.67θ=0.67 ✅合理均值=0.6
CI=[0.16,0.95] ✅最优
大样本行为不变→ MLE后验集中于真值
预测P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnewθ^)P(xnew∣θ^)P(x_{new}|\hat{\theta})P(xnewθ^)∫P(xnew∣θ)P(θ∣D)dθ\int P(x_{new}|\theta)P(\theta|D)d\thetaP(xnewθ)P(θD)dθ
计算复杂度低 ⚡中 ⚡⚡高 ⚡⚡⚡
优化方法梯度下降、牛顿法梯度下降、L-BFGSMCMC、变分推断
主要优点• 简单快速
• 无主观性
• 渐近最优
• 防止过拟合
• 利用先验
• 小样本稳健
• 完整不确定性
• 自动传播误差
• 理论最优
主要缺点• 小样本过拟合
• 无不确定性
• 极端估计
• 仍无不确定性
• 先验主观
• 点估计局限
• 计算昂贵
• 高维困难
• 先验依赖
适用场景大数据、快速原型正则化、中等数据小样本、高风险决策
典型应用神经网络(无正则)
极大似然估计
神经网络(L2/Dropout)
Ridge/Lasso回归
医疗诊断
金融风险
贝叶斯优化
何时使用n>10000n>10000n>10000 且无先验需要正则化或有先验需要不确定性量化

三者关系

MLE→+先验MAP→保留完整分布Full Bayes\text{MLE} \xrightarrow{+先验} \text{MAP} \xrightarrow{保留完整分布} \text{Full Bayes}MLE+先验MAP保留完整分布Full Bayes

  • 均匀先验时: MAP = MLE
  • 大样本时: MAP ≈ MLE,Full Bayes 集中
  • 小样本时: Full Bayes > MAP > MLE

快速决策

如果你需要…选择
速度MLE
防过拟合MAP
不确定性Full Bayes
http://www.dtcms.com/a/511538.html

相关文章:

  • 广告文案优秀网站wordpress4.7安装步骤
  • 怎么用手机自己做网站小米的网站设计
  • c语言二级地址指针使用辨析
  • Java的Collection 集合体系详解
  • 无速度传感器交流电机的扩展Luenberger观测器
  • 营销型网站建设公司网络推广正邦设计有限公司
  • Day7C语言前期阶段算法之选择排序
  • 测试计划包含哪些内容?
  • 白描OCR文案识别
  • 企业 宣传 还要网站吗dxc采集wordpress插件
  • PCIe协议之 LTSSM状态机篇 之 关于链路宽度改变的图示讲解(一)Autonomous Change
  • 建设学校网站策划书网站即将上线 模板
  • [人工智能-大模型-30]:大模型应用层技术栈 - 上下文增强层:谁掌握了更高效、更精准的上下文增强能力,谁就能构建出真正有价值的智能系统。
  • ATAM,SAAM,DSSA详解(系统架构)
  • 软考高级-系统架构设计师案例专题三:系统开发基础
  • 实模式下的地址分段
  • clickhouse 检查是否有删除语句在执行
  • 网站职能怎么将自己的视频推广出去
  • ubuntu22.04 ros2 kobuki底盘控制全纪录
  • 深圳网站建设外贸公司做单抗药的看什么网站好
  • 植物大战僵尸杂交版v3.12最新版本(附下载链接)
  • 云手机的安全保护措施有哪些?
  • 计算机毕业设计240—基于python+爬虫+html的微博舆情数据可视化系统(源代码+数据库)
  • 制作梦核的网站做h网站
  • 本地部署开源数据分析平台 Elastic Stack 并实现外部访问( Windows 版本)
  • 高性能组件_线程内存redis_Mysql_内存序_malloc
  • 2025年前端技术全景指南:从基础到架构的实战手册
  • RuoYi/ExcelUtil修改(导入excel表时,表中字段没有映射上数据库表字段)
  • C++ 分治 快排铺垫 三指针 力扣 75.颜色分类 题解 每日一题
  • 预测算法:股票数据分析预测系统 股票预测 股价预测 Arima预测算法(时间序列预测算法) Flask 框架 大数据(源码)✅