当前位置：首页 > news >正文

MLE, MAP, Full Bayes

news 2025/10/23 14:37:41

总结

MLE：纯数据驱动，简单高效，大样本最优
MAP：MLE + 正则化，利用先验，防止过拟合
Full Bayes：完整不确定性，小样本最佳，计算昂贵

数据多用MLE，先验强用MAP，不确定找Bayes！

最大似然估计 (Maximum Likelihood Estimation, MLE)

核心思想：找到使观测数据出现概率最大的参数值。

数学表达：
$θ^MLE=arg⁡max⁡θP(D∣θ)=arg⁡max⁡θ∏i=1nP(xi∣θ)\hat{\theta}_{MLE} = \arg\max_{\theta} P(D|\theta) = \arg\max_{\theta} \prod_{i=1}^{n} P(x_i|\theta)$

对数似然（更常用）：
$θ^MLE=arg⁡max⁡θlog⁡P(D∣θ)=arg⁡max⁡θ∑i=1nlog⁡P(xi∣θ)\hat{\theta}_{MLE} = \arg\max_{\theta} \log P(D|\theta) = \arg\max_{\theta} \sum_{i=1}^{n} \log P(x_i|\theta)$

直觉：数据已经发生了，什么样的参数最有可能产生这些数据？

最大后验估计 (Maximum A Posteriori, MAP)

核心思想：结合先验知识，找到在观测数据下后验概率最大的参数值。

数学表达：
$θ^MAP=arg⁡max⁡θP(θ∣D)\hat{\theta}_{MAP} = \arg\max_{\theta} P(\theta|D)$

利用贝叶斯定理：
$P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$

由于 $P (D)$ 与 $θ\theta$ 无关，可以忽略：
$θ^MAP=arg⁡max⁡θP(D∣θ)P(θ)\hat{\theta}_{MAP} = \arg\max_{\theta} P(D|\theta)P(\theta)$

对数形式：
$θ^MAP=arg⁡max⁡θ[log⁡P(D∣θ)+log⁡P(θ)]\hat{\theta}_{MAP} = \arg\max_{\theta} [\log P(D|\theta) + \log P(\theta)]$

直觉：在有先验信念的情况下，结合数据和先验，什么参数最合理？

MAP与正则化的联系

MAP估计与正则化有深刻联系！

L2正则化 = 高斯先验

在线性回归中，假设参数服从高斯先验：
$P(θ)∝e−λ2∥θ∥2P(\theta) \propto e^{-\frac{\lambda}{2}\|\theta\|^2}$

MAP目标函数：
$θ^MAP=arg⁡max⁡θ[log⁡P(D∣θ)+log⁡P(θ)]\hat{\theta}_{MAP} = \arg\max_{\theta} [\log P(D|\theta) + \log P(\theta)]$
$\arg\max_{\theta} [\log P(D|\theta) - \frac{\lambda}{2}\|\theta\|^2]$
$\arg\min_{\theta} [-\log P(D|\theta) + \frac{\lambda}{2}\|\theta\|^2]$

这正是带L2正则化的损失函数（Ridge回归）！

L1正则化 = 拉普拉斯先验

假设参数服从拉普拉斯先验：
$P(θ)∝e−λ∥θ∥1P(\theta) \propto e^{-\lambda\|\theta\|_1}$

MAP目标函数：
$θ^MAP=arg⁡min⁡θ[−log⁡P(D∣θ)+λ∥θ∥1]\hat{\theta}_{MAP} = \arg\min_{\theta} [-\log P(D|\theta) + \lambda\|\theta\|_1]$

这正是带L1正则化的损失函数（Lasso回归）！

结论：正则化本质上是在做MAP估计，正则化项对应先验分布！

完全贝叶斯方法

问题设定

已观测数据： $D = \{x_1, x_2, ..., x_n\}$
未知参数： $θ\theta$ （已通过贝叶斯推断得到后验分布 $P(θ∣D)P(\theta|D)$ ）
目标：预测新数据 $x_{new}$ 的分布

核心思想

问题：我们想知道 $P(x_{new}|D)$ ，但参数 $θ\theta$ 是未知的（不确定的）

频率派做法：

用点估计 $θ^\hat{\theta}$ （如MLE）
预测： $P(xnew∣θ^)P(x_{new}|\hat{\theta})$
问题：忽略了参数的不确定性

贝叶斯做法：

考虑所有可能的 $θ\theta$ 值
用后验概率 $P(θ∣D)P(\theta|D)$ 加权
对所有 $θ\theta$ 进行积分（边缘化）

与MLE和MAP都不同，完全贝叶斯方法不估计单一参数值，而是计算参数的完整后验分布：

$P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$

预测时使用后验分布的期望或积分：
$P(xnew∣D)=∫P(xnew∣θ)P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta)P(\theta|D)d\theta$

推导过程

目标：求 $P(x_{new}|D)$

步骤1：引入参数

利用全概率公式（Law of Total Probability），对参数 $θ\theta$ 进行边缘化：

$P(xnew∣D)=∫P(xnew,θ∣D)dθP(x_{new}|D) = \int P(x_{new}, \theta|D) d\theta$

这是在说：“ $x_{new}$ 的概率等于对所有可能的 $θ\theta$ 求和”

步骤2：分解联合概率

使用条件概率的链式法则：

$P(xnew,θ∣D)=P(xnew∣θ,D)⋅P(θ∣D)P(x_{new}, \theta|D) = P(x_{new}|\theta, D) \cdot P(\theta|D)$

步骤3：条件独立性假设

关键假设：给定参数 $θ\theta$ 后，新数据 $x_{new}$ 与旧数据 $D$ 条件独立

$P(xnew∣θ,D)=P(xnew∣θ)P(x_{new}|\theta, D) = P(x_{new}|\theta)$

为什么成立？

这是因为：

$θ\theta$ 包含了生成数据的全部信息
一旦知道 $θ\theta$ ， $x_{new}$ 的分布就确定了
旧数据 $D$ 不再提供额外信息

数学表达：
$xnew⊥D∣θx_{new} \perp D | \theta$
（ $x_{new}$ 和 $D$ 在给定 $θ\theta$ 下独立）

步骤4：代入得到最终公式

$P(xnew∣D)=∫P(xnew∣θ,D)⋅P(θ∣D)dθP(x_{new}|D) = \int P(x_{new}|\theta, D) \cdot P(\theta|D) d\theta$
$\int P(x_{new}|\theta) \cdot P(\theta|D) d\theta$

✅ 这就是后验预测分布！

MLE vs MAP vs Full Bayes 对比表

维度	MLE (最大似然估计)	MAP (最大后验估计)	Full Bayes (完全贝叶斯)
核心公式	$arg⁡max⁡P(D∣θ)\arg\max P(D\|\theta)$	$arg⁡max⁡P(D∣θ)P(θ)\arg\max P(D\|\theta)P(\theta)$	$P(θ∣D)=P(D∣θ)P(θ)P(D)P(\theta\|D) = \frac{P(D\|\theta)P(\theta)}{P(D)}$
输出	单个点 $θ^\hat{\theta}$	单个点 $θ^\hat{\theta}$	完整分布 $P(θ∣D)P(\theta\|D)$
参数观点	固定未知常数	随机变量（取众数，概率峰值）	随机变量（保留分布）
使用先验	❌ 不使用	✅ 使用	✅ 使用
不确定性	❌ 无	❌ 无	✅ 完整量化
等价形式	$min⁡−log⁡P(D∣θ)\min -\log P(D\|\theta)$	$min⁡[−log⁡P(D∣θ)−log⁡P(θ)]\min [-\log P(D\|\theta) - \log P(\theta)]$	无简化（完整分布）
与正则化关系	无正则化	L2正则=高斯先验 L1正则=拉普拉斯先验	正则化=先验分布
硬币例子 10次抛6正	$θ=0.6\theta=0.6$	$θ=0.583\theta=0.583$ (Beta(2,2)先验)	均值=0.571 95%CI=[0.34,0.80]
小样本 1次抛1正	$θ=1.0\theta=1.0$ ❌极端	$θ=0.67\theta=0.67$ ✅合理	均值=0.6 CI=[0.16,0.95] ✅最优
大样本行为	不变	→ MLE	后验集中于真值
预测	$P(xnew∣θ^)P(x_{new}\|\hat{\theta})$	$P(xnew∣θ^)P(x_{new}\|\hat{\theta})$	$∫P(xnew∣θ)P(θ∣D)dθ\int P(x_{new}\|\theta)P(\theta\|D)d\theta$
计算复杂度	低 ⚡	中 ⚡⚡	高 ⚡⚡⚡
优化方法	梯度下降、牛顿法	梯度下降、L-BFGS	MCMC、变分推断
主要优点	• 简单快速 • 无主观性 • 渐近最优	• 防止过拟合 • 利用先验 • 小样本稳健	• 完整不确定性 • 自动传播误差 • 理论最优
主要缺点	• 小样本过拟合 • 无不确定性 • 极端估计	• 仍无不确定性 • 先验主观 • 点估计局限	• 计算昂贵 • 高维困难 • 先验依赖
适用场景	大数据、快速原型	正则化、中等数据	小样本、高风险决策
典型应用	神经网络(无正则) 极大似然估计	神经网络(L2/Dropout) Ridge/Lasso回归	医疗诊断金融风险贝叶斯优化
何时使用	$n > 10000$ 且无先验	需要正则化或有先验	需要不确定性量化