二型最大似然(Type II Maximum Likelihood):概述与核心概念
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
“二型最大似然”(Type II Maximum Likelihood)通常与经验贝叶斯方法(Empirical Bayes Methods) 相关联,特别是当它涉及对超参数(hyperparameters) 进行估计时。在传统最大似然估计(MLE,有时被称为Type I MLE)中,我们直接估计模型参数θ,使得观测数据D的似然P(D | θ)最大化。而Type II MLE则更进一步,用于估计层次模型(hierarchical models) 或贝叶斯模型中的超参数。
具体来说,考虑一个两层模型:
- 第一层:参数θ由某个先验分布生成,该先验分布由超参数η控制,即θ ∼ P(θ | η)。
- 第二层:观测数据D由参数θ生成,即D ∼ P(D | θ)。
Type II MLE的目标是找到超参数η,使得观测数据的边际似然(marginal likelihood) 或证据(evidence) 最大化。这个边际似然是通过将参数θ积分掉得到的:
P(D∣η)=∫P(D∣θ)P(θ∣η)dθP(D | \eta) = \int P(D | \theta) P(\theta | \eta) d\theta P(D∣η)=∫P(D∣θ)P(θ∣η)dθ
然后,我们最大化这个边际似然:η^MLE=argmaxηP(D∣η)\hat{\eta}_{MLE} = \arg\max_{\eta} P(D | \eta)η^MLE=argmaxηP(D∣η)。
一旦找到了超参数的估计值η^\hat{\eta}η^,我们就可以将其用于后续的贝叶斯推断,例如计算参数的后验分布P(θ∣D,η^)P(\theta | D, \hat{\eta})P(θ∣D,η^)。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.Gradient Centralization:一行代码加速训练并提升泛化能力的优化技术
- 19.Mish激活函数:一种自正则化的非单调神经激活函数
- 18.Swish激活函数:深度学习中的自适应门控激活机制
- 17.RMSprop优化算法:原理、应用与演进
- 16.康威生命游戏:零玩家游戏的元胞自动机奇迹
- 15.梯度范数:概念、性质、应用与算法实现
- 14.LSTM:长短期记忆网络的原理、演进与应用
- 13.古德-杰弗里斯悖论:贝叶斯统计中的先验选择难题
- 12.BRLESC计算机:美国弹道研究实验室的科学计算先驱
- 11.磁带记录仪:从磁带到数字的数据存储之旅
- 10.振荡器:从基础原理到大模型计算的时钟心脏
- 9.SuperGLUE:自然语言理解的挑战与进步
- 8.奇异值:数据科学的数学基石与应用核心
- 7.GLUE:自然语言理解评估的黄金基准
- 6.MMLU:衡量大语言模型多任务理解能力的黄金基准
- 5.低秩矩阵:揭示高维数据中的简约之美
- 4.低秩分解技术:从理论到应用的全方位解读
- 3.DROP:挑战机器离散推理能力的阅读 comprehension 基准
- 2.Frank-Wolfe算法:深入解析与前沿应用
- 1.SQuAD:机器阅读理解领域的里程碑数据集
📊 二型最大似然 vs. 一型最大似然
为了更清晰地理解二型最大似然,让我们将它和经典的一型最大似然估计(Type I MLE)放在一个表格里对比一下:
特征 | 一型最大似然估计 (Type I MLE) | 二型最大似然估计 (Type II MLE) |
---|---|---|
估计对象 | 模型参数 θ | 超参数 η |
目标函数 | 似然函数 P(D∣θ) | 边际似然(证据) P(D∣η) = ∫P(D∣θ)P(θ∣η)dθ |
主要应用 | 频率统计学中的参数估计 | 经验贝叶斯方法、多层模型、超参数优化 |
不确定性 | 仅基于数据,未考虑参数先验 | 通过引入超参数先验,部分考虑了参数的不确定性 |
计算复杂度 | 通常较低 | 通常较高,因为需要计算积分(或近似) |
🧮 二型最大似然的数学形式与计算
Type II MLE的核心是最大化边际似然 P(D∣η)P(D | \eta)P(D∣η)。计算这个积分往往是极具挑战性的,特别是在高维或复杂模型中。因此,实践中常常采用近似方法:
- 解析近似:
- 当先验 P(θ∣η)P(\theta | \eta)P(θ∣η) 和似然 P(D∣θ)P(D | \theta)P(D∣θ) 是共轭(conjugate) 的时候,边际似然 P(D∣η)P(D | \eta)P(D∣η) 有时可以有解析解。这是最理想的情况。
- 例如,在高斯-高斯模型中,均值的先验是高斯分布,似然也是高斯分布,那么边际似然同样有高斯形式。
- 数值积分:
- 当参数θ的维度不高时,可以使用数值积分方法来计算边际似然。但在高维情况下,数值积分会变得非常困难。
- 期望最大化算法(EM Algorithm):
- EM算法是求解Type II MLE非常强大的工具。 在讨论一般II型逐步删失数据下的统计推断时,就提到了将EM算法用于计算极大似然估计。
- 在E步中,计算在给定当前超参数η和观测数据D的条件下,潜在变量θ的后验期望。
- 在M步中,更新超参数η以最大化这个期望。
- 变分近似(Variational Approximation):
- 变分法通过寻找一个易于处理的分布来近似真实的后验分布,从而简化边际似然的计算。
- 马尔可夫链蒙特卡洛(MCMC):
- 虽然MCMC通常用于从后验分布中抽样,但也可以用于边缘似然的估计(尽管这可能很有挑战性)。 的摘要中提到了在Type-II删失下使用Gibbs抽样(一种MCMC方法)进行贝叶斯推断。
🚀 二型最大似然的应用场景
二型最大似然估计在许多机器学习📈和统计学📊领域都有广泛应用:
-
自动相关性确定(Automatic Relevance Determination, ARD) / 稀疏贝叶斯学习:在回归或分类模型中,为权重引入具有可调节尺度参数(超参数)的先验(如高斯先验)。Type II MLE用于估计这些超参数。许多超参数会趋向于无穷大,使得对应的权重后验集中 around zero,从而实现稀疏性和特征选择。这与Relevance Vector Machine (RVM) 的核心思想紧密相关。
-
高斯过程(Gaussian Processes):高斯过程的性能很大程度上依赖于核函数(kernel function) 的选择及其超参数(如长度尺度length-scale)。Type II MLE可用于通过最大化边际似然来学习这些超参数。
-
贝叶斯神经网络(Bayesian Neural Networks):可以为神经网络的权重设置先验分布(如高斯先验),并使用Type II MLE来估计先验的超参数(如方差)。
-
处理删失数据(Censored Data):如和所述,在可靠性工程和生存分析中,经常会遇到II型删失(Type-II Censoring) 数据。Type II MLE(在此语境下可指在II型删失方案下进行的标准最大似然估计,但思想与超参数估计的Type II MLE有相通之处)可用于估计模型参数。
-
经验贝叶斯方法:这可以说是Type II MLE最直接的应用领域。通过从数据中估计超参数,而不是完全主观地指定它们,实现了“让数据说话”的贝叶斯分析。
✅ 二型最大似然的优势与局限
优势(Strengths)👍:
- 平衡点:它在纯贝叶斯方法(需要完全指定所有先验)和纯频率主义方法(忽略先验信息)之间提供了一个良好的折衷。
- 正则化与防止过拟合:通过引入超参数先验并进行积分,Type II MLE具有天然的正则化效果,有助于防止模型过拟合,尤其是在高维模型中。
- 自动化:它可以自动化地学习一些重要的超参数,减少了对繁琐的手动调参的依赖。
局限性和挑战(Limitations and Challenges)👎:
- 计算复杂性:计算边际似然 P(D∣η)P(D | \eta)P(D∣η) 通常是困难且计算密集型的,必须依赖近似方法。
- 过拟合风险:虽然旨在防止过拟合,但如果超参数模型本身非常灵活,且数据有限,边际似然 P(D∣η)P(D | \eta)P(D∣η) 本身也可能对超参数η过拟合。
- 点估计:Type II MLE最终为超参数η提供了一个点估计,而不是完整的后验分布 P(η∣D)P(\eta | D)P(η∣D)。这忽略了η本身的不确定性。完全贝叶斯方法会将超先验(hyperprior)施加于η并对其进行积分,但这会使计算更加复杂。
💡 一个简单例子:高斯分布中的均值估计
假设我们有一组观测数据 D={x1,x2,...,xn}D = \{x_1, x_2, ..., x_n\}D={x1,x2,...,xn},我们假设它们来自一个高斯分布 xi∼N(θ,σ2)x_i \sim \mathcal{N}(\theta, \sigma^2)xi∼N(θ,σ2),其中方差 σ2\sigma^2σ2 已知。
- Type I MLE:直接估计参数θ。结果是样本均值:θ^MLE=1n∑i=1nxi\hat{\theta}_{MLE} = \frac{1}{n} \sum_{i=1}^n x_iθ^MLE=n1∑i=1nxi。
- Type II MLE (经验贝叶斯):我们为θ设置一个先验分布,假设它也是一个高斯分布 θ∼N(μ,τ2)\theta \sim \mathcal{N}(\mu, \tau^2)θ∼N(μ,τ2)。这里超参数η就是 (μ, τ²)。目标是最大化边际似然 P(D∣μ,τ2)=∫N(D∣θ,σ2)N(θ∣μ,τ2)dθP(D | \mu, \tau^2) = \int \mathcal{N}(D | \theta, \sigma^2) \mathcal{N}(\theta | \mu, \tau^2) d\thetaP(D∣μ,τ2)=∫N(D∣θ,σ2)N(θ∣μ,τ2)dθ。这个积分有解析解(结果也是一个高斯分布)。我们可以找到使这个边际高斯分布似然最大的μ\muμ和τ2\tau^2τ2。之后,我们可以使用估计出的μ^\hat{\mu}μ^和τ^2\hat{\tau}^2τ^2来计算θ的后验分布 P(θ∣D,μ^,τ^2)P(\theta | D, \hat{\mu}, \hat{\tau}^2)P(θ∣D,μ^,τ^2),后验均值会介于样本均值θ^MLE\hat{\theta}_{MLE}θ^MLE和超参数先验均值μ^\hat{\mu}μ^之间,起到了收缩(shrinkage)的效果。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!