当前位置：首页 > news >正文

二型最大似然（Type II Maximum Likelihood）：概述与核心概念

news 2025/9/28 6:48:31

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

“二型最大似然”（Type II Maximum Likelihood）通常与经验贝叶斯方法（Empirical Bayes Methods） 相关联，特别是当它涉及对超参数（hyperparameters） 进行估计时。在传统最大似然估计（MLE，有时被称为Type I MLE）中，我们直接估计模型参数θ，使得观测数据D的似然P(D | θ)最大化。而Type II MLE则更进一步，用于估计层次模型（hierarchical models） 或贝叶斯模型中的超参数。

具体来说，考虑一个两层模型：

第一层：参数θ由某个先验分布生成，该先验分布由超参数η控制，即θ ∼ P(θ | η)。
第二层：观测数据D由参数θ生成，即D ∼ P(D | θ)。

Type II MLE的目标是找到超参数η，使得观测数据的边际似然（marginal likelihood） 或证据（evidence） 最大化。这个边际似然是通过将参数θ积分掉得到的：
$\eta) = \int P(D | \theta) P(\theta | \eta) d\theta$
然后，我们最大化这个边际似然： $η^MLE=arg⁡max⁡ηP(D∣η)\hat{\eta}_{MLE} = \arg\max_{\eta} P(D | \eta)$ 。

一旦找到了超参数的估计值 $η^\hat{\eta}$ ，我们就可以将其用于后续的贝叶斯推断，例如计算参数的后验分布 $P(θ∣D,η^)P(\theta | D, \hat{\eta})$ 。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.Gradient Centralization：一行代码加速训练并提升泛化能力的优化技术
19.Mish激活函数：一种自正则化的非单调神经激活函数
18.Swish激活函数：深度学习中的自适应门控激活机制
17.RMSprop优化算法：原理、应用与演进
16.康威生命游戏：零玩家游戏的元胞自动机奇迹
15.梯度范数：概念、性质、应用与算法实现
14.LSTM：长短期记忆网络的原理、演进与应用
13.古德-杰弗里斯悖论：贝叶斯统计中的先验选择难题
12.BRLESC计算机：美国弹道研究实验室的科学计算先驱
11.磁带记录仪：从磁带到数字的数据存储之旅
10.振荡器：从基础原理到大模型计算的时钟心脏
9.SuperGLUE：自然语言理解的挑战与进步
8.奇异值：数据科学的数学基石与应用核心
7.GLUE：自然语言理解评估的黄金基准
6.MMLU：衡量大语言模型多任务理解能力的黄金基准
5.低秩矩阵：揭示高维数据中的简约之美
4.低秩分解技术：从理论到应用的全方位解读
3.DROP：挑战机器离散推理能力的阅读 comprehension 基准
2.Frank-Wolfe算法：深入解析与前沿应用
1.SQuAD：机器阅读理解领域的里程碑数据集

📊 二型最大似然 vs. 一型最大似然

为了更清晰地理解二型最大似然，让我们将它和经典的一型最大似然估计（Type I MLE）放在一个表格里对比一下：

特征	一型最大似然估计 (Type I MLE)	二型最大似然估计 (Type II MLE)
估计对象	模型参数 θ	超参数 η
目标函数	似然函数 P(D∣θ)	边际似然（证据） P(D∣η) = ∫P(D∣θ)P(θ∣η)dθ
主要应用	频率统计学中的参数估计	经验贝叶斯方法、多层模型、超参数优化
不确定性	仅基于数据，未考虑参数先验	通过引入超参数先验，部分考虑了参数的不确定性
计算复杂度	通常较低	通常较高，因为需要计算积分（或近似）

🧮 二型最大似然的数学形式与计算

Type II MLE的核心是最大化边际似然 $\eta)$ 。计算这个积分往往是极具挑战性的，特别是在高维或复杂模型中。因此，实践中常常采用近似方法：

解析近似：

当先验 $P(θ∣η)P(\theta | \eta)$ 和似然 $\theta)$ 是共轭（conjugate） 的时候，边际似然 $\eta)$ 有时可以有解析解。这是最理想的情况。
例如，在高斯-高斯模型中，均值的先验是高斯分布，似然也是高斯分布，那么边际似然同样有高斯形式。

数值积分：

当参数θ的维度不高时，可以使用数值积分方法来计算边际似然。但在高维情况下，数值积分会变得非常困难。

期望最大化算法（EM Algorithm）：

EM算法是求解Type II MLE非常强大的工具。在讨论一般II型逐步删失数据下的统计推断时，就提到了将EM算法用于计算极大似然估计。
在E步中，计算在给定当前超参数η和观测数据D的条件下，潜在变量θ的后验期望。
在M步中，更新超参数η以最大化这个期望。

变分近似（Variational Approximation）：

变分法通过寻找一个易于处理的分布来近似真实的后验分布，从而简化边际似然的计算。

马尔可夫链蒙特卡洛（MCMC）：

虽然MCMC通常用于从后验分布中抽样，但也可以用于边缘似然的估计（尽管这可能很有挑战性）。的摘要中提到了在Type-II删失下使用Gibbs抽样（一种MCMC方法）进行贝叶斯推断。

🚀 二型最大似然的应用场景

二型最大似然估计在许多机器学习📈和统计学📊领域都有广泛应用：

自动相关性确定（Automatic Relevance Determination, ARD） / 稀疏贝叶斯学习：在回归或分类模型中，为权重引入具有可调节尺度参数（超参数）的先验（如高斯先验）。Type II MLE用于估计这些超参数。许多超参数会趋向于无穷大，使得对应的权重后验集中 around zero，从而实现稀疏性和特征选择。这与Relevance Vector Machine (RVM) 的核心思想紧密相关。
高斯过程（Gaussian Processes）：高斯过程的性能很大程度上依赖于核函数（kernel function） 的选择及其超参数（如长度尺度length-scale）。Type II MLE可用于通过最大化边际似然来学习这些超参数。
贝叶斯神经网络（Bayesian Neural Networks）：可以为神经网络的权重设置先验分布（如高斯先验），并使用Type II MLE来估计先验的超参数（如方差）。
处理删失数据（Censored Data）：如和所述，在可靠性工程和生存分析中，经常会遇到II型删失（Type-II Censoring） 数据。Type II MLE（在此语境下可指在II型删失方案下进行的标准最大似然估计，但思想与超参数估计的Type II MLE有相通之处）可用于估计模型参数。
经验贝叶斯方法：这可以说是Type II MLE最直接的应用领域。通过从数据中估计超参数，而不是完全主观地指定它们，实现了“让数据说话”的贝叶斯分析。

✅ 二型最大似然的优势与局限

优势（Strengths）👍：

平衡点：它在纯贝叶斯方法（需要完全指定所有先验）和纯频率主义方法（忽略先验信息）之间提供了一个良好的折衷。
正则化与防止过拟合：通过引入超参数先验并进行积分，Type II MLE具有天然的正则化效果，有助于防止模型过拟合，尤其是在高维模型中。
自动化：它可以自动化地学习一些重要的超参数，减少了对繁琐的手动调参的依赖。

局限性和挑战（Limitations and Challenges）👎：

计算复杂性：计算边际似然 $\eta)$ 通常是困难且计算密集型的，必须依赖近似方法。
过拟合风险：虽然旨在防止过拟合，但如果超参数模型本身非常灵活，且数据有限，边际似然 $\eta)$ 本身也可能对超参数η过拟合。
点估计：Type II MLE最终为超参数η提供了一个点估计，而不是完整的后验分布 $P(η∣D)P(\eta | D)$ 。这忽略了η本身的不确定性。完全贝叶斯方法会将超先验（hyperprior）施加于η并对其进行积分，但这会使计算更加复杂。

💡 一个简单例子：高斯分布中的均值估计

假设我们有一组观测数据 $D = \{x_1, x_2, ..., x_n\}$ ，我们假设它们来自一个高斯分布 $xi∼N(θ,σ2)x_i \sim \mathcal{N}(\theta, \sigma^2)$ ，其中方差 $σ2\sigma^2$ 已知。

Type I MLE：直接估计参数θ。结果是样本均值： $θ^MLE=1n∑i=1nxi\hat{\theta}_{MLE} = \frac{1}{n} \sum_{i=1}^n x_i$ 。
Type II MLE (经验贝叶斯)：我们为θ设置一个先验分布，假设它也是一个高斯分布 $θ∼N(μ,τ2)\theta \sim \mathcal{N}(\mu, \tau^2)$ 。这里超参数η就是 (μ, τ²)。目标是最大化边际似然 $\mu, \tau^2) = \int \mathcal{N}(D | \theta, \sigma^2) \mathcal{N}(\theta | \mu, \tau^2) d\theta$ 。这个积分有解析解（结果也是一个高斯分布）。我们可以找到使这个边际高斯分布似然最大的 $μ\mu$ 和 $τ2\tau^2$ 。之后，我们可以使用估计出的 $μ^\hat{\mu}$ 和 $τ^2\hat{\tau}^2$ 来计算θ的后验分布 $P(θ∣D,μ^,τ^2)P(\theta | D, \hat{\mu}, \hat{\tau}^2)$ ，后验均值会介于样本均值 $θ^MLE\hat{\theta}_{MLE}$ 和超参数先验均值 $μ^\hat{\mu}$ 之间，起到了收缩（shrinkage）的效果。