当前位置: 首页 > news >正文

二型最大似然(Type II Maximum Likelihood):概述与核心概念

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

“二型最大似然”(Type II Maximum Likelihood)通常与经验贝叶斯方法(Empirical Bayes Methods) 相关联,特别是当它涉及对超参数(hyperparameters) 进行估计时。在传统最大似然估计(MLE,有时被称为Type I MLE)中,我们直接估计模型参数θ,使得观测数据D的似然P(D | θ)最大化。而Type II MLE则更进一步,用于估计层次模型(hierarchical models)贝叶斯模型中的超参数。

具体来说,考虑一个两层模型:

  1. 第一层:参数θ由某个先验分布生成,该先验分布由超参数η控制,即θ ∼ P(θ | η)。
  2. 第二层:观测数据D由参数θ生成,即D ∼ P(D | θ)。

Type II MLE的目标是找到超参数η,使得观测数据的边际似然(marginal likelihood)证据(evidence) 最大化。这个边际似然是通过将参数θ积分掉得到的:
P(D∣η)=∫P(D∣θ)P(θ∣η)dθP(D | \eta) = \int P(D | \theta) P(\theta | \eta) d\theta P(Dη)=P(Dθ)P(θη)dθ
然后,我们最大化这个边际似然:η^MLE=arg⁡max⁡ηP(D∣η)\hat{\eta}_{MLE} = \arg\max_{\eta} P(D | \eta)η^MLE=argmaxηP(Dη)

一旦找到了超参数的估计值η^\hat{\eta}η^,我们就可以将其用于后续的贝叶斯推断,例如计算参数的后验分布P(θ∣D,η^)P(\theta | D, \hat{\eta})P(θD,η^)


本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

  • 20.Gradient Centralization:一行代码加速训练并提升泛化能力的优化技术
  • 19.Mish激活函数:一种自正则化的非单调神经激活函数
  • 18.Swish激活函数:深度学习中的自适应门控激活机制
  • 17.RMSprop优化算法:原理、应用与演进
  • 16.康威生命游戏:零玩家游戏的元胞自动机奇迹
  • 15.梯度范数:概念、性质、应用与算法实现
  • 14.LSTM:长短期记忆网络的原理、演进与应用
  • 13.古德-杰弗里斯悖论:贝叶斯统计中的先验选择难题
  • 12.BRLESC计算机:美国弹道研究实验室的科学计算先驱
  • 11.磁带记录仪:从磁带到数字的数据存储之旅
  • 10.振荡器:从基础原理到大模型计算的时钟心脏
  • 9.SuperGLUE:自然语言理解的挑战与进步
  • 8.奇异值:数据科学的数学基石与应用核心
  • 7.GLUE:自然语言理解评估的黄金基准
  • 6.MMLU:衡量大语言模型多任务理解能力的黄金基准
  • 5.低秩矩阵:揭示高维数据中的简约之美
  • 4.低秩分解技术:从理论到应用的全方位解读
  • 3.DROP:挑战机器离散推理能力的阅读 comprehension 基准
  • 2.Frank-Wolfe算法:深入解析与前沿应用
  • 1.SQuAD:机器阅读理解领域的里程碑数据集

📊 二型最大似然 vs. 一型最大似然

为了更清晰地理解二型最大似然,让我们将它和经典的一型最大似然估计(Type I MLE)放在一个表格里对比一下:

特征一型最大似然估计 (Type I MLE)二型最大似然估计 (Type II MLE)
估计对象模型参数 θ超参数 η
目标函数似然函数 P(D∣θ)边际似然(证据) P(D∣η) = ∫P(D∣θ)P(θ∣η)dθ
主要应用频率统计学中的参数估计经验贝叶斯方法、多层模型、超参数优化
不确定性仅基于数据,未考虑参数先验通过引入超参数先验,部分考虑了参数的不确定性
计算复杂度通常较低通常较高,因为需要计算积分(或近似)

🧮 二型最大似然的数学形式与计算

Type II MLE的核心是最大化边际似然 P(D∣η)P(D | \eta)P(Dη)。计算这个积分往往是极具挑战性的,特别是在高维或复杂模型中。因此,实践中常常采用近似方法

  1. 解析近似
  • 当先验 P(θ∣η)P(\theta | \eta)P(θη) 和似然 P(D∣θ)P(D | \theta)P(Dθ)共轭(conjugate) 的时候,边际似然 P(D∣η)P(D | \eta)P(Dη) 有时可以有解析解。这是最理想的情况。
  • 例如,在高斯-高斯模型中,均值的先验是高斯分布,似然也是高斯分布,那么边际似然同样有高斯形式。
  1. 数值积分
  • 当参数θ的维度不高时,可以使用数值积分方法来计算边际似然。但在高维情况下,数值积分会变得非常困难。
  1. 期望最大化算法(EM Algorithm)
  • EM算法是求解Type II MLE非常强大的工具。 在讨论一般II型逐步删失数据下的统计推断时,就提到了将EM算法用于计算极大似然估计。
  • 在E步中,计算在给定当前超参数η和观测数据D的条件下,潜在变量θ的后验期望。
  • 在M步中,更新超参数η以最大化这个期望。
  1. 变分近似(Variational Approximation)
  • 变分法通过寻找一个易于处理的分布来近似真实的后验分布,从而简化边际似然的计算。
  1. 马尔可夫链蒙特卡洛(MCMC)
  • 虽然MCMC通常用于从后验分布中抽样,但也可以用于边缘似然的估计(尽管这可能很有挑战性)。 的摘要中提到了在Type-II删失下使用Gibbs抽样(一种MCMC方法)进行贝叶斯推断。

🚀 二型最大似然的应用场景

二型最大似然估计在许多机器学习📈和统计学📊领域都有广泛应用:

  • 自动相关性确定(Automatic Relevance Determination, ARD) / 稀疏贝叶斯学习:在回归或分类模型中,为权重引入具有可调节尺度参数(超参数)的先验(如高斯先验)。Type II MLE用于估计这些超参数。许多超参数会趋向于无穷大,使得对应的权重后验集中 around zero,从而实现稀疏性特征选择。这与Relevance Vector Machine (RVM) 的核心思想紧密相关。

  • 高斯过程(Gaussian Processes):高斯过程的性能很大程度上依赖于核函数(kernel function) 的选择及其超参数(如长度尺度length-scale)。Type II MLE可用于通过最大化边际似然来学习这些超参数。

  • 贝叶斯神经网络(Bayesian Neural Networks):可以为神经网络的权重设置先验分布(如高斯先验),并使用Type II MLE来估计先验的超参数(如方差)。

  • 处理删失数据(Censored Data):如和所述,在可靠性工程和生存分析中,经常会遇到II型删失(Type-II Censoring) 数据。Type II MLE(在此语境下可指在II型删失方案下进行的标准最大似然估计,但思想与超参数估计的Type II MLE有相通之处)可用于估计模型参数。

  • 经验贝叶斯方法:这可以说是Type II MLE最直接的应用领域。通过从数据中估计超参数,而不是完全主观地指定它们,实现了“让数据说话”的贝叶斯分析。


✅ 二型最大似然的优势与局限

优势(Strengths)👍:
  • 平衡点:它在纯贝叶斯方法(需要完全指定所有先验)和纯频率主义方法(忽略先验信息)之间提供了一个良好的折衷。
  • 正则化与防止过拟合:通过引入超参数先验并进行积分,Type II MLE具有天然的正则化效果,有助于防止模型过拟合,尤其是在高维模型中。
  • 自动化:它可以自动化地学习一些重要的超参数,减少了对繁琐的手动调参的依赖。
局限性和挑战(Limitations and Challenges)👎:
  • 计算复杂性:计算边际似然 P(D∣η)P(D | \eta)P(Dη) 通常是困难且计算密集型的,必须依赖近似方法。
  • 过拟合风险:虽然旨在防止过拟合,但如果超参数模型本身非常灵活,且数据有限,边际似然 P(D∣η)P(D | \eta)P(Dη) 本身也可能对超参数η过拟合
  • 点估计:Type II MLE最终为超参数η提供了一个点估计,而不是完整的后验分布 P(η∣D)P(\eta | D)P(ηD)。这忽略了η本身的不确定性。完全贝叶斯方法会将超先验(hyperprior)施加于η并对其进行积分,但这会使计算更加复杂。

💡 一个简单例子:高斯分布中的均值估计

假设我们有一组观测数据 D={x1,x2,...,xn}D = \{x_1, x_2, ..., x_n\}D={x1,x2,...,xn},我们假设它们来自一个高斯分布 xi∼N(θ,σ2)x_i \sim \mathcal{N}(\theta, \sigma^2)xiN(θ,σ2),其中方差 σ2\sigma^2σ2 已知。

  • Type I MLE:直接估计参数θ。结果是样本均值:θ^MLE=1n∑i=1nxi\hat{\theta}_{MLE} = \frac{1}{n} \sum_{i=1}^n x_iθ^MLE=n1i=1nxi
  • Type II MLE (经验贝叶斯):我们为θ设置一个先验分布,假设它也是一个高斯分布 θ∼N(μ,τ2)\theta \sim \mathcal{N}(\mu, \tau^2)θN(μ,τ2)。这里超参数η就是 (μ, τ²)。目标是最大化边际似然 P(D∣μ,τ2)=∫N(D∣θ,σ2)N(θ∣μ,τ2)dθP(D | \mu, \tau^2) = \int \mathcal{N}(D | \theta, \sigma^2) \mathcal{N}(\theta | \mu, \tau^2) d\thetaP(Dμ,τ2)=N(Dθ,σ2)N(θμ,τ2)dθ。这个积分有解析解(结果也是一个高斯分布)。我们可以找到使这个边际高斯分布似然最大的μ\muμτ2\tau^2τ2。之后,我们可以使用估计出的μ^\hat{\mu}μ^τ^2\hat{\tau}^2τ^2来计算θ的后验分布 P(θ∣D,μ^,τ^2)P(\theta | D, \hat{\mu}, \hat{\tau}^2)P(θD,μ^,τ^2),后验均值会介于样本均值θ^MLE\hat{\theta}_{MLE}θ^MLE和超参数先验均值μ^\hat{\mu}μ^之间,起到了收缩(shrinkage)的效果。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

http://www.dtcms.com/a/414766.html

相关文章:

  • 娄底网站建设开发自媒体素材视频网站
  • 云浮源峰网站建设工作室地址门户网站建设相关需求
  • 鸿蒙父组件处理子组件的点击事件
  • DDPM原理解析
  • 白盒密码:守护不可信环境中的密钥安全
  • 创建一个网站买卖WordPress外链方法
  • 使用 Go SDK 玩转 Docker:从容器到多架构构建
  • 原生微信小程序开发基础知识总结架构逻辑
  • 树莓派实现的自动垃圾(纸团)回收机器人
  • 【ROS2学习笔记】节点篇:节点概述
  • Java面试宝典:网络协议与Netty二
  • 自然语言处理(01)
  • 如何利用模板 + 继承的方式,形成动态多态的效果呢?
  • UE_ContrlRig
  • 江苏省城乡住房建设厅网站网站建设及维护流程图
  • ubuntu18.04安装五笔字型的方法
  • 上市公司网站建设要求成都丁香人才网官网专区
  • AI 原生应用:内容创作从 “手工作坊” 到 “智能工厂” 的革命
  • AIGC实战——交互式生成对抗网络(iGAN)
  • Scikit-learn Python机器学习 - 聚类分析算法 - DBSCAN(基于密度的噪声应用空间聚类)
  • PyTorch 实战:CIFAR-10 图像分类与网络优化
  • STM32H743-ARM例程10-WWDG
  • STM32H743-ARM例程9-IWDG看门狗
  • 什么是 mmdet3d
  • 建设银行嘉兴分行网站首页胶州网站建设dch100
  • Metal - 9. 深入剖析 3D 场景
  • 3DVG的当前面临的挑战和问题
  • 无代码企业网站开发网站建设管理和维护
  • 【C++】string类的常见接口的使用
  • 网站建设制作设计营销公司杭州亚马逊雨林探险作文