当前位置: 首页 > wzjs >正文

郑州专门做网站徐州集团网站建设

郑州专门做网站,徐州集团网站建设,西安网站建设推荐q479185700上墙,做免费采集电影网站犯法吗一、定义 最大似然估计 是一种参数估计方法,其核心思想是: 选择能使观测数据出现概率最大的参数值作为估计值。 具体来说,假设数据 D x 1 , x 2 , … , x n D{x_1,x_2,…,x_n} Dx1​,x2​,…,xn​独立且服从某个概率分布 P ( x ∣ θ ) P(…
一、定义

最大似然估计 是一种参数估计方法,其核心思想是:
选择能使观测数据出现概率最大的参数值作为估计值
具体来说,假设数据 D = x 1 , x 2 , … , x n D={x_1,x_2,…,x_n} D=x1,x2,,xn独立且服从某个概率分布 P ( x ∣ θ ) P(x∣θ) P(xθ),则通过最大化似然函数 L ( θ ∣ D ) \mathcal{L}(\theta \mid \mathcal{D}) L(θD)来求解参数 θ θ θ

二、公式推导
  1. 似然函数
    数据独立时,似然函数为各数据点概率的乘积:
    L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θD)=i=1nP(xiθ)

  2. 对数似然:
    为简化计算,取自然对数(乘积变加法):
    L ( θ ∣ D ) = ∏ i = 1 n P ( x i ∣ θ ) \mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right) L(θD)=i=1nP(xiθ)

  3. 最大化目标:
    求解使对数似然最大的参数 θ ∗ θ^∗ θ
    θ ∗ = arg ⁡ max ⁡ θ ∑ i = 1 n ln ⁡ P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ=argmaxθi=1nlnP(xiθ)

  4. 求解方法:
    对 θ 求导并令导数为零,或使用梯度下降等优化算法。

三、经典例子
例1:估计正态分布的均值和方差

假设数据 D = x 1 ​ , x 2 ​ , … , x n ​ \mathcal{D}={x_1​,x_2​,…,x_n​} D=x1,x2,,xn服从正态分布 N ( μ , σ 2 ) \mathcal{N}\left(\mu, \sigma^2\right) N(μ,σ2),求 μ \mu μ σ 2 \sigma^2 σ2估计。

  1. 似然函数:
    L ( μ , σ 2 ) = ∏ i = 1 n 1 2 π σ 2 e − ( x i − μ ) 2 2 σ 2 \mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}} L(μ,σ2)=i=1n2πσ2 1e2σ2(xiμ)2

  2. 对数似然:

ln ⁡ L = − n 2 ln ⁡ ( 2 π ) − n 2 ln ⁡ σ 2 − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 \ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2 lnL=2nln(2π)2nlnσ22σ21i=1n(xiμ)2
3. 求导解方程:
μ μ μ 求导:
∂ ln ⁡ L ∂ μ = 1 σ 2 ∑ i = 1 n ( x i − μ ) = 0 ⇒ μ ∗ = 1 n ∑ i = 1 n x i \frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i μlnL=σ21i=1n(xiμ)=0μ=n1i=1nxi
σ 2 \sigma^2 σ2求导:
∂ ln ⁡ L ∂ σ 2 = − n 2 σ 2 + 1 2 σ 4 ∑ i = 1 n ( x i − μ ) 2 = 0 ⇒ σ 2 ∗ = 1 n ∑ i = 1 n ( x i − μ ∗ ) 2 \frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2 σ2lnL=2σ2n+2σ41i=1n(xiμ)2=0σ2=n1i=1n(xiμ)2

  1. 结论
    μ ∗ \mu^* μ是样本均值, σ 2 ∗ \sigma^{2 *} σ2是样本方差(但分母为 n,有偏估计)。
例2:二项分布的参数估计

假设抛硬币 n 次,正面朝上 k 次,估计正面概率 p。

  1. 似然函数:
    $\mathcal{L}§ = \binom{n}{k} p^k (1-p)^{n-k} $

  2. 对数似然:

$\ln \mathcal{L} = \ln \binom{n}{k} + k \ln p + (n - k) \ln (1 - p) $
3. 求导解方程:
$\frac{\partial \ln \mathcal{L}}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \implies p^* = \frac{k}{n} $

结论:正面概率的 MLE 估计是观测频率 k n \frac{k}{n} nk

 

四、MLE 与大模型的关系

在大模型(如 GPT、BERT、ResNet)中,MLE 是训练目标的数学基础,但需结合工程技巧扩展:

  1. 损失函数设计

    • 交叉熵损失:分类任务中,最小化交叉熵等价于最大化对数似然。
      例如,语言模型预测下一个词的概率分布时,损失函数为:

      L = − ∑ t = 1 T ln ⁡ P ( w t ∣ w < t , θ ) \mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta) L=t=1TlnP(wtw<t,θ)

    • 均方误差(MSE):回归任务中,MSE 等价于假设数据服从高斯分布时的 MLE。

  2. 正则化与贝叶斯扩展

    • MLE 容易过拟合,大模型常加入正则化项(如 L2 正则),这等价于最大后验估计(MAP,贝叶斯框架下的 MLE 扩展)。

    • 贝叶斯神经网络将 MLE 推广为后验分布推断(如变分推断)。

  3. 优化算法

    • 大模型参数规模巨大(如 GPT-3 有 1750 亿参数),直接求解 MLE 不可行,需使用 随机梯度下降(SGD) 或其变体(如 Adam)近似优化。
  4. 生成模型中的应用

    • 生成对抗网络(GAN)和扩散模型中,生成器的训练隐式地最大化数据的似然。

    • 自回归模型(如 Transformer)显式地通过 MLE 学习序列数据的分布。

五、MLE 的局限性及应对
  1. 过拟合风险

    • 问题:MLE 倾向于拟合训练数据噪声。

    • 解决方案:加入正则化项,或使用贝叶斯方法引入先验。

  2. 数据稀疏性

    • 问题:小数据场景下,MLE 估计可能不准确。

    • 解决方案:数据增强、预训练(如 BERT 的 MLM 任务)。

  3. 非凸优化

    • 问题:复杂模型的似然函数可能非凸,陷入局部最优。

    • 解决方案:随机初始化、动量优化、学习率调度。


六、总结
  • 核心公式 θ ∗ = arg ⁡ max ⁡ θ ∑ i = 1 n ln ⁡ P ( x i ∣ θ ) \theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right) θ=argmaxθi=1nlnP(xiθ)

  • 应用场景:从经典统计到深度学习,MLE 是参数估计的基石。

  • 大模型中的角色

    • 直接指导损失函数设计(如交叉熵)。

    • 结合正则化和优化算法解决高维问题。

    • 生成模型和自回归模型的核心训练目标。

  • 哲学意义:MLE 体现了“让数据自己说话”的思想,但需通过技术手段平衡拟合与泛化。


文章转载自:

http://C9exnvsi.dyhLm.cn
http://w2b7utEk.dyhLm.cn
http://b7COovC3.dyhLm.cn
http://UdkL8fqT.dyhLm.cn
http://fEdgy7gB.dyhLm.cn
http://QDcHJQs5.dyhLm.cn
http://rgzO6ejW.dyhLm.cn
http://ldGPd0BP.dyhLm.cn
http://7zWd5Egv.dyhLm.cn
http://bKJXiUl1.dyhLm.cn
http://YJcuPyOg.dyhLm.cn
http://Lkndnxmm.dyhLm.cn
http://VBMuzlZn.dyhLm.cn
http://PyMo1Pgl.dyhLm.cn
http://xxCnPjOk.dyhLm.cn
http://R4FX52HG.dyhLm.cn
http://SlZvKjyq.dyhLm.cn
http://wfc4y635.dyhLm.cn
http://Lgrv9R0r.dyhLm.cn
http://WFMjM3MW.dyhLm.cn
http://G9qLycIe.dyhLm.cn
http://iKRPD5RR.dyhLm.cn
http://DeMXhNJ3.dyhLm.cn
http://7opQ3FQK.dyhLm.cn
http://e4WoYJ3V.dyhLm.cn
http://H6hh79B8.dyhLm.cn
http://Z16Kajsx.dyhLm.cn
http://LTUcGvFe.dyhLm.cn
http://396K4DHi.dyhLm.cn
http://2y7BVCNn.dyhLm.cn
http://www.dtcms.com/wzjs/718978.html

相关文章:

  • 北京 房地产 网站建设深圳市建工集团
  • 菠菜网站建设条件天津市住房和城乡建设厅官方网站
  • 简约网站设计欣赏商城网站多少钱
  • 龙岗网站建设网站排名优化南宁网站开发价格
  • 潍坊外贸网站优化做网站的带宽
  • 免费网站自助建站长治网站开发
  • 如皋做网站的政务网站建设相关文件
  • 嘉兴 网站 建设建筑行业新闻资讯
  • 完整网页开发网站建设与优化推广方案
  • 泉州手机网站建设wordpress 存储
  • 网站建设中 模版网站建设类型的好处
  • 企业制作网站网建服务
  • 网站标题符号昆明建设路租房信息昆明租房网站
  • wap网站开发价格网站开发基本工资是多少
  • 牡丹园网站建设店面设计图纸
  • 报名网站怎么做网站建设行业政策
  • 网站建设服务公司有用吗网站开发项目
  • 温州市手机网站制作多少钱网站建设比较好的
  • 读书网站怎么做广州3d网站开发
  • 网站都要交域名费么wordpress添加后台菜单
  • 南宁网站开发软件培训学校网站建设
  • 南通制作企业网站大型门户网站建设美丽
  • 深圳有实力的优化公司中山市企业网站seo营销工具
  • 网站维护外包方案图片抗锯齿网站
  • 有哪些做设计交易网站wordpress淘宝客单页模板下载
  • 兰州建设一个网站多少钱乐清建网站公司哪家好
  • 酒水招商网站大全关于网站制作的指标
  • 广东企业网站建设公司价格玩具网站模板
  • 京东网站设计代码天津大寺网站建设
  • 网站文档设置index.php自媒体发布平台