当前位置：首页 > news >正文

【概率论基本概念02】最大似然性

news 2025/7/11 19:16:07

一、说明

最大似然性估计到底是啥？我们从总体随机抽样中如何得到总体分布的参数？有个“独立同分布”的意味着什么？本文将给出详细叙述。

二、对分布参数估计的目标

假设我们有一个随机样本 $(X_1, X_2, \cdots, X_n)$ ，其假设概率分布取决于某个未知参数 $\theta$ 。我们的主要目标是找到一个点估计量 $u(X_1, X_2, \cdots, X_n)$ ，使得 $u(x_1, x_2, \cdots, x_n)$ 是 $\theta$ 的一个“良好”点估计，其中 $x_1, x_2, \cdots, x_n$ 是随机样本的观测值。例如，如果我们计划采取一个随机样本 $X_1，X_2，\cdots，X_n$ ，其中 $X_i$ 假设为正态分布，平均值为 $\mu$ 且方差为 $\sigma^2$ ，那么我们的目标就是找到 $\mu$ 的一个很好的估计值，比如，使用我们从特定随机样本中获得的数据 $x_1，x_2，\cdots，x_n$ 。

$(X_1, X_2, \cdots, X_n)$ 其假设概率分布取决于某些未知参数 $\theta$ 。我们的主要目标是找到一个点估计器 $u(X_1, X_2, \cdots, X_n)$ ，这样 $u(x_1, x_2, \cdots, x_n)$ 是一个“好的”点估计 $\theta$ ，在这里 $x_1, x_2, \cdots, x_n$ 是随机样本的观测值。例如，如果我们计划随机抽取一个 $X_1，X_2，\cdots，X_n$
为此 $X_i$ 假设呈正态分布，平均值 $\mu$ 和方差 $\sigma^2$ ，那么我们的目标就是找到一个好的估计 $\mu$ 例如，使用数据 $x_1, x_2, \cdots, x_n$ 我们从特定的随机样本中获得。

三、基本实现思想

似乎合理的是，未知参数 $\theta$ 的一个合理估计值应该是使概率（也就是似然值）最大化的 $\theta$ 值，从而得到我们观察到的数据。（那么，你知道“最大似然”这个名字是怎么来的吗？）简而言之，这就是最大似然估计方法背后的思想。但是，我们如何在实践中实现这个方法呢？假设我们有一个随机样本 $X_1, X_2, \cdots, X_n$ ，其中每个 $X_i$ 的概率密度（或质量）函数为 $f(x_i;\theta)$ 。那么， $X_1, X_2, \cdots, X_n$ 的联合概率质量（或密度）函数称之为 $L(\theta)$ ，其含义如下：
$L(\theta)=P(X_1=x_1,X_2=x_2,\ldots,X_n=x_n)=f(x_1;\theta)\cdot f(x_2;\theta)\cdots f(x_n;\theta)=\prod\limits_{i=1}^n f(x_i;\theta)$

第一个等式当然只是联合概率质量函数的定义。第二个等式源于我们有一个随机样本，这意味着根据定义， $X_i$ 它们是独立的。最后一个等式只是使用了指标项乘积的简写数学符号。现在，根据最大似然估计的基本思想，一个合理的方法是将“似然函数 $L(\theta)$ ”视为 $\theta$ 的函数，并找到使 $L(\theta)$ 最大化的 $\theta$ 值。这听起来还是太抽象了？让我们看一个例子，以便让它更具体一些。

四、示例 1-1

假设我们有一个随机样本 $X_1, X_2, \cdots, X_n$ 在这里：

$X_i=0$ 如果随机选择的学生没有跑车，并且
$X_i=1$ 如果随机选择的学生确实拥有一辆跑车。
假设 $X_i=1$ 是具有未知参数的独立伯努利随机变量 $p$ ，找到的最大似然估计 $p$ ，即拥有跑车的学生比例。

回答
如果 $X_i=1$ 是具有未知参数的独立伯努利随机变量 $p$ ，则每个概率密度函数是：
$f(x_i;p)=p^{x_i}(1-p)^{1-x_i}$
为了 $x_i=0或 1$ 和 $0 < p < 1$ 。因此，似然函数 $L (p)$ 根据定义：
$L(p)=\prod\limits_{i=1}^nf(x_i;p)=p^{x_1}(1-p)^{1-x_1}\times p^{x_2}(1-p)^{1-x_2}\times \cdots \times p^{x_n}(1-p)^{1-x_n}$
为了 $0 < p < 1$ 。通过对指数求和，我们得到：
$L(p)=p^{\sum x_i}(1-p)^{n-\sum x_i}$
现在，为了实现最大似然法，我们需要找到 $p$ 最大化可能性 $L (p)$
我们现在需要运用微积分知识，因为为了最大化函数，我们需要对似然函数进行微分 $p$ 。为此，我们将使用一个“技巧”，这通常会使微分更容易一些。注意，利用自然对数函数ln（x）。
在这里插入图片描述
也就是说，如果 $x_1<x_2$ ，然后 $f(x_1)<f(x_2)$ 。这意味着 $p$
最大化似然函数的自然对数 $\ln L(p)$ 也是 $p$ 最大化似然函数 $L (p)$ 。所以，“诀窍”是取 $\ln L(p)$ 的导数（而不是取$ L§$的导数）。这样做会使问题更容易解决。
在这种情况下，似然函数的自然对数为：
$\text{log}L(p)=(\sum x_i)\text{log}(p)+(n-\sum x_i)\text{log}(1-p)$
现在，取对数似然的导数，并将其设置为 0，我们得到：
$\displaystyle{\frac{\partial \log L(p)}{\partial p}=\frac{\sum x_{i}}{p}-\frac{\left(n-\sum x_{i}\right)}{1-p} \stackrel{SET}{\equiv} 0}$
经过简化得到：
$\sum x_i-np=0$
现在我们要做的就是求解p
$\hat{p}=\dfrac{\sum\limits_{i=1}^n x_i}{n}$
或者，估算器：
$\hat{p}=\dfrac{\sum\limits_{i=1}^n X_i}{n}$
技术上来说，我们应该验证一下我们确实得到了最大值。我们可以通过验证对数似然函数的二阶导数p是负面的。确实如此，但你可能需要做一些工作来说服自己！

五、正规定义

定义：给定 $X_1, X_2, \cdots, X_n$ 是来自依赖于一个或多个未知参数的分布的随机样本。 $\theta_1, \theta_2, \cdots, \theta_m$ 具有概率密度（或质量）函数 $f（x_i；\theta_1，\theta_2，\cdots，\theta_m）$
.假设 $\theta_1, \theta_2, \cdots, \theta_m$ 限制在给定的参数空间 $\Omega$ 内。然后：

1 对于随机样本 $X_1, X_2, \cdots, X_n$ 的密度函数 $f$ 的联合分布是
$L(\theta_1,\theta_2,\ldots,\theta_m)=\prod\limits_{i=1}^n f(x_i;\theta_1,\theta_2,\ldots,\theta_m)$

被称为( $\theta_1, \theta_2, \cdots, \theta_m\in \Omega$ ) 称为似然函数。

2 如果元组 $[u_1(x_1,x_2,\ldots,x_n),u_2(x_1,x_2,\ldots,x_n),\ldots,u_m(x_1,x_2,\ldots,x_n)]$ 足以达到最大化似然化，那么 $\hat{\theta}_i=u_i(X_1,X_2,\ldots,X_n)$ 就是 $\theta_1, \theta_2, \cdots, \theta_m$ 的极大似然估计器。

3 相应的统计数据的观测值（2）即：
$[u_1(x_1,x_2,\ldots,x_n),u_2(x_1,x_2,\ldots,x_n),\ldots,u_m(x_1,x_2,\ldots,x_n)]$

被称为最大似然估计 $\theta_i$ ,此处 $\cdots, m$ 。

六、一个示例

令 $X_1，X_2，\cdots，X_n$ 是来自均值未知的正态分布的随机样本 $\mu$ 和方差 $\sigma^2$ . 找到均值的最大似然估计和方差 $\mu$ 和方差 $\sigma^2$ 。

回答
在寻找估计量时，我们要做的第一件事就是将概率参数写为
$\theta_1=\mu$ 和 $\theta_2=\sigma^2$
于是密度函数：
$f(x_i;\theta_1,\theta_2)=\dfrac{1}{\sqrt{\theta_2}\sqrt{2\pi}}\text{exp}\left[-\dfrac{(x_i-\theta_1)^2}{2\theta_2}\right]$
参数空间： $-\infty<\theta_1<\infty \text{ 和 }0<\theta_2<\infty$
现在，这就得到了似然函数：
$L(\theta_1,\theta_2)=\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2)=\theta^{-n/2}_2(2\pi)^{-n/2}\text{exp}\left[-\dfrac{1}{2\theta_2}\sum\limits_{i=1}^n(x_i-\theta_1)^2\right]$
因此似然函数的对数为：
$\text{log} L(\theta_1,\theta_2)=-\dfrac{n}{2}\text{log}\theta_2-\dfrac{n}{2}\text{log}(2\pi)-\dfrac{\sum(x_i-\theta_1)^2}{2\theta_2}$
现在，对对数似然函数求偏导数 $\theta_1$ 和 $\theta_2$ ，并将其设置为 0，我们会看到一些事情相互抵消，剩下：
$\displaystyle{\frac{\partial \log L\left(\theta_{1}, \theta_{2}\right)}{\partial \theta_{1}}=\frac{-\color{red} \cancel {\color{black}2} \color{black}\sum\left(x_{i}-\theta_{1}\right)\color{red}\cancel{\color{black}(-1)}}{\color{red}\cancel{\color{black}2} \color{black} \theta_{2}} \stackrel{\text { SET }}{\equiv} 0}$
现在，乘以 $\theta_2$ ，并分配总和，我们得到：
$\sum x_i-n\theta_1=0$
现在，求解 $\theta_1$ ，并戴上帽子，我们已经证明了 $\theta_1$ 是：
$\hat{\theta}_1=\hat{\mu}=\dfrac{\sum x_i}{n}=\bar{x}$

现在求 $\theta_2$ . 对对数似然取偏导数 $\theta_2$ ，并设置为 0，我们得到：
$\displaystyle{\frac{\partial \log L\left(\theta_{1}, \theta_{2}\right)}{\partial \theta_{2}}=-\frac{n}{2 \theta_{2}}+\frac{\sum\left(x_{i}-\theta_{1}\right)^{2}}{2 \theta_{2}^{2}} \stackrel{\text { SET }}{\equiv} 0}$

乘以 $2\theta_2^2$ ：
$\displaystyle{\frac{\partial \log L\left(\theta_{1}, \theta_{2}\right)}{\partial \theta_{1}}=\left[-\frac{n}{2 \theta_{2}}+\frac{\sum\left(x_{i}-\theta_{1}\right)^{2}}{2 \theta_{2}^{2}} \stackrel{s \epsilon \epsilon}{\equiv} 0\right] \times 2 \theta_{2}^{2}}$
得到：
$-n\theta_2+\sum(x_i-\theta_1)^2=0$
并且，求解 $\theta_2$ ，并戴上帽子，我们已经证明了 $\theta_2$ 是:
$\hat{\theta}_2=\hat{\sigma}^2=\dfrac{\sum(x_i-\bar{x})^2}{n}$
以上证明了：
$\hat{\mu}=\dfrac{\sum X_i}{n}=\bar{X}$
$\hat{\sigma}^2=\dfrac{\sum(X_i-\bar{X})^2}{n}$