极大似然估计
最大似然估计法
最大似然估计又称极大似然估计,是一种利用给定样本观测值来评估模型参数的方法,其基本原理为:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。
分两种情况介绍最大似然估计的方法和步骤。
- 离散型总体
设离散型总体X的分布律为
P ( X = x ) = p ( x ; θ ) , P(X=x) = p(x; \theta), P(X=x)=p(x;θ),
其中 θ ∈ Θ \theta \in \Theta θ∈Θ为未知参数, Θ \Theta Θ为 θ \theta θ的所有可能取值范围(称为参数空间),则对于给定的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,样本的联合分布律为
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) = ∏ i = 1 n p ( x i ; θ ) . P(X_1 = x_1, X_2 = x_2, \cdots, X_n = x_n) = \prod_{i=1}^{n} p(x_i; \theta). P(X1=x1,X2=x2,⋯,Xn=xn)=i=1∏np(xi;θ).
称 L ( θ ) L(\theta) L(θ)为似然函数,它是未知参数 θ \theta θ 的函数。
- 连续型总体
设连续型总体 X X X的概率密度函数为 f ( x ; θ ) f(x; \theta) f(x;θ),其中 θ ∈ Θ \theta \in \Theta θ∈Θ 为未知参数, Θ \Theta Θ 为 θ \theta θ 的所有可能取值范围(称为参数空间),则对于给定的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,样本的联合概率密度为 ∏ i = 1 n f ( x i ; θ ) \prod_{i=1}^{n} f(x_i; \theta) ∏i=1nf(xi;θ),从而随机变量 X i X_i Xi落在点 x i x_i xi的邻域(其半径为 Δ x i \Delta x_i Δxi)内的概率可近似为
∏ i = 1 n f ( x i ; θ ) Δ x i . \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i. i=1∏nf(xi;θ)Δxi.
当 x i ( i = 1 , 2 , ⋯ , n ) x_i (i=1,2,\cdots,n) xi(i=1,2,⋯,n)取定时,它是 θ \theta θ 的函数,记为 L ( θ ) L(\theta) L(θ),称
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) Δ x i , θ ∈ Θ L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \Delta x_i, \theta \in \Theta L(θ)=i=1∏nf(xi;θ)Δxi,θ∈Θ
为似然函数。由于 Δ x i ( i = 1 , 2 , ⋯ , n ) \Delta x_i (i=1,2,\cdots,n) Δxi(i=1,2,⋯,n) 与 θ \theta θ 无关,故似然函数常取为
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) , θ ∈ Θ . L(\theta) = \prod_{i=1}^{n} f(x_i; \theta), \theta \in \Theta. L(θ)=i=1∏nf(xi;θ),θ∈Θ.
最大似然估计法是,根据抽样得到的样本观测值 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn来选取参数 θ \theta θ 的值,使样本观测值出现的可能性最大,即使似然函数 L ( θ ) L(\theta) L(θ)达到最大值,从而求得参数 θ \theta θ 的最大似然估计 θ ^ \hat{\theta} θ^。
当 L ( θ ) L(\theta) L(θ)是可微函数时,要使 L ( θ ) L(\theta) L(θ)取到最大值, θ \theta θ 必须满足方程
d L ( θ ) d θ = 0 , \frac{dL(\theta)}{d\theta} = 0, dθdL(θ)=0,
此方程称为似然方程。
而由于 L ( θ ) L(\theta) L(θ)是 n n n个函数的乘积,在求导时比较复杂,而 ln L ( θ ) \ln L(\theta) lnL(θ)是 L ( θ ) L(\theta) L(θ)的单调递增函数, ln L ( θ ) \ln L(\theta) lnL(θ)与 L ( θ ) L(\theta) L(θ)在同一点处取得最大值,因此求解上述似然方程可以转化为求解方程
d ln L ( θ ) d θ = 0 , \frac{d\ln L(\theta)}{d\theta} = 0, dθdlnL(θ)=0,
这个方程称为对数似然方程。
当总体 X X X的分布中有多个未知参数 θ 1 , θ 2 , ⋯ , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm时,似然函数就是这些参数的多元函数 L ( θ 1 , θ 2 , ⋯ , θ m ) L(\theta_1, \theta_2, \cdots, \theta_m) L(θ1,θ2,⋯,θm),则相应地有方程组。
{ ∂ ln L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ 1 = 0 , ∂ ln L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ 2 = 0 , ⋮ ∂ ln L ( θ 1 , θ 2 , ⋯ , θ m ) ∂ θ m = 0 , \begin{cases} \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_1} = 0, \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_2} = 0, \\ \vdots \\ \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_m)}{\partial \theta_m} = 0, \end{cases} ⎩ ⎨ ⎧∂θ1∂lnL(θ1,θ2,⋯,θm)=0,∂θ2∂lnL(θ1,θ2,⋯,θm)=0,⋮∂θm∂lnL(θ1,θ2,⋯,θm)=0,
由此方程组解得 θ 1 , θ 2 , ⋯ , θ m \theta_1, \theta_2, \cdots, \theta_m θ1,θ2,⋯,θm的最大似然估计值 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m \hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_m θ^1,θ^2,⋯,θ^m.
综上,可得求最大似然估计的一般步骤:
(1) 写出似然函数 L ( θ ) = L ( x 1 , x 2 , ⋯ , x n , θ ) L(\theta) = L(x_1, x_2, \cdots, x_n, \theta) L(θ)=L(x1,x2,⋯,xn,θ);
(2) 令 d L ( θ ) d θ = 0 \frac{dL(\theta)}{d\theta} = 0 dθdL(θ)=0 或 d ln L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0,求出驻点;
(3) 判断并求出最大值点,用样本值代入就是参数的最大似然估计值。
注:
(1) 当似然函数关于未知参数不可微时,只能按最大似然原理计算最大值点;
(2) 上述的一般步骤对含有多个未知参数的情形同样适用,只需将求导数变为求偏导数;
(3) 称 d ln L ( θ ) d θ = 0 \frac{d\ln L(\theta)}{d\theta} = 0 dθdlnL(θ)=0 为对数似然方程,称 ∂ ln L ( θ 1 , θ 2 , ⋯ , θ n ) ∂ θ i = 0 \frac{\partial \ln L(\theta_1, \theta_2, \cdots, \theta_n)}{\partial \theta_i} = 0 ∂θi∂lnL(θ1,θ2,⋯,θn)=0, i = 1 , 2 , ⋯ , n i=1,2,\cdots,n i=1,2,⋯,n 为对数似然方程组。