当前位置：首页 > news >正文

似然函数与极大似然估计

news 2025/9/24 1:34:06

前言

本文隶属于专栏《机器学习数学通关指南》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见《机器学习数学通关指南》

正文

在这里插入图片描述

📚 1. 似然函数：直观理解与数学定义

🧩 核心概念

似然函数是机器学习中参数估计的基石，它从数据与模型之间的关系出发，提供了一种优化参数的数学框架。

💡 直观理解：假设你正在调整相机参数以拍摄最清晰的照片。似然函数就像是一个"清晰度指标"，告诉你当前参数设置下能获得这张照片的可能性有多大。

📐 数学定义

对于参数 $\theta$ 和观测数据 $\mathbf{x} = \{x_1, x_2, ..., x_n\}$ ，似然函数 $L(\theta | \mathbf{x})$ 表示在参数取值为 $\theta$ 时观测到数据 $\mathbf{x}$ 的可能性：

离散随机变量：
$L(\theta | \mathbf{x}) = P(\mathbf{x}|\theta) = \prod_{i=1}^n P(X_i = x_i | \theta)$
连续随机变量：
$L(\theta | \mathbf{x}) = f(\mathbf{x}|\theta) = \prod_{i=1}^n f(x_i | \theta)$

其中 $P$ 是概率质量函数， $f$ 是概率密度函数。

🔄 似然函数 vs 概率函数

概率函数	似然函数
固定参数，变化数据	固定数据，变化参数
预测未来观测值	反推可能的参数值
积分/求和为1	无标准化约束

🎯 2. 极大似然估计(MLE)：原理与方法

🎲 基本思想

🎓 核心原则：在所有可能的参数值中，选择那个使得观测数据出现概率最大的参数值。

🧮 计算步骤

构建似然函数 $L(\theta|\mathbf{x})$
取对数转换： $\ell(\theta|\mathbf{x}) = \ln L(\theta|\mathbf{x})$ （简化计算，不改变最优解）
求导数： $\frac{\partial \ell(\theta|\mathbf{x})}{\partial \theta} = 0$
解方程：得到参数估计 $\hat{\theta}_{MLE}$

💻 Python实现示例

import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import minimize
from scipy.stats import norm

# 生成一些服从正态分布的数据
np.random.seed(42)
true_mean = 5
true_std = 2
data = np.random.normal(true_mean, true_std, size=100)

# 定义正态分布的负对数似然函数
def negative_log_likelihood(params):
    mean, std = params
    # 防止标准差为负
    if std <= 0:
        return 1e10
    # 计算负对数似然
    return -np.sum(norm.logpdf(data, mean, std))

# 使用优化方法找到最大似然估计值
initial_guess = [0, 1]  # 初始猜测值
result = minimize(negative_log_likelihood, initial_guess)
mle_mean, mle_std = result.x

print(f"真实参数: 均值={true_mean}, 标准差={true_std}")
print(f"MLE估计: 均值={mle_mean:.4f}, 标准差={mle_std:.4f}")

🔬 3. 关键性质与统计特点

📊 统计性质

一致性 ✓: 随着样本量增大，MLE估计值收敛到真实参数值
渐近正态性 ✓: 大样本条件下，MLE估计值近似服从正态分布
渐近有效性 ✓: 在正则条件下，MLE估计值达到克拉默-拉奥下界(最小方差)
不变性 ✓: 若 $\hat{\theta}$ 是 $\theta$ 的MLE，则 $g(\hat{\theta})$ 是 $g(\theta)$ 的MLE

⚠️ 局限性

小样本下可能有偏：如正态分布方差估计中，修正后的无偏估计为 $\hat{\sigma}^2 = \frac{n}{n-1} \cdot \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2$
依赖模型假设：模型错误指定会导致参数估计偏差
计算复杂性：复杂模型中可能需要数值优化方法

🧠 4. MLE与贝叶斯估计的对比

📝 思想差异

极大似然估计 (MLE)	最大后验估计 (MAP)	完全贝叶斯推断
$\hat{\theta}_{MLE} = \underset{\theta}{\operatorname{argmax}} \, L(\theta\|\mathbf{x})$	$\hat{\theta}_{MAP} = \underset{\theta}{\operatorname{argmax}} \, L(\theta\|\mathbf{x})P(\theta)$	$P(\theta\|\mathbf{x}) \propto L(\theta\|\mathbf{x})P(\theta)$
仅考虑似然	结合先验与似然	计算完整后验分布
点估计	点估计	分布估计
无超参数	需要先验超参数	需要先验超参数

🔄 实际应用选择

样本量大：MLE与MAP接近（先验影响减弱）
样本量小：先验信息重要性增加，贝叶斯方法优势明显
计算资源受限：MLE计算效率通常更高
需要不确定性量化：完全贝叶斯方法提供完整后验分布

🛠️ 5. 机器学习中的应用与实践

🤖 经典机器学习模型

逻辑回归：最大化条件似然函数
$L(\theta) = \prod_{i=1}^n p(y_i|x_i,\theta)^{y_i} \cdot (1-p(y_i|x_i,\theta))^{1-y_i}$ ，其中 $p(y|x,\theta) = \frac{1}{1+e^{-\theta^Tx}}$
线性回归：假设噪声服从正态分布，MLE等价于最小二乘法
$\hat{\theta}_{MLE} = (X^TX)^{-1}X^Ty$
高斯混合模型(GMM)：使用EM算法求解隐变量模型的MLE

💡 深度学习视角

交叉熵损失函数：实质上是分类问题的负对数似然
均方误差(MSE)：对应于高斯噪声假设下的负对数似然
神经网络训练：可视为对条件概率分布 $p(y|x,\theta)$ 的参数估计

📈 常见问题与解决方案

问题	解决方案	原理
过拟合	L1/L2正则化	等价于添加参数先验
数值问题	对数似然、梯度裁剪	避免数值下溢/上溢
多峰似然表面	多次随机初始化	跳出局部最优
计算效率	随机梯度下降(SGD)	基于数据子集近似更新

🧪 6. 案例分析与代码实践

📊 案例1：二项分布参数估计

假设从某二项分布 $B (n, p)$ 中抽取样本，其中 $n$ 已知，求 $p$ 的MLE：

# 假设我们有20次试验，每次10个伯努利试验，记录成功次数
trials = 10
successes = [4, 5, 6, 3, 7, 5, 4, 6, 5, 6, 
             7, 5, 4, 3, 6, 5, 4, 5, 6, 5]

# MLE估计
p_mle = sum(successes) / (trials * len(successes))
print(f"成功概率的MLE估计: p = {p_mle:.4f}")

# 95%置信区间（使用正态近似）
import scipy.stats as stats
std_err = np.sqrt(p_mle * (1 - p_mle) / (trials * len(successes)))
ci_95 = stats.norm.interval(0.95, loc=p_mle, scale=std_err)
print(f"95%置信区间: ({ci_95[0]:.4f}, {ci_95:.4f})")

📈 案例2：指数分布与生存分析

在生存分析中，假设时间服从指数分布 $f(t|\lambda) = \lambda e^{-\lambda t}$ ：

# 假设我们有一些生存时间数据(如设备故障时间)
survival_times = [2.5, 3.7, 0.5, 6.2, 4.1, 3.4, 2.8, 1.9, 5.6, 4.4]

# 指数分布的MLE估计
lambda_mle = 1 / np.mean(survival_times)
print(f"失效率参数λ的MLE估计: {lambda_mle:.4f}")
print(f"平均寿命(1/λ)的MLE估计: {1/lambda_mle:.4f}")

# 绘制数据与拟合分布
x = np.linspace(0, 10, 1000)
pdf_fitted = lambda_mle * np.exp(-lambda_mle * x)

plt.figure(figsize=(10, 6))
plt.hist(survival_times, bins=10, density=True, alpha=0.7, label='观测数据')
plt.plot(x, pdf_fitted, 'r-', linewidth=2, label=f'拟合指数分布(λ={lambda_mle:.4f})')
plt.xlabel('生存时间')
plt.ylabel('概率密度')
plt.legend()
plt.title('指数分布MLE拟合示例')
plt.grid(True, alpha=0.3)
plt.show()

🔍 案例3：多元高斯分布参数估计

在多变量数据分析中，对协方差矩阵的估计：

# 生成二元高斯分布数据
n_samples = 200
mean_true = np.array([1, 2])
cov_true = np.array([[2, 0.5], [0.5, 1]])

np.random.seed(42)
data = np.random.multivariate_normal(mean_true, cov_true, size=n_samples)

# MLE估计
mean_mle = np.mean(data, axis=0)
cov_mle = np.cov(data, rowvar=False)

print("真实均值向量:", mean_true)
print("MLE均值向量:", mean_mle)
print("\n真实协方差矩阵:")
print(cov_true)
print("\nMLE协方差矩阵:")
print(cov_mle)

# 可视化
plt.figure(figsize=(10, 6))
# 绘制数据点
plt.scatter(data[:, 0], data[:, 1], alpha=0.6)
# 添加真实均值与估计均值
plt.scatter(mean_true[0], mean_true, color='red', s=100, marker='*', label='真实均值')
plt.scatter(mean_mle[0], mean_mle, color='green', s=100, marker='+', label='MLE均值')
# 绘制95%置信椭圆
from matplotlib.patches import Ellipse
def plot_cov_ellipse(cov, pos, nstd=2, ax=None, **kwargs):
    """绘制协方差矩阵的置信椭圆"""
    if ax is None:
        ax = plt.gca()
    vals, vecs = np.linalg.eigh(cov)
    order = vals.argsort()[::-1]
    vals = vals[order]
    vecs = vecs[:, order]
    theta = np.degrees(np.arctan2(*vecs[:, 0][::-1]))
    width, height = 2 * nstd * np.sqrt(vals)
    ellip = Ellipse(xy=pos, width=width, height=height, angle=theta, **kwargs)
    return ax.add_patch(ellip)

# 绘制真实与估计的协方差椭圆
plot_cov_ellipse(cov_true, mean_true, nstd=2, 
                 edgecolor='red', facecolor='none', label='真实协方差')
plot_cov_ellipse(cov_mle, mean_mle, nstd=2, 
                 edgecolor='green', facecolor='none', label='MLE协方差')

plt.axis('equal')
plt.grid(True, alpha=0.3)
plt.legend()
plt.title('二元高斯分布MLE参数估计')
plt.show()

🚀 7. 前沿扩展与进阶技巧

🌐 正则化与惩罚似然

💫 问题背景：在高维或小样本情况下，MLE容易过拟合

解决方法：添加惩罚项控制复杂度，类似于引入参数先验

L2正则化 = 高斯先验： $\ell_{\text{penalized}}(\theta) = \ell(\theta) - \frac{\lambda}{2}\|\theta\|_2^2$
L1正则化 = 拉普拉斯先验： $\ell_{\text{penalized}}(\theta) = \ell(\theta) - \lambda\|\theta\|_1$