正态分布全景解析:理论、推导与应用
正态分布全景解析:理论、推导与应用
目录
- 引言
- 正态分布的定义
- 密度函数的推导与归一化证明
- 标准化与线性变换性质
- 数字特征:期望、方差、矩母函数
- 经典性质与 68-95-99.7 法则
- 中心极限定理(CLT)概览
- 与其他分布的关系
- 思维导图
- 练习与思考
1. 引言
当随机误差来自众多独立微小因素的累积时,其分布往往逼近正态分布。这使得正态分布在自然科学、工程、金融乃至社科统计中占据核心地位。
2. 正态分布的定义
若连续随机变量 (X) 的概率密度函数(PDF)为
[
f_{X}(x)=\frac1{\sqrt{2\pi\sigma^{2}}};
\exp!\Bigl(-\frac{(x-\mu){2}}{2\sigma{2}}\Bigr),\qquad x\in\mathbb R ,
]
则称 (X) 服从均值 (\mu)、方差 (\sigma^{2}(>!0)) 的正态分布,记为
[
X\sim\mathcal N(\mu,\sigma^{2}).
]
特殊情形 (\mu=0,\ \sigma^{2}=1) 称为标准正态分布,记 (Z\sim\mathcal N(0,1))。
3. 密度函数的推导与归一化证明
3.1 推导动机
- 连续、对称、单峰——符合经验误差分布。
- 线性组合稳定(闭合性):独立正态之和仍正态。
- 最大熵原理:在给定均值与方差约束下,熵最大的分布。
3.2 归一化常数证明
需证
[
\int_{-\infty}{+\infty}\frac1{\sqrt{2\pi\sigma{2}}},
e{-(x-\mu){2}/2\sigma^{2}}\mathrm dx = 1.
]
取 (\mu=0,\sigma^{2}=1) 情况:
[
I = \int_{-\infty}{+\infty}e{-x^{2}/2}\mathrm dx.
]
计算思路(高斯积分):
- 设 (I^{2} = \bigl[\int_{-\infty}^{+\infty} e{-x{2}/2}\mathrm dx\bigr]
\bigl[\int_{-\infty}^{+\infty} e{-y{2}/2}\mathrm dy\bigr]
= \iint_{\mathbb R{2}}e{-(x{2}+y{2})/2}\mathrm dx\mathrm dy). - 改用极坐标 (x=r\cos\theta,\ y=r\sin\theta) :
[
I^{2} = \int_{0}{2\pi}!!\int_{0}{\infty} e{-r{2}/2} r ,dr,d\theta
= 2\pi \int_{0}^{\infty} r e{-r{2}/2}dr
= 2\pi[-e{-r{2}/2}]_{0}^{\infty}=2\pi .
]
故 (I=\sqrt{2\pi})。 - 推广到任意 (\mu,\sigma):令 (x=\sigma z+\mu),(\mathrm dx = \sigma\mathrm dz),可得归一化系数。
4. 标准化与线性变换性质
设 (X\sim\mathcal N(\mu,\sigma^{2})),则
[
Z=\frac{X-\mu}{\sigma}\sim\mathcal N(0,1).
]
反向:若 (Z\sim\mathcal N(0,1)),取 (X=aZ+b) 则 (X\sim\mathcal N(b,a^{2}))。
证明要点:利用变换公式 (f_{X}(x)=f_{Z}!\bigl(\tfrac{x-b}{a}\bigr)\tfrac1{|a|})。
5. 数字特征
- 期望
(\displaystyle\mathbb E[X]=\mu)(偶函数×奇函数积积分为 0)。 - 方差
(\displaystyle\operatorname{Var}(X)=\sigma^{2})。 - 矩母函数(MGF)
[
M_{X}(t)=\exp!\bigl(\mu t+\tfrac12\sigma{2}t{2}\bigr),\qquad t\in\mathbb R.
]
证明:计算 (E[e^{tX}]) 并完成平方项配方。 - 特征函数
(\phi_{X}(t)=\exp!\bigl(i\mu t-\tfrac12\sigma{2}t{2}\bigr))。
6. 经典性质与 68-95-99.7 法则
- (P(\mu\pm\sigma)\approx 68.27%)
- (P(\mu\pm2\sigma)\approx 95.45%)
- (P(\mu\pm3\sigma)\approx 99.73%)
推导:查标准正态表或用误差函数 erf 近似。
7. 中心极限定理(CLT)概览
设 ({X_i}) 独立同分布,(\mathbb E[X_i]=\mu,\ \operatorname{Var}(X_i)=\sigma^{2}<\infty)。
令
[
S_n=\frac{\sum_{i=1}^{n}X_i-n\mu}{\sigma\sqrt n},
]
则
[
\lim_{n\to\infty}P(S_n\le x)=\Phi(x),
]
其中 (\Phi) 为标准正态分布函数。
CLT 解释了正态分布在统计推断中的“万能”地位。
8. 与其他分布的关系
关系 | 说明 |
---|---|
卡方分布 | (\sum Z_i{2}\sim\chi{2}(k)) |
t 分布 | (\dfrac{Z}{\sqrt{V/k}}\sim t(k)) |
F 分布 | (\dfrac{(V_1/k_1)}{(V_2/k_2)}\sim F(k_1,k_2)) |
对数正态 | 若 (Y\sim\mathcal N(\mu,\sigma^{2})),则 (e^{Y}) 为对数正态 |
9. 思维导图
flowchart TD"正态分布" --> "定义""定义" --> "密度函数""密度函数" --> "归一化证明""密度函数" --> "标准化""标准化" --> "线性变换性质""密度函数" --> "数字特征""数字特征" --> "期望""数字特征" --> "方差""数字特征" --> "MGF/特征函数""正态分布" --> "经典性质""经典性质" --> "68-95-99.7""正态分布" --> "中心极限定理""中心极限定理" --> "样本均值近似""正态分布" --> "分布关系""分布关系" --> "卡方/t/F""分布关系" --> "对数正态""分布关系" --> "END"
10. 练习与思考
- 证明若 (X,Y) 独立且 (X\sim\mathcal N(\mu_1,\sigma_1^{2}),\ Y\sim\mathcal N(\mu_2,\sigma_2^{2})),则 (X+Y\sim\mathcal N(\mu_1+\mu_2,\sigma_1{2}+\sigma_2{2}))。
- 设传感器测量误差 (\varepsilon\sim\mathcal N(0,0.2^{2})),求误差绝对值大于 0.4 的概率。
- 推导误差函数 (\operatorname{erf}(x)) 与 (\Phi(x)) 的关系。
- 思考:为什么金融收益常常假设对数正态而非正态?
通过本文,你已掌握正态分布的来龙去脉:从密度函数的由来到数学性质,再到 CLT 赋予它的“万有”地位。带着练习继续深入,你会在数据分析与模型构建中不断遇到它的身影。