概率论直觉(二):方差与期望
显然,我们需要先理解方差到底是什么,才能明白它为什么会这样变化。
方差衡量的是数值与其平均值(期望值)的离散程度。
对于一次抛硬币,正面朝上 = 1,反面朝上 = 0:
期望值(平均值)= 1/2
方差 = (与平均值的偏差)² 的期望值
因此:Var(X) = (1 - 1/2)² · (1/2) + (0 - 1/2)² · (1/2) = 1/8 + 1/8 = 1/4
现在,关键性质是,当随机变量相互独立并求其平均值时,有一个公式:
Var((X₁ + X₂ + ... + Xn)/n) = Var(X₁ + X₂ + ... + Xn)/n²
对于独立变量:Var(X₁ + X₂ + ... + Xn) = Var(X₁) + Var(X₂) + ... + Var(Xn) = n · (1/4)
因此:Var(平均值) = n · (1/4) / n² = 1/(4n)
总和的方差随 n 增大而增大,但当我们除以 n 得到平均值时,方差公式中除以的是 n²。这就是为什么方差会减小。
当然,需要注意的是,期望值和均值(平均值)是不同的概念!这一点至关重要。
期望值是理论值,它是我们根据概率预测的值。例如,对于一枚正面朝上的概率为 1/2 的硬币,期望值就是 1/2。我们在抛硬币之前就知道这一点。这是概率分布本身的属性。
均值(平均值)是经验值,它是我们抛硬币时实际观察到的值。如果我抛 10 枚硬币,得到 6 个正面,那么均值就是 6/10 = 0.6。
大数定律指出:随着样本量 n 的增大,观察到的均值会趋近于理论期望值。
所以,抛一枚硬币:期望值 = 1/2(我们从概率论中得知),单次抛掷的方差 = 1/4(衡量围绕期望值的离散程度)。
抛 n 枚硬币:平均值的期望值仍然是 1/2,但平均值的方差 = 1/(4n), 方差变小了!方差越小,意味着观测到的平均值越集中在 1/2 附近。
期望值来源于模型,是我们对世界运行方式的理论假设,比如:均匀的硬币,均匀的骰子,许多一模一样的小球……所以,即使不进行任何真实的实验,这些场景的期望可以被直接定义出来。然后,在现实中,随着真实实验的次数的增加,均值的果然越来越接近于期望……这就是大数定律,是概率论故事的起点。
大数定律就像一座桥梁,它告诉我们“如果你的模型是正确的,那么现实最终会与它相符……只要有足够的数据。” 这就是概率论如此强大的原因,它将抽象的数学模型与可观察的现实联系起来!
切比雪夫不等式是使证明严谨的工具。它说:对于任何期望值为 μ、方差为 σ² 的随机变量,其远离 μ 的概率是有限的:
P(|X - μ| ≥ ε) ≤ σ²/ε²
用文字表述:“偏离期望值 ε 或以上的概率至多为方差除以 ε² ”,所以对于我们方差为 1/(4n) 的硬币平均值:
P(|平均值 - 1/2| ≥ ε) ≤ 1/(4nε²)
当 n → ∞ 时,等式右边趋近于 0。因此,远离 1/2 的概率为零!切比雪夫定理为我们提供了证明收敛性的数学工具。
