Delta、Jackknife、Bootstrap
用班级平均身高的案例,展示 Delta、Jackknife、Bootstrap 的完整计算过程。
0. 数据准备
原始数据(4个学生的身高):
真实均值(目标统计量):
1. Delta 方法(公式法)
目标:计算均值的方差
步骤 1:计算样本方差
具体计算:
步骤 2:计算均值的方差
Delta 方法结果
2. Jackknife 方法(刀切法)
目标:通过每次去掉一个数据点,计算均值的波动。
步骤 1:计算“去掉一个点”的均值
去掉的数据点 | 剩余数据 | 计算均值 |
---|---|---|
160cm | [170, 175, 185] | (170+175+185)/3 = 176.67 |
170cm | [160, 175, 185] | (160+175+185)/3 ≈ 173.33 |
175cm | [160, 170, 185] | (160+170+185)/3 ≈ 171.67 |
185cm | [160, 170, 175] | (160+170+175)/3 = 168.33 |
步骤 2:计算“伪值”(Pseudo-values)
伪值公式:
计算:
注:因为均值是线性统计量,伪值会还原出原始数据。但对非线性统计量(如中位数),伪值会体现每个数据点的影响。
步骤 3:计算伪值的方差
然后调整:
⚠️这里和 Delta 方法结果不同,原因是伪值计算方式对非线性统计量更准确,但对均值会略有偏差)
Jackknife 方法结果
3. Bootstrap 方法(自助法)
目标:通过重复抽样模拟均值分布,计算方差。
步骤 1:从原始数据中有放回抽样
我们进行 5 次抽样(实际中需 1000+ 次,这里简化演示):
抽样次数 | 抽到的数据(有放回) | 计算均值 |
---|---|---|
1 | [160, 170, 175, 185] | 172.5 |
2 | [170, 170, 175, 185] | (170+170+175+185)/4=175 |
3 | [160, 175, 185, 185] | (160+175+185+185)/4=176.25 |
4 | [160, 160, 170, 175] | (160+160+170+175)/4=166.25 |
5 | [170, 175, 175, 185] | (170+175+175+185)/4=176.25 |
步骤 2:计算这些均值的方差
⚠️ 由于抽样次数太少,结果不稳定,实际 1000+ 次会接近 27.08
Bootstrap 方法结果(5次抽样)
4. 最终对比
方法 | 计算方式 | 结果 | 备注 |
---|---|---|---|
Delta | 公式 | 27.08 | 最快,但依赖公式 |
Jackknife | 伪值方差调整 | 20.31 | 适用于无公式统计量 |
Bootstrap | 重复抽样计算方差 | ≈27.08(需大样本) | 最稳健,但计算量大 |
5. 关键结论
- Delta 最快,但必须知道公式(如均值、回归系数)。
- Jackknife 更通用,适合中位数等无公式统计量。
- Bootstrap 最稳健,但需要大量计算(通常抽 1000+ 次)。
6. 补充
如何理解“伪值”?
伪值 = 用“拆数据”的方式,模拟统计量对单个数据点的依赖程度。
想象你是班主任,想知道班上每个学生对“平均分”的影响有多大。于是你:
- 先计算全班平均分(比如80分);
- 让每个学生轮流请假,重新计算剩下学生的平均分;
- 比较“请假前后”的差异,这个差异就是该学生的“伪值”。
伪值的意义
- 如果某个学生请假后,平均分从80掉到75,说明他对班级影响很大(伪值低);
- 如果请假后平均分几乎不变,说明他影响小(伪值接近均值)。
Jackknife方法中伪值的计算公式
对统计量 T(如均值、中位数),伪值定义为:
其中:
- n:总数据量;
- T全量:用全部数据计算的统计量(如均值);
- T去掉第i个点:去掉第 i 个数据后重新计算的统计量。
伪值的核心作用
- 估计偏差:通过伪值的均值可以修正统计量的偏差。
- 计算方差:用伪值的方差推断原统计量的稳定性(如Jackknife方差公式)。
类比
- 伪值 ≈ “数据点的贡献值”,就像公司评估员工绩效:
- 全公司业绩 = 100万(T全量);
- 去掉员工A后业绩 = 90万(T−i);
- 员工A的伪值 = n×100−(n−1)×90=10(他对业绩的净贡献)。