数据分析笔记06:假设检验
数据分析笔记06:假设检验
1. 假设检验基本概念
定义:假设检验是对已经存在的结论或主张进行统计验证的过程。
基本流程:
- 将已有结论称为“假设”。
- 对假设的求证过程称为“检验”(Test)。
- 通过概率统计方式证实结论是否正确。
2. 原假设与备择假设
基本原则
- 互斥性:原假设(H0H_0H0)和备择假设(H1H_1H1)互斥,不可能同时成立。
- 完整性:两个假设涵盖所有可能情况。
建立思路
思路一:将研究中的假设作为备择假设。
- 适用于验证新方法、新技术的改善效果。
- 例:新型燃油喷射系统案例。
- H0:μ≤26H_0: \mu \leq 26H0:μ≤26(旧系统效率)。
- H1:μ>26H_1: \mu > 26H1:μ>26(新系统更好)。
思路二:将受到挑战的假设作为原假设。
- 适用于质疑现有标准或声明。
- 例:瓶装饮料含量案例。
- H0:μ≥350mlH_0: \mu \geq 350 \text{ml}H0:μ≥350ml(符合标签声明)。
- H1:μ<350mlH_1: \mu < 350 \text{ml}H1:μ<350ml(质疑标签)。
假设检验的三种形式
| 检验类型 | 原假设(H0H_0H0) | 备择假设(H1H_1H1) | 特点 |
|---|---|---|---|
| 下侧检验 | μ≥μ0\mu \geq \mu_0μ≥μ0 | μ<μ0\mu < \mu_0μ<μ0 | 单侧检验 |
| 上侧检验 | μ≤μ0\mu \leq \mu_0μ≤μ0 | μ>μ0\mu > \mu_0μ>μ0 | 单侧检验 |
| 双侧检验 | μ=μ0\mu = \mu_0μ=μ0 | μ≠μ0\mu \neq \mu_0μ=μ0 | 双侧检验 |
记忆技巧:看备择假设的符号快速判断检验类型。
3. 假设检验中的两类错误
第一类错误(Type I Error):
- 定义:错误地拒绝了正确的原假设。
- 符号:α\alphaα(阿尔法)。
- 意义:当原假设为真时,却拒绝了它。
- 控制:通过设定显著性水平控制犯错概率。
第二类错误(Type II Error):
- 定义:错误地接受了错误的原假设。
- 符号:β\betaβ(贝塔)。
- 意义:当备择假设为真时,却接受了原假设。
- 特点:在显著性检验中通常不控制。
4. 显著性水平(Significance Level)
定义:当原假设为真且以等式形式存在时,犯第一类错误的概率。
常用取值:
- α=0.05\alpha = 0.05α=0.05(常用)。
- α=0.01\alpha = 0.01α=0.01(严格)。
- α=0.10\alpha = 0.10α=0.10(宽松)。
选择原则:
- 第一类错误成本高 → 选择较小的α\alphaα值。
- 第一类错误成本低 → 可选择较大的α\alphaα值。
重要提醒:由于只控制第一类错误,结论只能是“拒绝原假设”或“不拒绝原假设”,不能说“接受原假设”。
5. 假设检验的实施步骤
Step 1: 建立假设。
- 根据研究问题确定H0H_0H0和H1H_1H1。
- 确保两假设互斥且完整。
Step 2: 确定显著性水平。
- 选择适当的α\alphaα值。
- 考虑犯错成本和研究要求。
Step 3: 收集样本数据并计算检验统计量。
检验统计量公式(总体标准差已知):
Z=Xˉ−μ0σ/n Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} Z=σ/nXˉ−μ0
其中:
- Xˉ\bar{X}Xˉ:样本均值。
- μ0\mu_0μ0:假定的总体均值。
- σ\sigmaσ:总体标准差。
- nnn:样本容量。
Step 4: 做出统计决策。
使用P值法或临界值法判断是否拒绝原假设。
6. 两种检验方法详解
方法一:P值法(P-value Method)
基本概念:
- P值:当原假设为真时,得到观察样本或更极端样本的概率。
- 意义:P值越小,拒绝原假设的证据越强。
计算方法:
单侧检验:
- 下侧检验:P=P(Z≤z)P = P(Z \leq z)P=P(Z≤z)。
- 上侧检验:P=P(Z≥z)P = P(Z \geq z)P=P(Z≥z)。
双侧检验:
P=2×P(Z≥∣z∣) P = 2 \times P(Z \geq |z|) P=2×P(Z≥∣z∣)
判断规则:
- 如果P值 < α\alphaα:拒绝H0H_0H0。
- 如果P值 ≥ α\alphaα:不拒绝H0H_0H0。
方法二:临界值法(Critical Value Method)
基本概念:
- 临界值:在给定显著性水平下,划分接受域和拒绝域的分界值。
临界值确定:
单侧检验:
- 下侧检验:−Zα-Z_{\alpha}−Zα。
- 上侧检验:ZαZ_{\alpha}Zα。
双侧检验:
- 左侧临界值:−Zα/2-Z_{\alpha/2}−Zα/2。
- 右侧临界值:Zα/2Z_{\alpha/2}Zα/2。
判断规则:
下侧检验:
- 如果Z≤−ZαZ \leq -Z_{\alpha}Z≤−Zα:拒绝H0H_0H0。
- 如果Z>−ZαZ > -Z_{\alpha}Z>−Zα:不拒绝H0H_0H0。
上侧检验:
- 如果Z≥ZαZ \geq Z_{\alpha}Z≥Zα:拒绝H0H_0H0。
- 如果Z<ZαZ < Z_{\alpha}Z<Zα:不拒绝H0H_0H0。
双侧检验:
- 如果∣Z∣≥Zα/2|Z| \geq Z_{\alpha/2}∣Z∣≥Zα/2:拒绝H0H_0H0。
- 如果∣Z∣<Zα/2|Z| < Z_{\alpha/2}∣Z∣<Zα/2:不拒绝H0H_0H0。
7. 实务案例分析
案例一:咖啡含量检验(下侧检验)
背景:FTC检验Hill Top咖啡是否符合标签声明的3磅含量。
假设建立:
- H0:μ≥3H_0: \mu \geq 3H0:μ≥3(符合声明)。
- H1:μ<3H_1: \mu < 3H1:μ<3(含量不足)。
- α=0.01\alpha = 0.01α=0.01。
样本结果:
- 样本均值:Xˉ=2.90\bar{X} = 2.90Xˉ=2.90。
- 样本容量:n=40n = 40n=40。
- 总体标准差:σ=0.20\sigma = 0.20σ=0.20。
计算检验统计量:
Z=2.90−30.20/40=−0.100.0316≈−3.16 Z = \frac{2.90 - 3}{0.20 / \sqrt{40}} = \frac{-0.10}{0.0316} \approx -3.16 Z=0.20/402.90−3=0.0316−0.10≈−3.16
P值法判断:
- P值 = P(Z≤−3.16)≈0.0008P(Z \leq -3.16) \approx 0.0008P(Z≤−3.16)≈0.0008。
- 由于0.0008 < 0.01,拒绝H0H_0H0。
临界值法判断:
- 临界值:−Z0.01=−2.33-Z_{0.01} = -2.33−Z0.01=−2.33。
- 由于-3.16 < -2.33,拒绝H0H_0H0。
结论:有足够证据表明咖啡含量不足。
案例二:高尔夫球驱动距离检验(双侧检验)
背景:Max Flight公司检验新工艺是否维持295码的标准驱动距离。
假设建立:
- H0:μ=295H_0: \mu = 295H0:μ=295(符合标准)。
- H1:μ≠295H_1: \mu \neq 295H1:μ=295(偏离标准)。
- α=0.05\alpha = 0.05α=0.05。
样本结果:
- 样本均值:Xˉ=298.2\bar{X} = 298.2Xˉ=298.2。
- 样本容量:n=60n = 60n=60。
- 总体标准差:σ=15\sigma = 15σ=15。
计算检验统计量:
Z=298.2−29515/60=3.21.936≈1.65 Z = \frac{298.2 - 295}{15 / \sqrt{60}} = \frac{3.2}{1.936} \approx 1.65 Z=15/60298.2−295=1.9363.2≈1.65
P值法判断:
- P值 = 2×P(Z≥1.65)=2×(1−0.9505)≈0.0992 \times P(Z \geq 1.65) = 2 \times (1 - 0.9505) \approx 0.0992×P(Z≥1.65)=2×(1−0.9505)≈0.099。
- 由于0.099 > 0.05,不拒绝H0H_0H0。
临界值法判断:
- 临界值:±Z0.025=±1.96\pm Z_{0.025} = \pm 1.96±Z0.025=±1.96。
- 由于∣1.65∣<1.96|1.65| < 1.96∣1.65∣<1.96,不拒绝H0H_0H0。
结论:没有足够证据表明驱动距离偏离标准。
8. 关键要点总结
-
概念理解要点:
- 假设检验的本质:用样本信息对总体参数进行推断。
- 两类错误的权衡:控制第一类错误,警惕第二类错误。
- 结论表述的谨慎性:只能“拒绝”或“不拒绝”,不能“接受”。
-
实务操作要点:
- 假设建立的逻辑性:根据研究目的选择合适的假设形式。
- 显著性水平的选择:平衡第一类错误成本与检验灵敏度。
- 计算的准确性:检验统计量、P值、临界值的精确计算。
-
方法选择建议:
- P值法优势:提供更丰富的信息,易于理解证据强度。
- 临界值法优势:直观明确,便于标准化操作。
- 实际应用:两种方法结果一致,可相互验证。
9. 延伸思考
-
假设检验的局限性:
- 只能控制第一类错误,第二类错误难以量化。
- 样本大小对检验效力的影响。
- 实际意义与统计意义的区别。
-
实际应用考虑:
- 如何在实务中平衡两类错误的成本。
- 多重比较问题及其解决方案。
- 非参数检验方法的选择时机。
