t检验、z检验、χ²检验中的P值
用 t检验、 z检验 、χ²检验的实际例子来解释 P值。
1. P值核心定义
P值 就是:在假设原假设(H₀)成立的情况下,我们观察到的数据(或更极端情况)出现的概率。
- P值小(如 <0.05) → 说明当前数据在原假设下不太可能发生,所以拒绝H₀
- P值大(如 >0.05) → 说明当前数据在原假设下是合理的,无法拒绝H₀
P值怎么计算来的?
2. 用Z检验(已知总体标准差)举例
场景:某工厂生产灯泡,标准寿命是1200小时(标准差σ=100)。新工艺生产了100个灯泡,平均寿命1220小时。新工艺真的比旧工艺更好吗?
步骤1:设定假设
- H₀(原假设):新工艺没区别,均值μ=1200
- H₁(备择假设):新工艺更好,μ>1200
步骤2:计算Z统计量
步骤3:计算P值
Z=2 对应的P值 = P(Z ≥ 2) ≈ 0.0228(查标准正态表)
P值的解释
- 如果H₀成立(新工艺没区别),出现1220小时或更高的概率只有2.28%
- 这个概率很低(<5%),所以我们拒绝H₀,认为新工艺可能真的更好
3. 用t检验(未知总体标准差)举例
场景:某减肥药声称平均减重5kg。10人服用后,平均减重6kg,样本标准差s=2kg。真的有效吗?
步骤1:设定假设
- H₀(原假设):减肥药无效,均值μ=5
- H₁(备择假设):减肥药有效,μ>5
步骤2:计算t统计量
步骤3:计算P值
自由度df=9,查t分布表,P(t ≥1.58) ≈ 0.074
P值的解释
- 如果H₀成立(减肥药无效),出现6kg或更高减重的概率是7.4%
- 这个概率不算很低(>5%),所以我们无法拒绝H₀,不能确定减肥药真的有效
4.用χ²检验举例
场景:广告点击率分析。某电商平台测试了两种广告(A和B),观察用户的点击行为,数据如下:
广告类型 | 点击 | 未点击 | 总计 |
---|---|---|---|
广告A | 120 | 80 | 200 |
广告B | 90 | 110 | 200 |
总计 | 210 | 190 | 400 |
问题:广告A和广告B的点击率是否有显著差异?
步骤1:设定假设
- H₀(原假设):广告A和广告B的点击率无差异(即广告类型不影响点击率)
- H₁(备择假设):广告A和广告B的点击率有差异
步骤2:计算期望频数
如果H₀成立(广告类型不影响点击率),那么广告A和广告B的点击率应该和总体一致:
- 总体点击率 = 210/400 = 52.5%
- 总体未点击率 = 190/400 = 47.5%
因此,广告A和广告B的期望点击和未点击数为:
广告类型 | 点击(期望) | 未点击(期望) |
---|---|---|
广告A | 200×52.5% = 105 | 200×47.5% = 95 |
广告B | 200×52.5% = 105 | 200×47.5% = 95 |
步骤3:计算卡方统计量(χ²)
卡方检验衡量观察值(O)和期望值(E)的偏离程度:
计算每一项的贡献:
广告类型 | 点击 (O-E)²/E | 未点击 (O-E)²/E |
---|---|---|
广告A | (120-105)²/105 ≈ 2.14 | (80-95)²/95 ≈ 2.37 |
广告B | (90-105)²/105 ≈ 2.14 | (110-95)²/95 ≈ 2.37 |
总卡方值 = 2.14 + 2.37 + 2.14 + 2.37 ≈ 9.02
步骤4:计算P值
- 自由度(df) = (行数-1) × (列数-1) = (2-1)×(2-1) = 1
- 查卡方分布表,χ²=9.02, df=1 对应的P值 ≈ 0.0027
P值的解释
- P=0.0027 意味着:如果H₀成立(广告A和B无差异),出现这种极端数据的概率只有0.27%
- 这个概率极低(<0.05),所以我们拒绝H₀,认为广告A和B的点击率确实有显著差异
5. 对比三种检验的P值逻辑
三种检验的核心逻辑一致:
- 建立H₀(假设“无效应”或“无关联”)
- 计算统计量(Z/t/χ²)→ 反映实际数据与H₀的偏离程度
- 计算P值 → 在H₀成立下,偏离程度≥当前观测值的概率
- 决策:
- 小概率事件(P小) → 偏离程度大 → 拒绝H₀
- 常见事件(P大) → 偏离程度小 → 无法拒绝H₀
检验方法 | 适用场景 | 检验目的 | 统计量计算公式 | P值计算 | P值解释 |
---|---|---|---|---|---|
Z检验 | 已知总体标准差(σ) + 大样本(n>30) | 检验均值差异 | ![]() | P(Z ≥ |z|) (双尾) | 若H₀成立,出现当前 |z| 或更大值的概率 |
t检验 | 未知σ + 小样本(n≤30) | 检验均值差异 | ![]() | P(t ≥ |t|) (双尾) | 若H₀成立,出现当前 |t| 或更大值的概率 |
卡方检验 | 分类变量(如性别与偏好) | 检验变量间的关联性 | ![]() | P(χ² ≥ χ²值) | 若H₀成立,出现当前 χ² 或更大值的概率 |
注:单尾检验时 P 值直接取 P(Z≥z) 或 P(t≥t)(以实际假设方向为准)。
关键点:
- P值不是“H₀为真的概率”,而是“如果H₀为真,数据有多极端”
- P值越小,说明数据越不符合H₀,越有理由拒绝H₀(但也要结合样本量、效应大小)
- P>0.05 ≠ 证明H₀正确,只是“证据不足”
6. 现实比喻
- Z检验:你知道全班考试平均分(μ)和标准差(σ),判断某个班的成绩是否异常。
- t检验:你只知道样本数据,用样本标准差(s)去估计总体情况。
- χ²检验:调查“性别是否影响购物偏好”:如果P值很小(如0.01),说明性别和购物偏好很可能有关,如果P值较大(如0.3),说明观察到的差异可能是随机波动。
P值的作用 就是告诉你:“如果这个班真的和普通班一样,考出这个成绩的概率有多大?”
- 如果概率很低(P<0.05),说明这个班可能真的不一样
- 如果概率不低(P>0.05),说明这个成绩可能是随机波动
P值是用数据扇向原假设(H₀)的一记耳光——耳光越响亮(P越小),你越有理由相信H₀该被推翻。
p值是通过假设检验统计量(t/z/χ²等)转换而来的概率,核心是量化「偶然性」的合理性。实际应用中需同时报告效应量(如均值差异)和置信区间,避免单一指标误导决策。