卡方检验(独立性检验)
一、卡方检验的常见应用
-
独立性检验(最常用)
检验两个分类变量是否独立(如:BMI分组与胎儿健康状态是否有关联)。 -
拟合优度检验
检验观测频数与理论频数是否一致。
二、独立性检验的步骤
- 构建列联表(交叉表)
- 计算卡方统计量和p值
- 判断p值显著性
三、Python实现举例
假设你有“BMI分组”和“胎儿是否健康”两个分类变量:
import pandas as pd
from scipy.stats import chi2_contingency# 假设df中有'BMI分组'和'胎儿是否健康'两列
# 1. 构建列联表
table = pd.crosstab(df['BMI分组'], df['胎儿是否健康'])# 2. 卡方检验
chi2, p, dof, expected = chi2_contingency(table)print(f'卡方统计量: {chi2:.3f}')
print(f'p值: {p:.3g}')
print(f'自由度: {dof}')
print('理论频数表:\n', expected)
四、结果解读
- p < 0.05:拒绝独立性假设,认为两个变量有关联(有统计学意义)。
- p ≥ 0.05:不能拒绝独立性假设,认为两个变量无显著关联。
五、写作举例
“通过卡方检验,BMI分组与胎儿健康状态之间的关联p值为0.012,说明二者之间存在统计学显著的关联性。”
六、注意事项
- 卡方检验适用于分类变量,不适用于连续型变量(如Y染色体浓度)。
- 如果你要分析连续变量与分类变量的关系,可以先将连续变量分组(如BMI分组)。