卡方检验公式中分母 (a+b)(c+d)(a+c)(b+d)的本质
一、分母的构成:四个“边际合计”的意义
首先,我们再次明确这个2x2列联表:
患肺癌 (Yes) | 未患肺癌 (No) | 行合计 | |
---|---|---|---|
吸烟 (Yes) | a | b | a+b |
不吸烟 (No) | c | d | c+d |
列合计 | a+c | b+d | n = a+b+c+d |
分母中的四个部分 (a+b)
, (c+d)
, (a+c)
, (b+d)
分别是行合计和列合计,也称为边际频数。它们代表了每个变量自身 category 的分布,而忽略了另一个变量的影响。
(a+b)
: 所有吸烟者的总人数。(c+d)
: 所有不吸烟者的总人数。(a+c)
: 所有患肺癌者的总人数。(b+d)
: 所有未患肺癌者的总人数。
在“变量独立”的原假设(H₀)下,这四个边际合计决定了整个表格的“预期”格局。
二、分母的核心作用:标准化(Standardization)
现在,我们来看分母是如何完成“标准化”的。为了更好地理解,我们暂时回到卡方统计量的原始定义式:
χ2=∑(O−E)2E \chi^2 = \sum \frac{(O - E)^2}{E}