机器学习数学基础:34.二列相关教程
二列相关教程
一、二列相关的定义与用途
二列相关是一种用于衡量变量间相关性的统计方法。当两个变量都是正态连续变量,且其中一个变量被人为地划分成二分变量时,就可以使用二列相关来分析它们之间的关联程度。例如,在教育领域,研究学生的智商分数(正态连续变量)与考试是否通过(将考试成绩人为划分为通过和未通过的二分变量)之间的关系;或者在医学研究中,分析患者的某项生理指标(正态连续变量)与是否患病(人为划分为患病和未患病的二分变量)之间的联系。
二、二列相关的使用条件
- 变量的连续性和分布:两个变量都必须是连续变量,并且总体要呈正态分布,或者至少接近正态分布(单峰对称分布)。比如身高、体重、考试成绩等常见变量,在较大样本情况下通常近似正态分布。
- 变量间的关系:两个变量之间存在线性关系。可以通过绘制散点图来初步判断,如果散点大致呈现出直线趋势,就说明满足线性关系的条件。
- 二分变量的特征:二分变量必须是人为划分得到的,而且其分界点应尽量靠近中值。例如,将学生成绩划分为及格和不及格时,以60分为分界点,相对靠近成绩分布的中间位置,这样能使分析结果更准确。
- 样本容量要求:样本容量应当大于80 。足够大的样本可以使统计结果更具代表性和稳定性,减少抽样误差的影响。
三、二列相关系数计算公式解读
公式为 R = X ˉ p − X ˉ q σ × p q Y R \ = \frac{\bar{X}_{p}-\bar{X}_{q}}{\sigma}\times\frac{pq}{Y} R =σXˉp−Xˉq×Ypq,各参数含义如下:
- p p p和 q q q: p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q = 1 p + q \ = 1 p+q =1。比如在将学生成绩划分为及格与不及格的例子中,若及格人数占总人数的 60 % 60\% 60%,则 p = 0.6 p \ = 0.6 p =0.6, q = 1 − 0.6 = 0.4 q \ = 1 - 0.6 \ = 0.4 q =1−0.6 =0.4。
- X ˉ p \bar{X}_{p} Xˉp和 X ˉ q \bar{X}_{q} Xˉq: X ˉ p \bar{X}_{p} Xˉp是与二分变量中 p p p类别相对应的连续变量的平均数; X ˉ q \bar{X}_{q} Xˉq是与二分变量中 q q q类别相对应的连续变量的平均数。继续以上述例子说明,如果及格学生的数学平均成绩就是 X ˉ p \bar{X}_{p} Xˉp,不及格学生的数学平均成绩就是 X ˉ q \bar{X}_{q} Xˉq。
- σ \sigma σ:表示连续变量的标准差,用于衡量连续变量的离散程度。标准差越大,说明数据越分散;标准差越小,数据越集中。
- Y Y Y:表示正态曲线下与 p p p相对应的纵线高度,可以通过查阅正态分布表来获取。
二列相关系数 R R R的取值范围在 − 1 -1 −1到 1 1 1之间。当 R R R接近 1 1 1时,表明两个变量之间存在很强的正相关关系;当 R R R接近 − 1 -1 −1时,说明存在很强的负相关关系;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱。
四、计算步骤实例
假设研究学生的英语成绩(连续变量)和是否通过英语竞赛(二分变量)之间的关系,现有120名学生的数据(满足样本容量要求),经检验符合二列相关的其他条件。
- 数据整理与参数计算:
- 英语竞赛通过的学生有40人,未通过的学生有80人,则 p = 40 120 ≈ 0.33 p\ =\frac{40}{120}\approx0.33 p =12040≈0.33, q = 1 − 0.33 = 0.67 q \ = 1 - 0.33 \ = 0.67 q =1−0.33 =0.67。
- 通过竞赛学生的英语平均成绩 X ˉ p = 85 \bar{X}_{p}\ =85 Xˉp =85分,未通过竞赛学生的英语平均成绩 X ˉ q = 70 \bar{X}_{q}\ =70 Xˉq =70分。
- 这120名学生英语成绩的标准差 σ = 10 \sigma \ = 10 σ =10分。
- 根据 p ≈ 0.33 p\approx0.33 p≈0.33,查正态分布表得到 Y ≈ 0.38 Y\approx0.38 Y≈0.38。
- 计算二列相关系数
R
R
R:
将上述值代入公式 R = X ˉ p − X ˉ q σ × p q Y R \ = \frac{\bar{X}_{p}-\bar{X}_{q}}{\sigma}\times\frac{pq}{Y} R =σXˉp−Xˉq×Ypq可得:
R = 85 − 70 10 × 0.33 × 0.67 0.38 = 15 10 × 0.2211 0.38 ≈ 0.87 \begin{align*} R&\ =\frac{85 - 70}{10}\times\frac{0.33×0.67}{0.38}\\ &\ =\frac{15}{10}\times\frac{0.2211}{0.38}\\ &\approx 0.87 \end{align*} R =1085−70×0.380.33×0.67 =1015×0.380.2211≈0.87 - 结果分析:计算出的二列相关系数约为 0.87 0.87 0.87,接近 1 1 1,说明学生的英语成绩和是否通过英语竞赛之间存在较强的正相关关系,即英语成绩较高的学生更有可能通过英语竞赛。
五、注意事项
- 严格满足条件:使用二列相关时,一定要确保满足所有使用条件,否则计算结果可能不准确。
- 分界点选择:二分变量的分界点选择非常重要,不合适的分界点可能导致错误的结论。
- 结合其他方法:可以结合其他统计方法或图表来更全面地分析变量之间的关系,不能仅仅依赖二列相关系数。