当前位置: 首页 > news >正文

机器学习数学基础:34.二列相关教程

二列相关教程

一、二列相关的定义与用途

二列相关是一种用于衡量变量间相关性的统计方法。当两个变量都是正态连续变量,且其中一个变量被人为地划分成二分变量时,就可以使用二列相关来分析它们之间的关联程度。例如,在教育领域,研究学生的智商分数(正态连续变量)与考试是否通过(将考试成绩人为划分为通过和未通过的二分变量)之间的关系;或者在医学研究中,分析患者的某项生理指标(正态连续变量)与是否患病(人为划分为患病和未患病的二分变量)之间的联系。

二、二列相关的使用条件

  1. 变量的连续性和分布:两个变量都必须是连续变量,并且总体要呈正态分布,或者至少接近正态分布(单峰对称分布)。比如身高、体重、考试成绩等常见变量,在较大样本情况下通常近似正态分布。
  2. 变量间的关系:两个变量之间存在线性关系。可以通过绘制散点图来初步判断,如果散点大致呈现出直线趋势,就说明满足线性关系的条件。
  3. 二分变量的特征:二分变量必须是人为划分得到的,而且其分界点应尽量靠近中值。例如,将学生成绩划分为及格和不及格时,以60分为分界点,相对靠近成绩分布的中间位置,这样能使分析结果更准确。
  4. 样本容量要求:样本容量应当大于80 。足够大的样本可以使统计结果更具代表性和稳定性,减少抽样误差的影响。

三、二列相关系数计算公式解读

公式为 R   = X ˉ p − X ˉ q σ × p q Y R \ = \frac{\bar{X}_{p}-\bar{X}_{q}}{\sigma}\times\frac{pq}{Y} R =σXˉpXˉq×Ypq,各参数含义如下:

  1. p p p q q q p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q   = 1 p + q \ = 1 p+q =1。比如在将学生成绩划分为及格与不及格的例子中,若及格人数占总人数的 60 % 60\% 60%,则 p   = 0.6 p \ = 0.6 p =0.6 q   = 1 − 0.6   = 0.4 q \ = 1 - 0.6 \ = 0.4 q =10.6 =0.4
  2. X ˉ p \bar{X}_{p} Xˉp X ˉ q \bar{X}_{q} Xˉq X ˉ p \bar{X}_{p} Xˉp是与二分变量中 p p p类别相对应的连续变量的平均数; X ˉ q \bar{X}_{q} Xˉq是与二分变量中 q q q类别相对应的连续变量的平均数。继续以上述例子说明,如果及格学生的数学平均成绩就是 X ˉ p \bar{X}_{p} Xˉp,不及格学生的数学平均成绩就是 X ˉ q \bar{X}_{q} Xˉq
  3. σ \sigma σ:表示连续变量的标准差,用于衡量连续变量的离散程度。标准差越大,说明数据越分散;标准差越小,数据越集中。
  4. Y Y Y:表示正态曲线下与 p p p相对应的纵线高度,可以通过查阅正态分布表来获取。

二列相关系数 R R R的取值范围在 − 1 -1 1 1 1 1之间。当 R R R接近 1 1 1时,表明两个变量之间存在很强的正相关关系;当 R R R接近 − 1 -1 1时,说明存在很强的负相关关系;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱。

四、计算步骤实例

假设研究学生的英语成绩(连续变量)和是否通过英语竞赛(二分变量)之间的关系,现有120名学生的数据(满足样本容量要求),经检验符合二列相关的其他条件。

  1. 数据整理与参数计算
    • 英语竞赛通过的学生有40人,未通过的学生有80人,则 p   = 40 120 ≈ 0.33 p\ =\frac{40}{120}\approx0.33 p =120400.33 q   = 1 − 0.33   = 0.67 q \ = 1 - 0.33 \ = 0.67 q =10.33 =0.67
    • 通过竞赛学生的英语平均成绩 X ˉ p   = 85 \bar{X}_{p}\ =85 Xˉp =85分,未通过竞赛学生的英语平均成绩 X ˉ q   = 70 \bar{X}_{q}\ =70 Xˉq =70分。
    • 这120名学生英语成绩的标准差 σ   = 10 \sigma \ = 10 σ =10分。
    • 根据 p ≈ 0.33 p\approx0.33 p0.33,查正态分布表得到 Y ≈ 0.38 Y\approx0.38 Y0.38
  2. 计算二列相关系数 R R R
    将上述值代入公式 R   = X ˉ p − X ˉ q σ × p q Y R \ = \frac{\bar{X}_{p}-\bar{X}_{q}}{\sigma}\times\frac{pq}{Y} R =σXˉpXˉq×Ypq可得:
    R   = 85 − 70 10 × 0.33 × 0.67 0.38   = 15 10 × 0.2211 0.38 ≈ 0.87 \begin{align*} R&\ =\frac{85 - 70}{10}\times\frac{0.33×0.67}{0.38}\\ &\ =\frac{15}{10}\times\frac{0.2211}{0.38}\\ &\approx 0.87 \end{align*} R =108570×0.380.33×0.67 =1015×0.380.22110.87
  3. 结果分析:计算出的二列相关系数约为 0.87 0.87 0.87,接近 1 1 1,说明学生的英语成绩和是否通过英语竞赛之间存在较强的正相关关系,即英语成绩较高的学生更有可能通过英语竞赛。

五、注意事项

  1. 严格满足条件:使用二列相关时,一定要确保满足所有使用条件,否则计算结果可能不准确。
  2. 分界点选择:二分变量的分界点选择非常重要,不合适的分界点可能导致错误的结论。
  3. 结合其他方法:可以结合其他统计方法或图表来更全面地分析变量之间的关系,不能仅仅依赖二列相关系数。

相关文章:

  • 学习笔记--电磁兼容性EMC
  • 用AI玩游戏1——狼人杀六人局
  • 大白话Vue2和Vue3双向数据绑定的原理
  • CMU Sphinx、Kaldi 和 Mozilla DeepSpeech 三个开源语音识别引擎的综合比较
  • Linux 常见命令全解析
  • 课程1. 深度学习简介
  • Vue使用Three.js加载glb (gltf) 文件模型及实现简单的选中高亮、测距、测面积
  • Unity汽车笔记
  • prometheus API清理数据
  • Vue3 + Vite使用 vue-i18n
  • C++术语
  • 设计模式教程:备忘录模式(Memento Pattern)
  • 数据结构与算法设计-作业4-excel表合并与数据整理
  • opencv交叉编译报错:undefined reference to `png_riffle_palette_neon
  • 大白话TypeScript第四章项目实践
  • 采用TypeHandler对隐私数据自动加解密
  • hot100-二叉树
  • 20分钟 Bash 上手指南
  • 【STL】5.<set/multiset>
  • LeetCode 每日一题 2025/2/17-2025/2/23
  • 国际奥委会举办研讨会,聚焦如何杜绝操纵比赛
  • 与总书记交流的上海人工智能实验室年轻人,在探索什么前沿领域?
  • 足球少年郎7月试锋芒,明日之星冠军杯构建顶级青少年赛事
  • 字母哥动了离开的心思,他和雄鹿队的缘分早就到了头
  • 要更加冷静地看待“东升西降”的判断
  • 冯德莱恩:欧美贸易谈判前不会前往美国会见特朗普