当前位置: 首页 > news >正文

机器学习数学基础:34.点二列

点二列相关教程

一、点二列相关的定义

点二列相关是一种统计方法,用于衡量两个变量之间的相关程度。在这种相关分析中,一个变量是正态连续性变量,取值可以是连续的数值,比如身高、体重、考试分数等;另一个是真正的二分名义变量,其两个类别是天然存在、相互独立的,不能再细分,像性别(男/女)、是否吸烟(是/否)、抛硬币的结果(正面/反面)等。

二、适用场景

点二列相关常用于研究天然二分变量与连续变量之间的关系。例如在教育领域,分析学生的性别(二分变量)与学习成绩(连续变量)之间的联系,看男生和女生在成绩上是否存在差异;在医学研究中,探讨患者是否患病(二分变量)与某项生理指标数值(连续变量)的相关性,以辅助疾病诊断和研究;在市场调研里,了解消费者是否购买某产品(二分变量)和他们的收入水平(连续变量)之间的关系,为营销策略提供参考。

三、计算公式解读

点二列相关系数的计算公式为 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq ,公式中各参数含义如下:

  • p p p q q q p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q   = 1 p + q \ = 1 p+q =1。比如在研究性别的例子中,如果男生人数占总人数的 40 % 40\% 40%,那么 p   = 0.4 p \ = 0.4 p =0.4 q   = 1 − 0.4   = 0.6 q \ = 1 - 0.4 \ = 0.6 q =10.4 =0.6
  • X ‾ p \overline{X}_{p} Xp X ‾ q \overline{X}_{q} Xq X ‾ p \overline{X}_{p} Xp是与二分变量中 p p p类别相对应的连续变量的平均数; X ‾ q \overline{X}_{q} Xq是与二分变量中 q q q类别相对应的连续变量的平均数。例如, X ‾ p \overline{X}_{p} Xp可以是男生的平均考试成绩, X ‾ q \overline{X}_{q} Xq是女生的平均考试成绩。
  • σ \sigma σ:表示连续变量的标准差,它衡量的是连续变量的离散程度,也就是数据的分散情况。标准差越大,说明数据越分散;标准差越小,数据越集中。

点二列相关系数 R R R的取值范围在 − 1 -1 1 1 1 1之间。当 R R R接近 1 1 1时,意味着两个变量之间存在很强的正相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于增大;当 R R R接近 − 1 -1 1时,表明存在很强的负相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于减小;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱,几乎没有关联。

四、计算步骤实例

假设我们要研究某学校学生是否住校(二分变量)与英语成绩(连续变量)之间的关系,具体步骤如下:

(一)数据收集

随机选取该校80名学生作为样本,记录他们是否住校(住校记为1,不住校记为0 )以及英语考试成绩(满分100分)。经检验,英语成绩这一连续变量近似正态分布。

(二)数据整理与参数计算

  1. 统计发现住校的学生有30人,不住校的学生有50人。则 p   = 30 80   = 0.375 p\ =\frac{30}{80}\ =0.375 p =8030 =0.375 q   = 1 − 0.375   = 0.625 q \ = 1 - 0.375 \ = 0.625 q =10.375 =0.625
  2. 计算住校学生的英语平均成绩 X ‾ p \overline{X}_{p} Xp,假设为80分;不住校学生的英语平均成绩 X ‾ q \overline{X}_{q} Xq,假设为70分。
  3. 计算这80名学生英语成绩的标准差 σ \sigma σ,假设为12分。

(三)计算点二列相关系数 R R R

将上述值代入公式 R   = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq 可得:
R   = 80 − 70 12 × 0.375 × 0.625   = 10 12 × 0.234375 ≈ 10 12 × 0.484 ≈ 0.40 \begin{align*} R&\ =\frac{80 - 70}{12}×\sqrt{0.375×0.625}\\ &\ =\frac{10}{12}×\sqrt{0.234375}\\ &\approx\frac{10}{12}×0.484\\ &\approx0.40 \end{align*} R =128070×0.375×0.625  =1210×0.234375 1210×0.4840.40

(四)结果分析

计算出的点二列相关系数约为 0.40 0.40 0.40,说明在这个样本中,学生是否住校与英语成绩之间存在一定的正相关关系,即住校学生的英语成绩相对较高。但相关系数并不是特别高,意味着是否住校虽然对英语成绩有影响,但可能不是唯一的决定因素。

五、注意事项

  1. 变量性质:务必确保一个变量是真正的二分名义变量,另一个是正态连续变量,否则点二列相关可能不适用。
  2. 样本代表性:样本要具有足够的代表性,样本容量不能过小,这样计算出的相关系数才更可靠,一般建议样本量在30以上。
  3. 相关与因果:点二列相关系数只能表明两个变量之间的关联程度,不能直接说明它们之间存在因果关系。比如前面例子中发现住校和英语成绩相关,但不能就此认定住校是英语成绩好的原因。

相关文章:

  • MySQL清除无用的二进制日志(Binlog)
  • 新数据结构(13)——I/O
  • Linux离线环境安装miniconda并导入依赖包
  • 1.✨学习系统浅探
  • 网络安全风险评估
  • 本地VSCode远程连wsl2中的C++环境的开发配置指南
  • springBoot统一响应类型2.0版本
  • OpenHarmony-4.基于dayu800 GPIO 实践(2)
  • 5.6 Mybatis代码生成器Mybatis Generator (MBG)实战详解
  • Bootstrap5 网格系统
  • 并发 -- 无锁算法与结构
  • 网站快速收录:如何优化网站音频内容?
  • Redis 集群的三种模式:一主一从、一主多从和多主多从
  • 计算机领域里注重实战的9本书
  • 跟着AI学vue第九章
  • R语言Stan贝叶斯空间条件自回归CAR模型分析死亡率多维度数据可视化
  • Java中的@JSONField注解详解:用法、场景与实践
  • Docker 与 Nginx:容器化 Web 服务器
  • OpenCV4.8 开发实战系列专栏之 34 - 图像锐化
  • golang性能分析之pprof
  • 深圳最好的网站开发公司电话/中国突然宣布大消息
  • 电脑上wap网站/株洲seo
  • 国家建设官方网站/广东疫情最新消息今天
  • 网站开发公司武汉/成都做整站优化
  • 有没有免费的推广网站/快速收录域名
  • 商城网站建设软件/b2b和b2c是什么意思