当前位置: 首页 > news >正文

机器学习数学基础:30.Pearson相关系数及t检验教程

Pearson相关系数及t检验教程

一、定义与原理

Pearson相关系数

Pearson相关系数(记为 ρ X , Y \rho_{X,Y} ρX,Y)用于衡量两个变量 X X X Y Y Y之间线性相关的强度与方向,取值范围在 − 1 -1 1 1 1 1之间。公式为 ρ X , Y   = cov ( X , Y ) σ X σ Y   = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}\ =\frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y) =σXσYE[(XμX)(YμY)],其中 cov ( X , Y ) \text{cov}(X,Y) cov(X,Y)是协方差,反映两个变量的总体误差; σ X \sigma_X σX σ Y \sigma_Y σY分别是 X X X Y Y Y的标准差,衡量变量的离散程度; μ X \mu_X μX μ Y \mu_Y μY分别是 X X X Y Y Y的均值。值为正表示正相关,为负表示负相关,绝对值越接近 1 1 1,线性相关越强;接近 0 0 0,线性相关越弱。

t检验

在Pearson相关系数的应用中,t检验用于检验总体中两个变量是否真的存在线性相关关系。因为样本计算出的相关系数可能受到抽样误差的影响,通过t检验可以判断基于样本得到的相关关系在总体层面是否具有统计学意义。

二、计算步骤

计算Pearson相关系数

  1. 准备数据:收集两个变量 X X X Y Y Y n n n组观测值 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) (x1,y1),(x2,y2),,(xn,yn)
  2. 计算均值 μ X   = 1 n ∑ i   = 1 n x i \mu_X \ = \frac{1}{n}\sum_{i \ = 1}^{n}x_i μX =n1i =1nxi μ Y   = 1 n ∑ i   = 1 n y i \mu_Y \ = \frac{1}{n}\sum_{i \ = 1}^{n}y_i μY =n1i =1nyi
  3. 计算协方差 cov ( X , Y )   = 1 n ∑ i   = 1 n ( x i − μ X ) ( y i − μ Y ) \text{cov}(X,Y)\ =\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)(y_i - \mu_Y) cov(X,Y) =n1i =1n(xiμX)(yiμY)
  4. 计算标准差 σ X   = 1 n ∑ i   = 1 n ( x i − μ X ) 2 \sigma_X\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(x_i - \mu_X)^2} σX =n1i =1n(xiμX)2 σ Y   = 1 n ∑ i   = 1 n ( y i − μ Y ) 2 \sigma_Y\ =\sqrt{\frac{1}{n}\sum_{i \ = 1}^{n}(y_i - \mu_Y)^2} σY =n1i =1n(yiμY)2
  5. 计算相关系数:将协方差和标准差代入公式 ρ X , Y   = cov ( X , Y ) σ X σ Y \rho_{X,Y}\ =\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y} ρX,Y =σXσYcov(X,Y)

进行t检验

  1. 建立假设
    • 原假设 H 0 H_0 H0:总体的相关系数 ρ   = 0 \rho \ = 0 ρ =0,即总体中两个变量之间不存在线性相关关系。
    • 备择假设 H 1 H_1 H1:总体的相关系数 ρ ≠ 0 \rho\neq 0 ρ=0,即总体中两个变量之间存在线性相关关系。
  2. 计算t统计量:公式为 t   = r n − 2 1 − r 2 t\ =\frac{r\sqrt{n - 2}}{\sqrt{1 - r^{2}}} t =1r2 rn2 ,其中 r r r为计算得到的Pearson相关系数, n n n为样本数量。
  3. 确定临界值:根据给定的显著性水平 α \alpha α(常用 0.05 0.05 0.05)和自由度 d f   = n − 2 df \ = n - 2 df =n2,查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n2)
  4. 做出决策
    • 如果 ∣ t ∣ > t α / 2 ( n − 2 ) \vert t\vert>t_{\alpha/2}(n - 2) t>tα/2(n2),则拒绝原假设 H 0 H_0 H0,认为总体中两个变量之间存在线性相关关系。
    • 如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ttα/2(n2),则不能拒绝原假设 H 0 H_0 H0,即没有足够证据表明总体中两个变量之间存在线性相关关系。

三、实例演示

研究每周运动时间 X X X(小时)和体重减少量 Y Y Y(千克)的关系,选取 6 6 6名参与者的数据:

参与者 X X X Y Y Y
131
252
341.5
462.5
520.5
673

计算Pearson相关系数

  1. 均值: μ X   = 3 + 5 + 4 + 6 + 2 + 7 6   = 4.5 \mu_X\ =\frac{3 + 5 + 4 + 6 + 2 + 7}{6}\ =4.5 μX =63+5+4+6+2+7 =4.5 μ Y   = 1 + 2 + 1.5 + 2.5 + 0.5 + 3 6   = 1.75 \mu_Y\ =\frac{1 + 2 + 1.5 + 2.5 + 0.5 + 3}{6}\ =1.75 μY =61+2+1.5+2.5+0.5+3 =1.75
  2. 协方差: cov ( X , Y )   = ( 3 − 4.5 ) × ( 1 − 1.75 ) + ( 5 − 4.5 ) × ( 2 − 1.75 ) + ( 4 − 4.5 ) × ( 1.5 − 1.75 ) + ( 6 − 4.5 ) × ( 2.5 − 1.75 ) + ( 2 − 4.5 ) × ( 0.5 − 1.75 ) + ( 7 − 4.5 ) × ( 3 − 1.75 ) 6 ≈ 1.375 \text{cov}(X,Y)\ =\frac{(3 - 4.5)\times(1 - 1.75)+(5 - 4.5)\times(2 - 1.75)+(4 - 4.5)\times(1.5 - 1.75)+(6 - 4.5)\times(2.5 - 1.75)+(2 - 4.5)\times(0.5 - 1.75)+(7 - 4.5)\times(3 - 1.75)}{6}\approx1.375 cov(X,Y) =6(34.5)×(11.75)+(54.5)×(21.75)+(44.5)×(1.51.75)+(64.5)×(2.51.75)+(24.5)×(0.51.75)+(74.5)×(31.75)1.375
  3. 标准差: σ X   = ( 3 − 4.5 ) 2 + ( 5 − 4.5 ) 2 + ( 4 − 4.5 ) 2 + ( 6 − 4.5 ) 2 + ( 2 − 4.5 ) 2 + ( 7 − 4.5 ) 2 6 ≈ 1.87 \sigma_X\ =\sqrt{\frac{(3 - 4.5)^2+(5 - 4.5)^2+(4 - 4.5)^2+(6 - 4.5)^2+(2 - 4.5)^2+(7 - 4.5)^2}{6}}\approx1.87 σX =6(34.5)2+(54.5)2+(44.5)2+(64.5)2+(24.5)2+(74.5)2 1.87 σ Y   = ( 1 − 1.75 ) 2 + ( 2 − 1.75 ) 2 + ( 1.5 − 1.75 ) 2 + ( 2.5 − 1.75 ) 2 + ( 0.5 − 1.75 ) 2 + ( 3 − 1.75 ) 2 6 ≈ 0.94 \sigma_Y\ =\sqrt{\frac{(1 - 1.75)^2+(2 - 1.75)^2+(1.5 - 1.75)^2+(2.5 - 1.75)^2+(0.5 - 1.75)^2+(3 - 1.75)^2}{6}}\approx0.94 σY =6(11.75)2+(21.75)2+(1.51.75)2+(2.51.75)2+(0.51.75)2+(31.75)2 0.94
  4. 相关系数: r   = 1.375 1.87 × 0.94 ≈ 0.78 r\ =\frac{1.375}{1.87\times0.94}\approx0.78 r =1.87×0.941.3750.78

进行t检验

  1. 计算 t t t统计量: t   = 0.78 6 − 2 1 − 0.7 8 2 ≈ 2.84 t\ =\frac{0.78\sqrt{6 - 2}}{\sqrt{1 - 0.78^{2}}}\approx2.84 t =10.782 0.7862 2.84
  2. 设显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = 6 − 2   = 4 df \ = 6 - 2 \ = 4 df =62 =4,查 t t t分布表得 t 0.025 ( 4 )   = 2.776 t_{0.025}(4)\ =2.776 t0.025(4) =2.776
  3. 因为 ∣ 2.84 ∣ > 2.776 \vert 2.84\vert>2.776 ∣2.84∣>2.776,拒绝原假设 H 0 H_0 H0,认为总体中每周运动时间和体重减少量之间存在线性相关关系。

四、注意事项

  1. 数据要求:Pearson相关系数理想情况是变量服从正态分布,样本量足够大时对非正态有一定稳健性。同时,t检验的有效性也依赖于数据的正态性假设。
  2. 关系性质:Pearson相关系数仅衡量线性相关,若变量间存在非线性关系,可能得出错误结论。
  3. 因果关系:相关不代表因果,两个变量相关可能是受其他未考虑因素的影响。

相关文章:

  • 信息安全实战04_ECC椭圆曲线加密算法原理详解
  • 蓝桥杯试题:区间次方和(前缀和)
  • Gin从入门到精通 (四)请求参数
  • 网络运维学习笔记 022 HCIA-Datacom新增知识点03园区网典型组网架构及案例实战
  • 第一届网谷杯
  • 力扣每日一题【算法学习day.133】
  • 敏捷开发08:如何高效开每日站会(Daily Stand-up Meeting)
  • LEARNING ON LARGE-SCALE TEXT-ATTRIBUTED GRAPHS VIA VARIATIONAL INFERENCE
  • Go语言中使用viper绑定结构体和yaml文件信息时,标签的使用
  • NIO-Reactor模型梳理与demo实现
  • Linux 第三次脚本作业
  • 如何使用智能指针来管理动态分配的内存
  • 函数中的形参和实参(吐槽)
  • R 语言科研绘图 --- 散点图-汇总
  • 记录 idea 启动 tomcat 控制台输出乱码问题解决
  • 嵌入式Linux内核底层调试技术Kprobes
  • N32G003查看设备重启原因
  • 洛谷P1135多题解
  • Pytorch使用手册-音频数据增强(专题二十)
  • 显卡(Graphics Processing Unit,GPU)架构详细解读
  • 郭向阳任广东省公安厅分管日常工作副厅长(正厅级)
  • 特朗普执政百日集会吹嘘政绩,美国消费者信心指数跌至疫情以来最低
  • 王沪宁主持召开全国政协主席会议
  • 当初没有珍惜巴特勒的热火,被横扫出局后才追悔莫及
  • 工信部:加快自动驾驶系统安全要求强制性国家标准研制
  • 最近这75年,谁建造了上海?