当前位置: 首页 > news >正文

机器学习数学基础:37.偏相关分析

偏相关分析教程

一、偏相关分析是什么

在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。

举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。

二、适用场景

偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。

三、相关符号含义

(一)偏相关系数公式符号

在分析变量 x 1 x_1 x1 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23,公式里各符号含义如下:

  • r 12 r_{12} r12:变量 x 1 x_1 x1 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
  • r 13 r_{13} r13:变量 x 1 x_1 x1 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
  • r 23 r_{23} r23:变量 x 2 x_2 x2 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
  • r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1 x 2 x_2 x2的相关程度。

(二)显著性检验公式符号

公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2 ,服从 t ( n − k − 2 ) t(n - k - 2) t(nk2)分布,用于偏相关系数的显著性检验,其中各符号含义为:

  • t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
  • r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 1 1 1 1之间。
  • n n n:表示样本容量,也就是参与分析的数据的数量。
  • k k k:是控制变量的个数。

四、计算步骤

(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)

假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。

  1. 收集数据并计算简单相关系数
    收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:
    • 农作物产量与施肥量的简单相关系数 r 12   = 0.6 r_{12}\ =0.6 r12 =0.6
    • 农作物产量与降水量的简单相关系数 r 13   = 0.4 r_{13}\ =0.4 r13 =0.4
    • 施肥量与降水量的简单相关系数 r 23   = 0.3 r_{23}\ =0.3 r23 =0.3
  2. 计算一阶偏相关系数 r 12.3 r_{12.3} r12.3
    把上面得到的数值代入公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23
    r 12.3   = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 )   = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 )   = 0.48 0.84 × 0.91   = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(10.42)(10.32) 0.60.4×0.3 =(10.16)(10.09) 0.60.12 =0.84×0.91 0.48 =0.7644 0.480.55
  3. 结果分析
    得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.30.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。

(二)偏相关系数的显著性检验(接着上述例子)

  1. 计算 t t t统计量
    假设样本数量 n   = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k   = 1 k \ = 1 k =1,偏相关系数 r   = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2
    t   = 0.55 × 30 − 1 − 2 1 − 0.5 5 2   = 0.55 × 27 1 − 0.3025   = 0.55 × 5.2 0.6975   = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =10.552 0.55×3012  =10.3025 0.55×27  =0.6975 0.55×5.2 =0.6975 2.863.43
  2. 确定临界值并判断
    设定显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = n − k − 2   = 30 − 1 − 2   = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =nk2 =3012 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α   = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052
    由于计算得到的 ∣ t ∣   = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 t =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。

五、注意事项

  1. 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
  2. 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
  3. 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
  4. 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。

相关文章:

  • java编译和c语言编译区别
  • CPU多级缓存机制
  • 前端面试题之HTML篇
  • 虚拟机PING不通百度?NAT是什么?什么仅主机?
  • HarmonyOS 5.0应用开发——鸿蒙接入高德地图实现POI搜索
  • 安装 Milvus Java SDK
  • 突破性能极限:DeepSeek开源FlashMLA解码内核技术解析
  • Oracle Fusion Middleware 12C安装 - 呆瓜式
  • 老张的仓库变形记:从算盘到AI的奇幻之旅
  • 【数据处理】COCO 数据集掩码 Run-Length Encoding (RLE) 编码转二进制掩码
  • 山东大学软件学院nosql实验一环境配置
  • C语言学习,希尔排序
  • 侯捷 C++ 课程学习笔记:C++ 标准库的体系结构与内核分析
  • WPF-Avalonia实践一两个页面的相关传递
  • 从零开始构建基于DeepSeek的智能客服系统
  • Python数据结构高级:图的表示与遍历
  • 验证码介绍及生成与验证
  • 去耦电容的作用详解
  • 网络安全之Web后端Python
  • v4l2子系统学习(五)subdev和media子系统
  • 网站建设推广费会计分录/谷歌chrome手机版
  • 青岛企业网站模板建站/网络营销推广系统
  • 网站开发设计工程师工作前景/集合竞价口诀背熟6句
  • 微信网站域名备案成功后怎么做/seo岗位有哪些
  • 网站首页做多大分辨率/网络营销与直播电商专业
  • 计算机网站建设/网站优化公司哪个好