当前位置: 首页 > news >正文

量化冗余分析中变量的关系丨TomatoSCI分析日记

大部分文章在讲冗余分析里变量关系的时候,包括我之前也是,常常通过“锐角表示正相关,钝角表示负相关,直角表示没关系”去判断。

乍一看好像挺简单,但其实很笼统,也很主观——除了大概分出锐角、直角和钝角,你很难判断具体角度是多少,更别说比较谁更强、谁更弱了,尤其是那些角度差不多的箭头。

应该把这种正向/负向关系量化出来,让数据来说话。研究问题的时候,不能靠主观判断,量化之后,原本的“锐角、直角、钝角”就变成了实实在在的数字,更直观,也更有说服力。

01 用夹角的余弦值(cosθ)衡量相关程度

在排序图里,每个变量都是一个箭头。两个箭头的夹角越小,方向越接近,说明它们的关系越强,对于这个关系,我们习惯使用的相关程度的范围是[-1,1],越强越接近1,越弱越接近-1,而cosθ就刚好落在这个范围内,回顾一下数学的知识:

当0° ≤ θ ≤ 90°:cosθ大于0,角度越大值越小,从 1 降到 0,对应的是锐角变直角。

当90° ≤ θ ≤ 180°:cosθ小于 0,角度越大值越小,从 0 降到 -1,对应的是直角变钝角。

当180° ≤ θ ≤ 270°:cosθ小于 0,递增,从 -1 升到 0,对应的是钝角变直角。

当270° ≤ θ ≤ 360°:cosθ大于 0,递增,从 0 升到 1,对应的是直角变锐角。

也就是说,一整圈里 cosθ 的走势就是:1 → 0 → -1 → 0 → 1。所以当我们都用夹角余弦值这个统一标准来衡量相关程度的话,就可以实现孰高孰低、孰强孰弱的比较,而不是主观地去判断。

通过图1我们可以看到,角度和相关性大小都可以对应上的,如果不量化根本没办法描述小多小,大是多大。

02 量化完之后可以做些什么

第一个,我们可以绘制一些可视化的图表,最常见就是热图了,这样不仅可以高效呈现我们的成果,也可以增加工作量,使文章的内容更加饱满。

第二个,我们可以设一个相关性阈值,比如绝对值大于0.7,就认为两个变量之间关系比较密切,值得讨论。这个阈值的作用就是,筛选掉一些不重要的信息,如果我总共有20个变量,那做出来的结果是非常多的,如果把它们都写出来,那就很容易被认为是在记流水账,这个时候我们通过阈值就可以把一些重要的信息挑出来讨论,这也是一个丰富文章内容的策略。

03 理解难点
1. 为什么不用sinθ或者tanθ?

sinθ 在 0° 和 180° 都等于 0,无法区分正相关和负相关;tanθ 在接近 90° 或 270° 时其值为无限,无法比较(图2)。

  1. cosθ的值怎么计算?

在 RDA 排序图中,每个变量都被量化成直角坐标系中的一个从零发射出来的箭头,也就是一个向量。两个箭头之间的 cosθ,其实就是看一个向量在另一个向量上的投影占原长度的比例,公式如图3:

TomatoSCI数据分析平台,陪你过完最后一关!✅冗余分析一键完成 ✅ 免登录 ✅ 实时专业答疑 ✅ 附参考资料。


文章转载自:

http://Iunpw2qE.bxgpy.cn
http://X3oia7Wo.bxgpy.cn
http://pp7cGyje.bxgpy.cn
http://YhwfOqY8.bxgpy.cn
http://ypUvfT0U.bxgpy.cn
http://RqP1zxPR.bxgpy.cn
http://mJCVBBEc.bxgpy.cn
http://zaWPaIvr.bxgpy.cn
http://wN9bRecQ.bxgpy.cn
http://QjGoJwtU.bxgpy.cn
http://yirXSz2E.bxgpy.cn
http://QRShg5ky.bxgpy.cn
http://msRmI2Ha.bxgpy.cn
http://jbeglmd3.bxgpy.cn
http://v5MCpebY.bxgpy.cn
http://7VWc4Hw9.bxgpy.cn
http://1V9irihE.bxgpy.cn
http://jGx4jshn.bxgpy.cn
http://sFlwzvdZ.bxgpy.cn
http://meodiOLJ.bxgpy.cn
http://SiAqY9Tx.bxgpy.cn
http://8joViUPd.bxgpy.cn
http://ErfMCh0n.bxgpy.cn
http://cSfLk2M8.bxgpy.cn
http://tiMiMqEa.bxgpy.cn
http://i1BFdd7L.bxgpy.cn
http://aMajrV3v.bxgpy.cn
http://LyWKyVKP.bxgpy.cn
http://ZzQRowQN.bxgpy.cn
http://DoT7ibgF.bxgpy.cn
http://www.dtcms.com/a/376751.html

相关文章:

  • Python设计模式
  • AD8028ARZ-REEL7电子元器件ADI 运算放大器IC 精密模拟芯片
  • uniapp和vue3项目中引入echarts 、lime-echart(微信小程序、H5等)
  • SpringMVC 执行流程分析 详解(图解SpringMVC执行流程)
  • Pytest 常见问题及其解决方案
  • 9-10关于JS初学产生的问题
  • Gradle使用技巧(Android场景)
  • 【Kubernetes】常见面试题汇总(十三)
  • MySql 内外连接
  • 从Java全栈到前端框架的实战之路
  • AI电子宠物本地部署模型方案全面解析
  • 行业学习【电商】:垂直电商如何理解?以专业宠物平台为例
  • Android 项目:画图白板APP开发(五)——橡皮擦(全面)
  • 2018年下半年 系统架构设计师 综合知识
  • SPEA2多目标进化算法:理论与应用全解析
  • 医院高值耗材智能化管理路径分析(上)
  • Java 声明式编程- Stream API 实战
  • 9月10日
  • LeakCanary原理示例讲解
  • 多集群 Kubernetes 部署与混合云资源治理架构设计分享
  • 人工智能机器学习——模型评价及优化
  • IndexTTS2安装说明
  • Vue:事件处理机制详解
  • 【笔记】空气弹簧概述、刚度调节原理
  • IgH EtherCAT 主站核心技术解析:从架构到工业部署的底层逻辑
  • tvm/triton/tensorrt比较
  • kernel_liteos_m移植到正点原子阿波罗F429_keil版
  • <数据集>yolo梨幼果识别数据集<目标检测>
  • BUG排查流程
  • 搞坏了docker 双系统下重装ubuntu22.04