当前位置: 首页 > news >正文

Python Day42 学习(日志Day9复习)

补充:关于“箱线图”的阅读

以下图为例 @浙大疏锦行

箱线图的基本组成

  • 箱体(Box):中间的矩形,表示数据的中间50%(从下四分位数Q1到上四分位数Q3)
  • 中位线(Median):箱体中间的横线,表示数据的中位数(50%分位)。
  • “胡须”(Whiskers):箱体上下延伸的线,通常表示1.5倍四分位距(IQR)以内的数据范围。
  • 离群点(Outliers):超出“胡须”范围的点,用小圆圈表示,代表极端值。

如何读这张图

  • 横轴(x轴)Credit Default,有两个类别(0和1),分别代表“未违约”和“违约”。
  • 纵轴(y轴)Annual Income,表示年收入。

每个类别下都有一个箱线图,分别展示该类别下年收入的分布情况。


具体解读:

  • 箱体高度:箱体越高,说明该类别下年收入的中间50%分布越分散;越矮则越集中。
  • 中位线位置:箱体中间的线,表示该类别下年收入的中位数。可以比较两组的中位数高低。
  • 上下“胡须”长度:反映数据的整体分布范围。
  • 离群点:箱体外的小圆点,表示极高或极低的年收入,是异常值。

结合该图:

  • 未违约(0)和违约(1) 两组都存在较多的离群点,说明都有极高的年收入个案。
  • 箱体位置和中位线:可以比较两组的年收入中位数和分布范围,看是否有显著差异。
  • 箱体宽度无实际意义,只是为了区分类别。

Q. 关于“箱体”和“箱体高度”

  • 箱线图中间的矩形部分叫“箱体”(Box)。
  • 这个箱体的下边界是下四分位数(Q1),上边界是上四分位数(Q3)
  • Q1 是数据中25%位置的数,Q3 是75%位置的数。
  • 所以,箱体表示的是从25%到75%之间的数据,也就是中间50%的数据分布范围

箱体高度

  • 箱线图的“箱体”表示的是该类别下年收入的中间50%(也就是从下四分位数Q1到上四分位数Q3之间的数据)。
  • 箱体高度就是箱体在y轴(年收入)方向的长度,反映了这50%数据的分布范围有多大。

详细解释:

  • 如果箱体很高,说明这50%的人的年收入差异很大,有的人收入高,有的人收入低,数据分布比较分散。
  • 如果箱体很矮,说明这50%的人的年收入都集中在一个较小的区间里,大家的收入水平比较接近,数据分布比较集中。

举例:

  • 比如“Credit Default=0”时箱体高度大于“Credit Default=1”,就说明未违约人群的年收入差异比违约人群大。

总结: 箱体越高,数据越分散;箱体越矮,数据越集中。箱体高度可以帮助你判断该类别下数据的离散程度。

补充:关于“小提琴图”的阅读

以下图为例

小提琴图的组成

  • 外形(轮廓):每个“Credit Default”类别下都有一个对称的“提琴”形状,表示该类别下“Annual Income”年收入的分布密度。外形越宽,说明该收入区间的人数越多。
  • 中间的白色点/线:通常表示中位数和四分位数(有的版本会显示箱线图的元素)。
  • 宽度:反映数据在该区间的密集程度,越宽说明数据越集中,越窄说明数据越稀疏。

 如何读这张图

  • 横轴(x轴)Credit Default,有两个类别(0=未违约,1=违约)。
  • 纵轴(y轴)Annual Income,表示年收入。
  • 每个小提琴:展示该类别下年收入的分布情况。

具体解读:

  • 形状宽窄
    • 某一高度(年收入区间)越宽,说明这个收入区间的人数越多。
    • 某一高度越窄,说明这个收入区间的人数越少。
  • 中间的白色线/点
    • 白色粗线是中位数,箱体表示四分位数范围(和箱线图类似)。
  • 对比两组
    • 可以比较违约和未违约两组的年收入分布是否有明显差异。
    • 例如,两组的分布形状、峰值位置、宽度等是否不同。

结论举例

  • 如果某一组的小提琴在高收入区间特别宽,说明该组高收入人群多。
  • 如果两组小提琴形状差不多,说明两组年收入分布相似。
  • 如果一组的中位数更高,说明该组整体收入更高。

手写笔记复习

相关文章:

  • Windows11:解决近期更新后无法上网的问题
  • 【连接器专题】案例:FPC焊接金手指顶层和底层开窗/焊盘为什么要错位?
  • 如何排查和解决PHP连接数据库MYSQL失败写锁的问题
  • ​AI大模型与法律:智能时代下的司法技术挑战
  • 基于机器学习的水量智能调度研究
  • 基于SpringBoot的房屋租赁系统的设计与实现(thymeleaf+MySQL)
  • Linux 常用命令与 Shell 简介
  • Ansys Maxwell:线圈和磁体的静磁 3D 分析
  • 从Gartner报告看Atlassian在生成式AI领域的创新路径与实践价值
  • x86 汇编中的【条件跳转指令】:从基础到扩展的全面解析(查表版)
  • TypeScript进阶知识点
  • 基于yolov8的obb框架, 开展指针类表计,指针位置识别的模型训练
  • Deployment实现扩展/收缩,以及滚动更新
  • 零依赖本地调试:VectorDB Lite +VectorDB CLI 高效构建向量数据库全流程
  • 多线程编程技术详解与实践(java篇)
  • java学习笔记——数组和二维数组
  • 使用反射对任意对象进行二进制序列化的程序
  • Gemini开源项目DeepResearch:基于LangGraph的智能研究代理技术原理与实现
  • 目标检测实战:让AI“看见“并定位物体(superior哥AI系列第11期)
  • Offline Transition Modeling via Contrastive Energy Learning
  • 网站吸流量/产品推广的渠道有哪些
  • phton可以做网站吗/查排名官网
  • wordpress文件上传限制/西安seo排名
  • 网站目录做二级域名/怎么做表格
  • 做自己的彩票网站/徐州网站优化
  • wordpress公司主页/搜索引擎优化网站排名