当前位置: 首页 > news >正文

四分位数与箱线图

四分位数

下限、Q1(25%值,又称第一四分位数)、中位数、Q3(75%值,又称第三四分位数)、上限、IQR(Inter Quartile Range,即四分位距)和异常值。


1. 四分位数的定义

四分位数是将一组有序数据分成四个等份的三个关键分割点,分别记为:
• Q1(第一四分位数):第25%分位数,表示25%的数据小于或等于它。

• Q2(第二四分位数):即中位数,第50%分位数。

• Q3(第三四分位数):第75%分位数,表示75%的数据小于或等于它。

通过这三个点,可以快速了解数据的分布范围和集中趋势。


2. 四分位数的计算方法

步骤1:将数据从小到大排序

数据必须是有序的才能计算四分位数。

步骤2:确定中位数(Q2)

• 如果数据量(n)为奇数,中位数是正中间的数。

• 如果n为偶数,中位数是中间两个数的平均值。

步骤3:计算Q1和Q3

• Q1:数据下半部分的中位数(即小于Q2的部分)。

• Q3:数据上半部分的中位数(即大于Q2的部分)。

📌 注意:不同统计软件(如Excel、R、Python)对四分位数的计算规则可能略有差异(例如是否包含中位数),但核心逻辑一致。


3. 实例演示

例子1:奇数个数据

数据:[3, 7, 8, 5, 12, 14, 21, 13, 18]
步骤1:排序 → [3, 5, 7, 8, 12, 13, 14, 18, 21]
步骤2:找Q2(中位数)
• 共9个数,中位数是第5个数 → Q2 = 12

步骤3:找Q1和Q3
• Q1:下半部分 [3, 5, 7, 8] 的中位数 → (5+7)/2 = 6

• Q3:上半部分 [13, 14, 18, 21] 的中位数 → (14+18)/2 = 16

结果:Q1=6, Q2=12, Q3=16


例子2:偶数个数据

数据:[1, 3, 5, 7, 9, 11, 13, 15]
步骤1:已排序
步骤2:找Q2
• 共8个数,中位数是第4、5个数的平均值 → (7+9)/2 = 8

步骤3:找Q1和Q3
• Q1:下半部分 [1, 3, 5, 7] 的中位数 → (3+5)/2 = 4

• Q3:上半部分 [9, 11, 13, 15] 的中位数 → (11+13)/2 = 12

结果:Q1=4, Q2=8, Q3=12


4. 四分位数的应用

(1)箱线图(Boxplot)
箱体范围:Q1到Q3(IQR = Q3 - Q1)

• 箱内线:Q2(中位数)。

• 异常值:通常定义为小于 Q1 - 1.5×IQR 或大于 Q3 + 1.5×IQR

(2)数据分布分析
• 对称分布:Q2 - Q1 ≈ Q3 - Q2。

• 右偏分布:Q3 - Q2 > Q2 - Q1(数据向右延伸)。

• 左偏分布:Q2 - Q1 > Q3 - Q2(数据向左延伸)。

(3)识别异常值
例如,若Q1=6, Q3=16,则:
• IQR = 16 - 6 = 10

• 异常值边界:6 - 1.5×10 = -9 和 16 + 1.5×10 = 31

• 任何小于-9或大于31的数据点均为异常值。


5. 常见问题

Q1:四分位数和百分位数有什么关系?
• Q1 = 25%分位数,Q2 = 50%分位数,Q3 = 75%分位数。

Q2:如果数据有重复值怎么办?
计算方法不变,重复值需保留排序后的位置。
例如:[2, 4, 4, 6, 8]的Q1是第25%位置的值 → 取第2个数 4。

Q3:Excel中如何计算四分位数?
• 使用函数 QUARTILE.INC(data, quart),其中 quart=1,2,3 分别对应Q1/Q2/Q3。


总结

四分位数是描述数据分布的核心工具,尤其适用于:
• 快速了解数据的离散程度(通过IQR)。

• 检测异常值。

• 比较不同数据集的分布(如箱线图对比)。

箱线图

参考:Python学习笔记:异常值检测之箱线图 - Hider1214 - 博客园


1. 箱线图的定义

箱线图是一种可视化数据分布的图表,通过五个关键统计量(最小值、Q1、Q2、Q3、最大值)和异常值检测,直观展示数据的:
• 集中趋势(中位数)

• 离散程度(四分位距IQR)

• 偏态与异常值


2. 箱线图的构造

核心组成部分

  1. 箱体(Box):
    1. 下边缘:第一四分位数(Q1)。
    2. 箱内线:中位数(Q2)。
    3. 上边缘:第三四分位数(Q3)。
    4. 箱体高度 = IQR(Q3 - Q1),反映中间50%数据的分布范围。
  2. 须线(Whiskers):
    1. 上须:延伸到不超过 Q3 + 1.5×IQR 的最大值。
    2. 下须:延伸到不低于 Q1 - 1.5×IQR 的最小值。
  3. 异常值(Outliers):超出须线范围的数据点,通常用圆点或星号标记。

📌 示意图

     最大值(非异常值)|
Q3 +-------+   Q3 + 1.5×IQR(上限)|-----|      ○ 异常值Q2  |  ┃  | |-----|
Q1 +-------+   Q1 - 1.5×IQR(下限)|最小值(非异常值)

3. 箱线图的绘制步骤(以实际数据为例)

数据集:[12, 15, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 30, 40]

步骤1:计算四分位数
• Q1 = 第25%位数 → 18

• Q2 = 中位数 → 21.5

• Q3 = 第75%位数 → 24

• IQR = Q3 - Q1 = 6

步骤2:确定须线边界
• 上须边界 = Q3 + 1.5×IQR = 24 + 9 = 33

• 数据中 ≤33的最大值是 30,因此上须延伸到30。

• 下须边界 = Q1 - 1.5×IQR = 18 - 9 = 9

• 数据中 ≥9的最小值是 12,因此下须延伸到12。

步骤3:标记异常值
• 40 > 33 → 40是异常值,单独标记。

最终箱线图

       ○ 40|
30 ----+       |-------|
24   | 21.5  ||-------|
18 ----+|
12 ----+

4. 箱线图的解读技巧

(1)分布形态判断
• 对称分布:中位数(Q2)在箱体中央,须线长度相近。
• 右偏分布:Q2靠近Q1,上须较长(如收入数据)。

• 左偏分布:Q2靠近Q3,下须较长。

(2)异常值检测
• 任何超出 [Q1-1.5×IQR, Q3+1.5×IQR] 的数据点均为潜在异常值。

(3)比较多组数据
并列箱线图可直观对比不同组别的分布差异(如下图)。


5. 箱线图的优缺点

优点
• 直观展示数据分布和异常值。

• 适用于小样本和大样本数据。

• 节省空间,适合多组数据对比。

缺点
• 隐藏了数据的具体分布形状(如双峰分布需结合直方图)。

• 对极端异常值敏感(可调整1.5×IQR的倍数)。


6. 实际应用场景

  1. 学术研究:比较实验组与对照组的成绩分布。
  2. 商业分析:分析不同地区销售额的离散程度。
  3. 质量控制:检测生产线的产品尺寸是否稳定。

案例:学生考试成绩对比

班级

箱线图关键值

A班

Q1=60, Q2=75, Q3=85, 异常值:95

B班

Q1=70, Q2=80, Q3=90, 无异常值

解读:A班成绩分散且存在高分异常,B班成绩更集中。


7. 常见问题解答

Q1:箱线图和直方图如何选择?
• 箱线图:快速比较多组数据的分布和异常值。

• 直方图:展示单组数据的详细分布形状(如是否双峰)。

Q2:为什么用1.5×IQR定义异常值?
• 基于经验法则(Tukey's Fence),覆盖约99.3%的正态分布数据。

Q3:如何用Python绘制箱线图?

import matplotlib.pyplot as plt
data = [[12,15,17,18,19,20,21,22,23,24,25,26,30,40]]
plt.boxplot(data)
plt.show()

8. 如何科学解读箱线图


1. 箱线图的五大核心要素
首先明确箱线图的每个部分代表的含义:

  1. 箱体(Box):覆盖中间50%的数据(Q1到Q3)。
  2. 中位数线(Q2):箱体内的横线,反映数据集中趋势。
  3. 须线(Whiskers):延伸至正常范围的最大最小值。
  4. 异常值(Outliers):超出须线的离散点。
  5. IQR(四分位距):Q3 - Q1,衡量数据离散程度。

2. 分步骤解读指南
步骤1:看中位数(Q2)的位置
• 中位数靠近箱体底部(Q1) → 数据可能右偏(尾部向右延伸)。

• 中位数靠近箱体顶部(Q3) → 数据可能左偏(尾部向左延伸)。

• 中位数在箱体中央 → 数据分布较对称。

示例:若中位数线在箱体下半部,说明更多数据集中在较小值区域(如收入数据常见右偏)。

步骤2:观察箱体高度(IQR)
• 箱体越宽 → 数据离散程度越大(中间50%数据分布分散)。

• 箱体越窄 → 数据越集中。

示例:比较A/B两组箱线图,A组IQR=20,B组IQR=5 → B组数据更稳定。

步骤3:分析须线长度
• 上须长于下须 → 数据右侧有更多极端大值(右偏)。

• 下须长于上须 → 数据左侧有更多极端小值(左偏)。

• 须线对称 → 数据分布可能对称。

示例:若上须延伸到很远,而下须很短,说明存在少数极大值(如富豪收入拉长右尾)。

步骤4:识别异常值
• 异常值单独标记(如圆圈或星号)。

• 需结合业务判断是否剔除或处理(如传感器故障数据)。

示例:某班级考试成绩箱线图中,有一个异常低分(40分),需调查是否缺考或作弊。


3. 实际案例解析:电商销售额箱线图


• Q2(中位数):靠近箱体底部 → 多数订单金额较低,少数高额订单拉高均值(右偏)。

• IQR:箱体较窄 → 大部分订单金额集中在小范围内。

• 异常值:多个极高值 → 可能存在大客户或刷单行为。


4. 常见分布形态判断

箱线图形状

数据分布特征

中位数居中,须线对称

近似对称分布(如正态分布)

中位数靠近Q1,上须长

右偏分布(如收入数据)

中位数靠近Q3,下须长

左偏分布(如考试成绩满分堆积)

箱体窄,须线短

数据高度集中

箱体宽,异常值多

数据分散且存在极端值


5. 解读时的注意事项

  1. 结合业务背景:异常值可能是错误数据,也可能是关键信息(如医疗中的罕见病例)。
  2. 样本量影响:小样本时箱线图可能不稳定,需谨慎解读。
  3. 补充其他图表:若发现双峰分布(如箱体分裂),需用直方图验证。

6. 实战练习
数据集:[22, 23, 24, 24, 25, 26, 27, 28, 29, 30, 50]

你的任务:

  1. 计算Q1、Q2、Q3和IQR。
  2. 判断是否存在异常值。
  3. 描述数据分布形态。

答案:

  1. Q1=24, Q2=26, Q3=29, IQR=5
  2. 异常值边界:24-7.5=16.5,29+7.5=36.5 → 50是异常值。
  3. 中位数略低于箱体中心,上须极长 → 明显右偏,存在极端大值。

总结
箱线图的本质是用五个数字概括数据分布,快速判断数据偏态和离散程度,识别异常值,比较多组数据差异。


补充知识一:​数据的测量尺度

数据的测量尺度(Measurement Scale)​​ 是指数据的分类方式,反映了数据的性质、可进行的数学运算以及适用的统计分析方法,它决定了你能用这些数据做什么样的计算和分析。

通常分为 ​4 种测量尺度,从低到高依次为:

在统计学中,​数据的测量尺度(Measurement Scale)​​ 是指数据的分类方式,反映了数据的性质、可进行的数学运算以及适用的统计分析方法。它决定了你能用这些数据做什么样的计算和分析。

通常分为 ​4 种测量尺度,从低到高依次为:

1. ​名义尺度(Nominal Scale)​

  • 特点​:数据仅用于分类或标记,没有顺序、大小或数学意义。
  • 例子​:
    • 性别(男、女、其他)
    • 颜色(红、蓝、绿)
    • 国家(中国、美国、日本)
  • 可进行的运算​:
    • 计算频数(如“男性有多少人”)
    • 计算众数(哪个类别出现最多)
    • 不能计算平均数、中位数(因为类别没有数值意义)
  • 统计方法​:卡方检验、列联表分析


2. ​顺序尺度(Ordinal Scale)​

  • 特点​:数据可以排序,但无法精确衡量差异大小。
  • 例子​:
    • 教育程度(小学、中学、大学、研究生)
    • 满意度评分(非常不满意、不满意、一般、满意、非常满意)
    • 比赛名次(第一名、第二名、第三名)
  • 可进行的运算​:
    • 可以计算中位数、百分位数
    • 可以比较大小(如“大学学历 > 中学学历”)
    • 不能计算平均数(因为“非常满意”比“满意”高多少无法量化)
  • 统计方法​:秩和检验(如 Mann-Whitney U 检验)、Spearman 等级相关

3. ​等距尺度(Interval Scale)​

  • 特点​:数据有顺序,且可以计算差异,但没有绝对零点(即“0”不代表完全没有)。
  • 例子​:
    • 温度(摄氏度或华氏度,0°C 不代表没有温度)
    • IQ 分数(0 分不代表完全没有智力)
    • 年份(2020 年、2021 年,但“0 年”是人为设定的)
  • 可进行的运算​:
    • 可以计算平均数、标准差
    • 可以加减(如“30°C 比 20°C 高 10°C”)
    • 不能乘除(因为“20°C 不是 10°C 的两倍热”)
  • 统计方法​:t 检验、ANOVA、Pearson 相关


4. ​比率尺度(Ratio Scale)​

  • 特点​:数据有顺序、可计算差异,​且有绝对零点​(“0”代表完全没有)。
  • 例子​:
    • 身高(0 cm 代表没有高度)
    • 体重(0 kg 代表没有重量)
    • 收入(0 元代表没有收入)
    • 反应时间(0 秒代表没有时间)
  • 可进行的运算​:
    • 可以计算所有统计量(平均数、中位数、标准差等)
    • 可以加减乘除(如“100 kg 是 50 kg 的两倍”)
  • 统计方法​:所有参数检验(回归分析、t 检验等)

总结表格

测量尺度特点例子可计算统计量适用统计方法
名义尺度分类,无顺序性别、颜色频数、众数卡方检验
顺序尺度可排序,但差异无意义满意度、名次中位数、百分位数秩和检验
等距尺度可计算差异,无绝对零点温度、IQ平均数、标准差t 检验、ANOVA
比率尺度可计算比例,有绝对零点身高、收入所有统计量回归分析

为什么测量尺度重要?​

  • 决定你能做什么计算​(如名义数据不能算平均数)
  • 决定你能用什么统计方法​(如 t 检验要求至少等距尺度)
  • 避免错误分析​(如用卡方检验分析比率数据会浪费信息

补充知识二:统计量分类

统计量分类系统地分为两大类:集中趋势量数(基本量)和离散程度量数(变异量)。以下是详细说明:

一、集中趋势量数(基本量)

描述数据分布的"中心位置"或"典型值":

  1. 平均数(Mean)
  • 所有数据之和除以数据个数
  • 对极端值敏感
  • 适用于连续数据
  1. 中位数(Median)
  • 将数据排序后位于中间位置的值
  • 不受极端值影响
  • 适用于顺序数据和偏态分布
  1. 众数(Mode)
  • 数据中出现最频繁的值
  • 可存在多个众数
  • 适用于分类数据

二、离散程度量数(变异量)

描述数据的"分散程度"或"变异性":

  1. 全距(Range)
  • 最大值与最小值之差
  • 计算简单但易受极端值影响
  1. 标准差(Standard Deviation)
  • 各数据点与平均数距离平方的平均值的平方根
  • 最常用的变异量指标
  • 单位与原数据相同
  1. 四分位距(IQR, Interquartile Range)
  • 第75百分位数与第25百分位数之差
  • 反映中间50%数据的离散程度
  • 不受极端值影响

补充说明:

  • 四分差(Quartile Deviation)= IQR/2,较少使用
  • 方差(Variance)是标准差的平方,也属于变异量
  • 变异系数(CV)= 标准差/平均数,用于比较不同单位的变异程度

这些量数的选择需考虑:
数据的测量尺度(分类/顺序/等距/比率)
② 数据分布形态(正态/偏态)
③ 是否存在极端值
④ 分析的具体目的

http://www.dtcms.com/a/328943.html

相关文章:

  • Redis持久化机制详解:RDB与AOF的全面对比与实践指南
  • 动静态库
  • FPGA的PS基础1
  • 【FPGA】初始Verilog HDL
  • c++编程题-笔记
  • kali linux 2025.2安装Matlab的详细教程
  • 通过限制网络访问来降低服务器被攻击风险的方法
  • 服务器如何应对SYN Flood攻击?
  • FluxApi - 使用Spring进行调用Flux接口
  • Gradle(三)创建一个 SpringBoot 项目
  • 深度学习(3):全连接神经网络构建
  • mysql的快照读与当前读的区别
  • 11G RAC数据文件创建到本地如何处理
  • 【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day3
  • 《算法导论》第 22 章 - 基本的图算法
  • [AXI5]AXI协议中的Scalar atomic和Vector atomic有什么区别?
  • 【算法】位运算经典例题
  • BM25:概率检索框架下的经典相关性评分算法
  • ADB 无线调试连接(Windows + WSL 环境)
  • 如何在VS里使用MySQL提供的mysql Connector/C++的debug版本
  • C++ 优选算法 力扣 209.长度最小的子数组 滑动窗口 (同向双指针)优化 每日一题 详细题解
  • Java Spring框架最新版本及发展史详解(截至2025年8月)-优雅草卓伊凡
  • graphql接口快速使用postman添加接口以及输入返回参数
  • 超越相似名称:Elasticsearch semantic text 如何在简洁、高效、集成方面超越 OpenSearch semantic 字段
  • 5.语句几个分类
  • 自建知识库,向量数据库 体系建设(四)之文本向量与相似度计算——仙盟创梦IDE
  • 药房智能盘库系统的Python编程分析与实现—基于计算机视觉与时间序列预测的智能库存管理方案
  • Ubuntu下快速安装Tomcat教程
  • ubuntu24.04安装 bpftool 以及生成 vmlinux.h 文件
  • 4 种方法将联系人从 iPhone 传输到 realme