直方图 vs 箱线图:两种看数据分布的思路差异
直方图 vs 箱线图:两种看数据分布的思路差异
在做数据分析时,我们最常被问到的问题之一是:
“这个数据长什么样?”
而要回答这个问题,直方图(Histogram)和箱线图(Boxplot)是最常用的两种可视化工具。
它们都能帮我们“看懂数据分布”,但思维方式完全不同:
- 直方图是画出“全貌”,告诉你数据在哪些区间密集、是否偏斜、有没有多个峰值。
- 箱线图是提炼“摘要”,告诉你数据大致分布在哪个范围、有无异常值、中位数位置在哪。
很多分析师在工作中会混用甚至误用它们。本文将带你透彻理解两者的原理、差异、优缺点及典型业务应用,帮助你在合适的场景选择正确的图。
一、直方图:看数据“形状”的利器
直方图最适合回答这样的问题:
“我的数据整体分布是怎样的?”
它的思路非常直观:把连续变量分成若干区间(bin),计算每个区间的样本数量(或比例),用条形高度表示。
比如你在分析一家餐饮企业的菜品定价,把所有菜价分成若干区间(0-5元、5-10元、10-15元……),就能画出如下图形:
价格区间(元) →
|
| ████
| ████████████
| ██████████████████
|███████████████████
+----------------------------0-5 5-10 10-15 15-20
从中你能一眼看出:
- 菜品主要集中在 5~15元区间;
- 价格分布略偏右,说明有少量高价菜。
🔍 直方图能看出什么?
- 分布形态:是对称、右偏还是左偏?
- 集中区域:数据主要落在哪些区间?
- 峰态信息:是否存在多个高峰(如双峰分布)?
在分析连续变量(如收入、销售额、停留时长)时,直方图能帮助你迅速判断数据是否“正常”。
例如,在电商平台的日销售额分布中,你可能发现大多数商家集中在1000~5000元区间,但有一部分商家销量异常高,这就是典型的右偏分布。
✅ 优点
- 能清晰展示数据的形态细节。
- 直观感受分布的“样子”。
❌ 缺点
- 不显示具体统计量(如中位数、IQR)。
- bin数量不同可能导致形状变化,容易误判。
二、箱线图:用统计摘要“速读”数据
箱线图的思维方式则完全不同。
它不关心数据形状,而是通过**统计摘要(Summary Statistics)**快速展示分布特征。
构成部分包括:
- Q1(下四分位数)
- Q2(中位数)
- Q3(上四分位数)
- IQR(四分位距 = Q3 - Q1)
- 须线:一般延伸至 Q1 - 1.5×IQR 和 Q3 + 1.5×IQR
- 异常值:超出须线的独立点
如下图所示:
| o o ← 异常值| ┌───────────┐| │ │ │|──────┘ │ │ └─────── ← 须线Q1 Q2 Q3
一个箱线图,几乎囊括了你想知道的全部“摘要信息”:
- 数据的中位数(Q2)在哪里?
- 数据分布是否对称?
- 数据是否离散?
- 有没有异常点?
📈 举个例子
银行在分析客户资产时,可以用箱线图对比不同客户群体的存款金额分布:
- 箱体高 → 数据离散程度大;
- 箱体低 → 群体较集中;
- 须线外点 → 潜在高净值客户(异常值)。
这样一张图,就能直观地看到哪类客户更“稳定”,哪类客户差异更大。
✅ 优点
- 抗异常值能力强,简洁展示核心统计信息;
- 适合多组数据对比,比如不同地区的销售额分布。
❌ 缺点
- 隐藏了分布形态,比如无法看出是否双峰;
- 对小样本数据不稳定。
三、直方图 vs 箱线图:结构与视觉的差异
特征 | 直方图 | 箱线图 |
---|---|---|
核心思路 | 展示分布形态 | 展示统计摘要 |
组成元素 | 多个条形 | 箱体、中位线、须线、异常点 |
横轴含义 | 连续变量区间(如价格段) | 分组标签(如地区、性别) |
纵轴含义 | 频数或频率 | 数值范围 |
可对比性 | 需叠加多个直方图,易重叠 | 可并列多个箱体,清晰对比 |
适用场景 | 单变量分布分析 | 多组分布对比与异常检测 |
对异常值敏感度 | 高 | 低 |
换句话说:
- 想看“数据形状” → 画直方图;
- 想看“数据范围和异常” → 画箱线图。
四、在业务分析中,怎么选?
💡 场景1:餐饮行业定价分析
假设你在做一家快餐品牌的菜品定价研究:
-
直方图能告诉你:
菜品价格集中在哪个区间(3~15元),是否存在多个定价峰值(如主食和小吃两个价格层次)。 -
箱线图能告诉你:
价格分布是否稳定,有无异常高价菜(如20元以上的饮品或套餐)。
👉 最佳实践:
先用直方图看形态,再用箱线图看异常。
💡 场景2:银行客户资产对比
银行想比较不同客户群体(如普通客户、VIP客户)的存款分布情况。
- 直方图叠加两组数据可能会混乱;
- 箱线图则能清楚地展示两者的中位数差异和高净值异常点。
👉 最佳实践:
对比多组分布时,优先使用箱线图。
💡 场景3:模型数据检查
在机器学习前的数据预处理阶段,我们经常会用这两种图检查变量:
- 用直方图看变量是否偏态严重(是否需要做对数变换);
- 用箱线图检查异常值是否影响模型训练。
👉 最佳实践:
直方图判断“是否正态”,箱线图判断“是否异常”。
五、两种图结合:从“形状”到“摘要”的完整视角
真正成熟的分析师不会“二选一”,而是灵活结合两者。
比如你分析一组“员工月薪”数据:
- 先画直方图,看到分布右偏(多数人集中在5k~8k,少数人收入极高);
- 再画箱线图,确认中位数(6.5k)、四分位范围(5k~8.5k),并标出极端高薪异常点。
两者结合,你既能了解“形状”,也能掌握“结构”,让分析结论更有说服力。
六、总结:直方图与箱线图的选择思路
目标 | 推荐图表 | 关键洞察 |
---|---|---|
看数据是否偏态/双峰 | 直方图 | 展示分布形态 |
看数据是否有异常值 | 箱线图 | 标识离群点 |
对比不同群体的中位数 | 箱线图 | 比较中心位置 |
探查变量的集中区间 | 直方图 | 显示密集区域 |
模型前变量检查 | 两者结合 | 形态+异常双视角 |
一句话总结:
直方图告诉你“数据怎么分布”,箱线图告诉你“数据分布到哪里”。
当你能灵活地在两者间切换,你就具备了“用图像看数据”的真正能力。