什么是EDA(Exploratory Data Analysis,探索性数据分析)
EDA(Exploratory Data Analysis,探索性数据分析)是一种在正式建模前,通过统计量和可视化方法来理解数据特征、发现模式与异常、并提出假设的过程。
这张图里你会看到:
-
直方图:展示单变量的分布,并用红色虚线标出平均值,帮助理解集中趋势
-
散点图:揭示两个变量之间的关系和可能的相关性
-
方差柱状图:直观比较不同变量的波动大小
-
均值标注:让你快速定位数据的中心位置
****** 整理 by Moshow郑锴@https://zhengkai.blog.csdn.net/
这里再用表格梳理一下“平均值+方差、散点图+直方图”在 EDA 中的作用👇
方法/指标 | 类型 | 主要作用 | 优点 | 常见注意点 |
---|---|---|---|---|
平均值 (Mean) | 描述性统计 | 衡量数据的集中趋势 | 直观易懂,计算简单 | 容易受极端值影响 |
方差 (Variance) | 描述性统计 | 衡量数据离散程度 | 能反映波动大小 | 受量纲影响,需要配合标准差使用 |
散点图 (Scatter Plot) | 可视化 | 观察两变量之间的关系、趋势或聚类 | 能发现相关性与离群点 | 当数据量太大时可能变得难以辨别 |
直方图 (Histogram) | 可视化 | 显示单变量的分布形态 | 清晰展示分布特征和偏态 | 组距选择影响效果 |
💡 小贴士:
-
平均值+方差适合做数值型特征的整体概览
-
散点图更适合找变量之间的关系
-
直方图能帮助识别分布是否偏态、是否存在多峰