当前位置: 首页 > news >正文

什么是EDA(Exploratory Data Analysis,探索性数据分析)

EDA(Exploratory Data Analysis,探索性数据分析)是一种在正式建模前,通过统计量可视化方法来理解数据特征、发现模式与异常、并提出假设的过程。

这张图里你会看到:

  • 直方图:展示单变量的分布,并用红色虚线标出平均值,帮助理解集中趋势

  • 散点图:揭示两个变量之间的关系和可能的相关性

  • 方差柱状图:直观比较不同变量的波动大小

  • 均值标注:让你快速定位数据的中心位置

******  整理 by Moshow郑锴@https://zhengkai.blog.csdn.net/

这里再用表格梳理一下“平均值+方差、散点图+直方图”在 EDA 中的作用👇

方法/指标类型主要作用优点常见注意点
平均值 (Mean)描述性统计衡量数据的集中趋势直观易懂,计算简单容易受极端值影响
方差 (Variance)描述性统计衡量数据离散程度能反映波动大小受量纲影响,需要配合标准差使用
散点图 (Scatter Plot)可视化观察两变量之间的关系、趋势或聚类能发现相关性与离群点当数据量太大时可能变得难以辨别
直方图 (Histogram)可视化显示单变量的分布形态清晰展示分布特征和偏态组距选择影响效果

💡 小贴士:

  • 平均值+方差适合做数值型特征的整体概览

  • 散点图更适合找变量之间的关系

  • 直方图能帮助识别分布是否偏态、是否存在多峰

http://www.dtcms.com/a/335673.html

相关文章:

  • AI出题人给出的Java后端面经(十七)(日更)
  • 第 463 场周赛(GPT-3,Me-1)
  • Foreign-Memory Access API外部内存API
  • 混沌工程(Chaos engineering):系统韧性保障之道
  • 计算机网络 HTTPS 全流程
  • p5.js 3D 形状 “预制工厂“——buildGeometry ()
  • 【位运算】查询子数组最大异或值|2693
  • 图灵完备(Turing Complete)免安装中文版
  • 关于pygsp引发的一系列问题和实例小demo
  • ​​Vue 3 开发速成手册
  • 裸机框架:按键模组
  • macos 安装nodepad++ (教程+安装包+报错后的解决方法)
  • AI证书怎么选
  • 交叉编译 手动安装 SQLite 库 移植ARM
  • 基于Vue + Node能源采购系统的设计与实现/基于express的能源管理系统#node.js
  • JavaScript 性能优化实战大纲
  • 记SpringBoot3.x + Thymeleaf 项目实现(MVC架构模式)
  • .NET 中的延迟初始化:Lazy<T> 与LazyInitializer
  • 【Java后端】MyBatis-Plus 原理解析
  • Unity进阶--C#补充知识点--【Unity跨平台的原理】了解.Net
  • Linux | i.MX6ULL网络通信-套字节 UDP(第十八章)
  • 【牛客刷题】后缀子串字母统计:O(n)高效算法详解
  • python实现梅尔频率倒谱系数(MFCC) 除了傅里叶变换和离散余弦变换
  • 数学建模 15 逻辑回归与随机森林
  • 大上墨水屏显示器Paperlike253 Mac 特别版 使用体会
  • MySQL数据库初识
  • 黑马java八股文全集
  • AUTOSAR ARXML介绍
  • 数据结构(排序篇)——七大排序算法奇幻之旅:从扑克牌到百亿数据的魔法整理术
  • C++编程实战:高效解决算法与数据结构问题