统计分析相关基础概念解释
1. 主要对比概述
分析类型 | 核心目标 | 输出形式 | 输出结果 |
---|---|---|---|
描述性统计 | 数据概括 | 统计指标/图表 | 均值、标准差、图表 |
探索性统计 | 发现模式 | 可视化/潜在假设 | 相关性、异常值、可视化结果 |
推断性统计 | 验证假设/推断总体 | p值/置信区间 | p值、置信区间、回归系数 |
预测性统计 | 预测未来结果 | 预测值/模型性能指标 | 预测值、概率 |
- 描述性统计是基础,为其他分析提供数据概览。
- 探索性统计发现潜在关系,为推断性统计和预测性统计提供方向。
- 推断性统计验证假设,为预测性统计提供理论支持。
- 预测性统计基于前三者,实现实际业务应用。
示例:
- 描述性分析:分析销售数据的月均销售额和波动性。
- 探索性分析:通过热力图发现销售额与节假日强相关。
- 推断性分析:检验促销活动是否显著提升销量(假设检验)。
- 预测性分析:构建LSTM模型预测下季度销售额。
2. 描述性统计分析 (Descriptive Statistics)
目标:描述性统计分析是对数据进行总结和展示,旨在揭示数据的基本特征和分布规律,不涉及推断或预测,即总结和呈现数据的基本特征。
-
主要内容:
-
集中趋势:均值、中位数、众数
示例:某班级考试成绩的平均分为85分。 -
离散程度:方差、标准差、极差、四分位距
示例:考试成绩的标准差为10分,表明分数波动较大。 -
分布形态:偏态、峰态、直方图、箱线图
示例:直方图显示成绩分布呈右偏态,说明高分段人数较少。 -
数据可视化:直方图、箱线图、条形图、频率表
-
-
应用场景:
-
生成数据报告(如销售数据概览)
-
初步了解数据集(如分析学生考试成绩分布)
-
质量检查(如检测异常值)
-
示例:计算某公司员工年龄的平均值和标准差,绘制工资分布直方图。
-
3. 探索性统计分析 (Exploratory Data Analysis, EDA)
目标:探索性统计分析是对数据进行深入挖掘,旨在发现数据中的模式、关系和潜在问题,为后续分析提供方向,即通过可视化和灵活的方法发现数据中的模式、异常或潜在关系。
-
主要内容:
-
多维可视化:散点图矩阵、热力图、平行坐标图
示例:散点图显示收入与消费支出呈正相关。 -
聚类分析:相关性分析、主成分分析(PCA)
示例:热力图显示变量A与变量B的相关系数为0.8。 -
异常值处理:基于统计规则或业务逻辑识别异常值
示例:发现某客户年龄为150岁,可能为数据录入错误。 -
交互式工具:Jupyter Notebook、Tableau
-
-
应用场景:
- 数据清洗前的初步探索
- 特征工程中的变量筛选
- 假设生成(如发现变量间可能存在因果关系)
- 示例:通过散点图发现销售额与广告投入的非线性关系,进而决定是否引入多项式回归。
4. 推断性统计分析 (Inferential Statistics)
目标:推断性统计分析是通过样本数据对总体进行推断,旨在验证假设或估计总体参数,即推断总体特征验证假设。
-
主要内容:
- 假设检验:t检验、卡方检验、ANOVA(方差分析)
示例:t检验显示新药疗效显著优于对照组(p < 0.05)。 - 参数估计:置信区间、点估计
示例:总体均值的95%置信区间为[80, 90]。 - 回归分析:线性回归、逻辑回归、皮尔逊相关系数
示例:回归模型显示广告投入每增加1万元,销售额增加0.5万元。 - 贝叶斯统计:后验概率推断
- 假设检验:t检验、卡方检验、ANOVA(方差分析)
-
应用场景:
- 实验结果验证(如A/B测试)(如比较新旧页面转化率)
- 因果关系验证(如双重差分法)
- 科学研究结论验证
- 示例:通过抽样调查推断全国网民日均上网时间的95%置信区间,并进行性别差异的t检验。
5. 预测性统计分析 (Predictive Analytics)
目标:预测性统计分析是利用历史数据构建模型,对未来事件或结果进行预测,旨在辅助决策,即利用历史数据预测未来结果。
-
主要内容:
- 模型构建:时间序列分析(ARIMA、LSTM神经网络)、机器学习算法(如随机森林、神经网络)、分类模型(SVM、随机森林)、回归模型(线性回归、决策树)
示例:ARIMA模型预测下季度销售额为1000万元。 - 模型评估:交叉验证、ROC曲线、准确率、召回率、均方误差(MSE)、RMSE
示例:随机森林模型的预测准确率为85%。 - 预测应用:需求预测、风险评估、客户流失预测
示例:基于客户行为数据预测其未来3个月的流失概率。
- 模型构建:时间序列分析(ARIMA、LSTM神经网络)、机器学习算法(如随机森林、神经网络)、分类模型(SVM、随机森林)、回归模型(线性回归、决策树)
-
应用场景:
-
销量预测(如零售行业库存管理)
-
风险评分(如银行信用风险评估)
-
个性化推荐(如电商用户行为预测)
-
示例:基于历史天气和销售数据训练随机森林模型,预测下周冰淇淋销量。
-
6. 常用概念解释
-
均值 :数据总和除以数量,反映整体平均水平(如10个数的总和除以10)。
-
中位数 :将数据从小到大排列后位于中间的数值(若偶数个数据,取中间两数的平均值)。
-
四分位数 :将数据从小到大排列后分为四等份的三个分割点(Q1、Q2、Q3),用于描述数据分布和识别离群值。
-
众数 :数据中出现次数最多的数值(可能有多个或不存在)。
-
方差 :数据与均值差的平方的平均值,衡量数据波动大小。
-
标准差 :方差的平方根,与原始数据单位一致,直观表示离散程度。
-
极差 :最大值与最小值的差,反映数据范围。
-
四分位距 :第三四分位数(75%位置)与第一四分位数(25%位置)的差,减少极端值影响。
-
偏态 :数据分布的对称性指标(左偏:均值<中位数;右偏:均值>中位数)。
-
峰态 :数据分布峰度的高低(高峰态:数据更集中;低峰态:数据更分散)。
-
直方图 :用柱状高度表示数据分布频率,横轴为数据区间。
-
箱线图 :展示中位数、四分位距及离群值的箱形图,适合对比多组数据。
-
散点图矩阵 :多变量两两绘制散点图的矩阵,用于观察变量间关系。
-
热力图 :用颜色深浅表示数值强弱(如相关系数矩阵)。
-
平行坐标图 :将多维数据映射到平行轴上,便于观察高维模式。
-
Pearson相关性检验 :用数值衡量两个连续变量的线性关系强度和方向,1为强正相关,-1为强负相关。
-
皮尔逊相关系数 :同Pearson相关性检验,量化两变量线性相关性(-1到1)。
-
相关性分析 :通过统计系数(如皮尔逊相关系数)衡量变量间的线性关联强度。
-
主成分分析 :将多变量数据降维,保留主要信息并消除冗余。
-
假设检验:通过样本数据判断关于总体参数的某个假设是否成立。
-
卡方检验 :通过比较观察数据与理论预期的频数差异,判断分类变量是否独立或相关。
-
t检验 :比较两组数据的平均值来判断它们是否存在显著差异,要求数据近似正态分布,常用于小样本分析。
-
独立样本t检验 :比较两组独立数据的均值(如实验组与对照组的疗效)。
-
配对样本t检验 :分析同一组数据在不同条件下的差异(如治疗前后的指标变化)。
-
ANOVA(方差分析) :比较三组及以上数据的均值差异,分析不同组间方差是否显著。
-
均值检验 :通过统计方法(如t检验、ANOVA)判断不同组数据的平均值是否存在显著差异。
-
Shapiro正态性检验 :通过统计方法验证数据是否符合正态分布,属于正态性检验的一种。
-
正态性检验 :判断数据是否服从钟形对称分布(正态分布),常用方法包括Q-Q图和统计检验。
-
相关系数检验 :检验变量间的相关系数是否显著(如皮尔逊相关系数是否显著不为零)。
-
卡方分布 :描述卡方检验中观察值与期望值偏差平方和的理论分布,用于假设检验。
-
高斯分布 :即正态分布,数据集中在均值周围对称分布,常见于自然现象(如身高、体重)
-
二项分布 :描述n次独立试验中成功次数的概率分布(如抛硬币结果)。
-
泊松分布 :预测单位时间内随机事件发生次数的概率分布(如一天内接到的电话量)。
-
点估计 :用样本统计量(如样本均值)直接估计总体参数(如总体均值)。
-
区间估计 :通过置信区间(如95%置信区间)估计总体参数的可能范围。
-
决策树 :树形模型,通过特征逐层分类(如根据年龄、收入判断是否购买)。
-
随机森林 :多个决策树组合的模型,通过投票或平均提高预测准确性。
-
支持向量机(SVM) :寻找最优分界线(超平面)划分不同类别数据的分类方法。
-
聚类模型 :无监督学习方法,按数据相似性自动分组(如客户分群)。
-
K均值 :将数据分为k个簇,每簇数据点与中心点距离最小。
-
回归模型 :预测连续数值(如房价、温度)的统计模型。
-
线性回归 :用直线关系预测连续值(如根据面积预测房价)。
-
逻辑回归 :用概率模型预测二分类结果(如是否患病)。
-
时间序列分析 :通过分析历史数据的时间规律(如趋势、周期性)预测未来值,常用于金融、气象等领域。
-
ARIMA :结合自回归(AR)、差分(I)和移动平均(MA)的模型,用于非平稳时间序列的预测。
-
神经网络 :模拟人脑结构的机器学习模型,通过多层计算单元学习复杂模式。
-
LSTM神经网络 :一种擅长处理序列数据(如时间、文本)的循环神经网络,通过记忆单元捕捉长期依赖关系。
决策树 :树形模型,通过特征逐层分类(如根据年龄、收入判断是否购买)。 -
随机森林 :多个决策树组合的集成模型,通过投票或平均提高预测准确性。
-
分类模型 :预测离散类别标签的监督学习模型(如垃圾邮件识别)。
-
交叉验证 :将数据分为多份,轮流用不同子集训练和验证模型,评估泛化能力。
-
真正率(TPR) :模型正确识别出的正类样本占所有实际正类的比例(如实际100封垃圾邮件中正确识别90封90%),越高,说明模型“找得全”(如疾病筛查不漏诊)
-
假正率(FPR) :模型错误将负类样本判定为正类的比例(如实际100封正常邮件中误判5封为垃圾邮件5%),越低,说明模型“误判少”(如安检不误报警)。
-
准确率 :所有预测正确的样本占总样本的比例(如100次预测中80次正确)。
-
精确率 :预测为正类的样本中实际为正类的比例(如预测100封垃圾邮件中实际有80封正确80%)。
-
召回率 :与真正率TPR相同,衡量模型对正类的覆盖能力。
-
ROC曲线 :以真正率(TPR)和假正率(FPR)为坐标绘制的曲线,衡量分类模型性能。
-
AUC值 :ROC曲线下的面积,AUC越大表示模型整体性能越好(如AUC=1为完美分类)。
-
权衡关系 :提高TPR可能导致FPR上升(如放宽垃圾邮件判定标准会提高识别率但增加误判)
-
均方误差(MSE) :预测值与实际值差值平方的平均值,衡量回归模型误差。
-
RMSE :均方误差的平方根,与原始数据单位一致,更直观反映预测误差。