当前位置: 首页 > news >正文

统计分析相关基础概念解释

1. 主要对比概述

分析类型核心目标输出形式输出结果
描述性统计数据概括统计指标/图表均值、标准差、图表
探索性统计发现模式可视化/潜在假设相关性、异常值、可视化结果
推断性统计验证假设/推断总体p值/置信区间p值、置信区间、回归系数
预测性统计预测未来结果预测值/模型性能指标预测值、概率
  • 描述性统计是基础,为其他分析提供数据概览。
  • 探索性统计发现潜在关系,为推断性统计和预测性统计提供方向。
  • 推断性统计验证假设,为预测性统计提供理论支持。
  • 预测性统计基于前三者,实现实际业务应用。

示例:

  1. 描述性分析:分析销售数据的月均销售额和波动性。
  2. 探索性分析:通过热力图发现销售额与节假日强相关。
  3. 推断性分析:检验促销活动是否显著提升销量(假设检验)。
  4. 预测性分析:构建LSTM模型预测下季度销售额。

2. 描述性统计分析 (Descriptive Statistics)

目标:描述性统计分析是对数据进行总结和展示,旨在揭示数据的基本特征和分布规律,不涉及推断或预测,即总结和呈现数据的基本特征。

  • 主要内容:

    • 集中趋势:均值、中位数、众数
      示例:某班级考试成绩的平均分为85分。

    • 离散程度:方差、标准差、极差、四分位距
      示例:考试成绩的标准差为10分,表明分数波动较大。

    • 分布形态:偏态、峰态、直方图、箱线图
      示例:直方图显示成绩分布呈右偏态,说明高分段人数较少。

    • 数据可视化:直方图、箱线图、条形图、频率表

  • 应用场景:

    • 生成数据报告(如销售数据概览)

    • 初步了解数据集(如分析学生考试成绩分布)

    • 质量检查(如检测异常值)

    • 示例:计算某公司员工年龄的平均值和标准差,绘制工资分布直方图。

3. 探索性统计分析 (Exploratory Data Analysis, EDA)

目标:探索性统计分析是对数据进行深入挖掘,旨在发现数据中的模式、关系和潜在问题,为后续分析提供方向,即通过可视化和灵活的方法发现数据中的模式、异常或潜在关系。

  • 主要内容:

    • 多维可视化:散点图矩阵、热力图、平行坐标图
      示例:散点图显示收入与消费支出呈正相关。

    • 聚类分析:相关性分析、主成分分析(PCA)
      示例:热力图显示变量A与变量B的相关系数为0.8。

    • 异常值处理:基于统计规则或业务逻辑识别异常值
      示例:发现某客户年龄为150岁,可能为数据录入错误。

    • 交互式工具:Jupyter Notebook、Tableau

  • 应用场景:

    • 数据清洗前的初步探索
    • 特征工程中的变量筛选
    • 假设生成(如发现变量间可能存在因果关系)
    • 示例:通过散点图发现销售额与广告投入的非线性关系,进而决定是否引入多项式回归。

4. 推断性统计分析 (Inferential Statistics)

目标:推断性统计分析是通过样本数据对总体进行推断,旨在验证假设或估计总体参数,即推断总体特征验证假设。

  • 主要内容:

    • 假设检验:t检验、卡方检验、ANOVA(方差分析)
      示例:t检验显示新药疗效显著优于对照组(p < 0.05)。
    • 参数估计:置信区间、点估计
      示例:总体均值的95%置信区间为[80, 90]。
    • 回归分析:线性回归、逻辑回归、皮尔逊相关系数
      示例:回归模型显示广告投入每增加1万元,销售额增加0.5万元。
    • 贝叶斯统计:后验概率推断
  • 应用场景:

    • 实验结果验证(如A/B测试)(如比较新旧页面转化率)
    • 因果关系验证(如双重差分法)
    • 科学研究结论验证
    • 示例:通过抽样调查推断全国网民日均上网时间的95%置信区间,并进行性别差异的t检验。

5. 预测性统计分析 (Predictive Analytics)

目标:预测性统计分析是利用历史数据构建模型,对未来事件或结果进行预测,旨在辅助决策,即利用历史数据预测未来结果。

  • 主要内容:

    • 模型构建:时间序列分析(ARIMA、LSTM神经网络)、机器学习算法(如随机森林、神经网络)、分类模型(SVM、随机森林)、回归模型(线性回归、决策树)
      示例:ARIMA模型预测下季度销售额为1000万元。
    • 模型评估:交叉验证、ROC曲线、准确率、召回率、均方误差(MSE)、RMSE
      示例:随机森林模型的预测准确率为85%。
    • 预测应用:需求预测、风险评估、客户流失预测
      示例:基于客户行为数据预测其未来3个月的流失概率。
  • 应用场景:

    • 销量预测(如零售行业库存管理)

    • 风险评分(如银行信用风险评估)

    • 个性化推荐(如电商用户行为预测)

    • 示例:基于历史天气和销售数据训练随机森林模型,预测下周冰淇淋销量。

6. 常用概念解释

  • 均值 :数据总和除以数量,反映整体平均水平(如10个数的总和除以10)。

  • 中位数 :将数据从小到大排列后位于中间的数值(若偶数个数据,取中间两数的平均值)。

  • 四分位数 :将数据从小到大排列后分为四等份的三个分割点(Q1、Q2、Q3),用于描述数据分布和识别离群值。

  • 众数 :数据中出现次数最多的数值(可能有多个或不存在)。

  • 方差 :数据与均值差的平方的平均值,衡量数据波动大小。

  • 标准差 :方差的平方根,与原始数据单位一致,直观表示离散程度。

  • 极差 :最大值与最小值的差,反映数据范围。

  • 四分位距 :第三四分位数(75%位置)与第一四分位数(25%位置)的差,减少极端值影响。

  • 偏态 :数据分布的对称性指标(左偏:均值<中位数;右偏:均值>中位数)。

  • 峰态 :数据分布峰度的高低(高峰态:数据更集中;低峰态:数据更分散)。

  • 直方图 :用柱状高度表示数据分布频率,横轴为数据区间。

  • 箱线图 :展示中位数、四分位距及离群值的箱形图,适合对比多组数据。

  • 散点图矩阵 :多变量两两绘制散点图的矩阵,用于观察变量间关系。

  • 热力图 :用颜色深浅表示数值强弱(如相关系数矩阵)。

  • 平行坐标图 :将多维数据映射到平行轴上,便于观察高维模式。

  • Pearson相关性检验 :用数值衡量两个连续变量的线性关系强度和方向,1为强正相关,-1为强负相关。

  • 皮尔逊相关系数 :同Pearson相关性检验,量化两变量线性相关性(-1到1)。

  • 相关性分析 :通过统计系数(如皮尔逊相关系数)衡量变量间的线性关联强度。

  • 主成分分析 :将多变量数据降维,保留主要信息并消除冗余。

  • 假设检验:通过样本数据判断关于总体参数的某个假设是否成立。

  • 卡方检验 :通过比较观察数据与理论预期的频数差异,判断分类变量是否独立或相关。

  • t检验 :比较两组数据的平均值来判断它们是否存在显著差异,要求数据近似正态分布,常用于小样本分析。

  • 独立样本t检验 :比较两组独立数据的均值(如实验组与对照组的疗效)。

  • 配对样本t检验 :分析同一组数据在不同条件下的差异(如治疗前后的指标变化)。

  • ANOVA(方差分析) :比较三组及以上数据的均值差异,分析不同组间方差是否显著。

  • 均值检验 :通过统计方法(如t检验、ANOVA)判断不同组数据的平均值是否存在显著差异。

  • Shapiro正态性检验 :通过统计方法验证数据是否符合正态分布,属于正态性检验的一种。

  • 正态性检验 :判断数据是否服从钟形对称分布(正态分布),常用方法包括Q-Q图和统计检验。

  • 相关系数检验 :检验变量间的相关系数是否显著(如皮尔逊相关系数是否显著不为零)。

  • 卡方分布 :描述卡方检验中观察值与期望值偏差平方和的理论分布,用于假设检验。

  • 高斯分布 :即正态分布,数据集中在均值周围对称分布,常见于自然现象(如身高、体重)

  • 二项分布 :描述n次独立试验中成功次数的概率分布(如抛硬币结果)。

  • 泊松分布 :预测单位时间内随机事件发生次数的概率分布(如一天内接到的电话量)。

  • 点估计 :用样本统计量(如样本均值)直接估计总体参数(如总体均值)。

  • 区间估计 :通过置信区间(如95%置信区间)估计总体参数的可能范围。

  • 决策树 :树形模型,通过特征逐层分类(如根据年龄、收入判断是否购买)。

  • 随机森林 :多个决策树组合的模型,通过投票或平均提高预测准确性。

  • 支持向量机(SVM) :寻找最优分界线(超平面)划分不同类别数据的分类方法。

  • 聚类模型 :无监督学习方法,按数据相似性自动分组(如客户分群)。

  • K均值 :将数据分为k个簇,每簇数据点与中心点距离最小。

  • 回归模型 :预测连续数值(如房价、温度)的统计模型。

  • 线性回归 :用直线关系预测连续值(如根据面积预测房价)。

  • 逻辑回归 :用概率模型预测二分类结果(如是否患病)。

  • 时间序列分析 :通过分析历史数据的时间规律(如趋势、周期性)预测未来值,常用于金融、气象等领域。

  • ARIMA :结合自回归(AR)、差分(I)和移动平均(MA)的模型,用于非平稳时间序列的预测。

  • 神经网络 :模拟人脑结构的机器学习模型,通过多层计算单元学习复杂模式。

  • LSTM神经网络 :一种擅长处理序列数据(如时间、文本)的循环神经网络,通过记忆单元捕捉长期依赖关系。
    决策树 :树形模型,通过特征逐层分类(如根据年龄、收入判断是否购买)。

  • 随机森林 :多个决策树组合的集成模型,通过投票或平均提高预测准确性。

  • 分类模型 :预测离散类别标签的监督学习模型(如垃圾邮件识别)。

  • 交叉验证 :将数据分为多份,轮流用不同子集训练和验证模型,评估泛化能力。

  • 真正率(TPR) :模型正确识别出的正类样本占所有实际正类的比例(如实际100封垃圾邮件中正确识别90封90%),越高,说明模型“找得全”(如疾病筛查不漏诊)

  • 假正率(FPR) :模型错误将负类样本判定为正类的比例(如实际100封正常邮件中误判5封为垃圾邮件5%),越低,说明模型“误判少”(如安检不误报警)。

  • 准确率 :所有预测正确的样本占总样本的比例(如100次预测中80次正确)。

  • 精确率 :预测为正类的样本中实际为正类的比例(如预测100封垃圾邮件中实际有80封正确80%)。

  • 召回率 :与真正率TPR相同,衡量模型对正类的覆盖能力。

  • ROC曲线 :以真正率(TPR)和假正率(FPR)为坐标绘制的曲线,衡量分类模型性能。

  • AUC值 :ROC曲线下的面积,AUC越大表示模型整体性能越好(如AUC=1为完美分类)。

  • 权衡关系 :提高TPR可能导致FPR上升(如放宽垃圾邮件判定标准会提高识别率但增加误判)

  • 均方误差(MSE) :预测值与实际值差值平方的平均值,衡量回归模型误差。

  • RMSE :均方误差的平方根,与原始数据单位一致,更直观反映预测误差。

相关文章:

  • 预警,曾TRO冻结超500店,高地牛再维权
  • 信息化项目交付为什么越来越难?
  • [随笔杂谈] 计算机编程 —— 环境变量究竟是个什么东西?我该如何配置它?
  • 日本Shopify 3月数据:家居品类销售额激增120%!
  • 用Allan Deviation的方式估计长时间频率偏差
  • 数据结构和算法(六)--栈队列堆
  • LeetCode算法题(Go语言实现)_49
  • 【AIoT】智能硬件GPIO通信详解(二)
  • go 指针接收者和值接收者的区别
  • 【Pandas】pandas DataFrame pop
  • 【C++11】列表初始化、右值引用、完美转发、lambda表达式
  • 【adb】bat批处理+adb 自动亮屏,自动解锁屏幕,启动王者荣耀
  • 【C++11】新的类功能、模板的可变参数、包装器
  • ceph集群的pg卡住不同步处理记录【如objects degraded (0.223%)】、pg为unclean和degraded等状态处理
  • 网络原理 - 初识网络 2
  • ubuntu 24.02部署java web服务
  • 基于 Java 的淘宝 API 调用实践:商品详情页 JSON 数据结构解析与重构
  • SerialTest 在Linux环境上安装与编译文档
  • GIS开发笔记(7)结合osg及osgEarth实现不同高度下的三个圆形区域形成的三维覆盖轮廓区域绘制
  • AI 语音公司 ElevenLabs 进军亚太市场设立东京子公司;EverTutor Live :语音交互 AI 教育平台丨日报
  • 任丘网站建设/北京seo优化诊断
  • 南宁优质手机网站建设公司/seo百度推广
  • 企业网站需要哪些功能/最新的全国疫情
  • 破解asp网站后台密码/免费技能培训网
  • 内蒙建设厅官方网站/医院营销策略的具体方法
  • 做公司网站费用/成都网站建设技术外包