当前位置: 首页 > news >正文

人工智能基础知识笔记六:方差分析

人工智能基础知识笔记方差分析

1、什么是方差分析

**方差分析(Analysis of Variance, ANOVA)**是一种统计方法,用于比较三个或更多组之间的均值差异是否具有统计学意义。其核心思想是通过分析数据中的方差(变异)来源,判断组间差异是否显著大于组内差异。

关键假设

独立性:各组数据相互独立。

正态性:各组数据近似服从正态分布(大样本时影响较小)。

方差齐性:各组方差相等(可通过Levene检验等验证)。

若假设不满足,可使用非参数方法(如Kruskal-Wallis检验)或稳健ANOVA。

1.1、相关概念

试验指标:在试验中要考察的指标,也称为因变量。

因素:影响试验指标的条件,也称为自变量。要分析行业对投诉次数是否有影响,行业就是要检验的因素。

水平:因素所处的状态,即每个自变量的不同取值。

总体:因素的每一个水平可以看作一个总体,例如零售业、旅游业、航空公司、家电制造业可以看作4个总体。

如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验

样本数据:从总体中抽取的样本数据。

方差分析包括单因素方差分析、双因素方差分析和多因素方差分析。

​​​​​​​1.2、方差分析的基本思想

随机误差:某一因素的同一水平(同一个总体)下,样本各观察值之间的差异。例如,同一行业下,不同企业被投诉次数是不同的。这种差异可以看成是随机因素的影响,称为随机误差

系统误差:某一因素的不同水平(不同总体)下,各观察值之间的差异。例如,不同行业被投诉次数之间的差异。这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。

方差分析的基本思想:比较样本数据的两类误差(随机误差和系统误差),以检验总体的均值是否相等。比较的基础是样本数据的方差比。如果样本的系统误差显著地不同于随机误差,则总体分布的均值就是不相等的,反之均值就是相等的。

​​​​​​​​​​​​​​1.3、 方差的比较

针对样本数据方差的比较包括组内方差和组间方差。

组内方差:某一因素的同一水平(同一个总体)下样本数据的方差,例如,零售业被投诉次数的方差。组内方差只包含随机误差。

组间方差:某一因素的不同水平(不同总体)下各样本之间的方差,例如,4个行业被投诉次数之间的方差。组间方差既包括随机误差,也包括系统误差。

如果不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差,这时组同误差与组内误差经过平均后的数值很接近,它们的比值会接近1。

如果不同行业对投诉次数有影响,在组间误差中除包含随机误差以外,还会包含有系统误差这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1。当比值大到某种程度时,我们就认为不同水平之间存在显著差异,即自变量对因变量有影响。

判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响,也就是说不同行业总体的均值是不一样的。

​​​​​​​​​​​​​​1.4、方差分析的前提条件

使用方差分析需要满足一定的前提条件,主要包括以下条件。

  1. 各水平下的总体都服从正态分布,例如,每个行业被投诉的次数必须服从正态分布。
  2. 各水平下的总体方差可以不知道,但要求彼此相等,即方差齐性,例如,4个行业被投诉次数的方差相等。
  3. 每个试验数据的取得是相互独立的,例如,每个行业被投诉的次数与其他行业被业被投诉次数的相互独立

2、方差分析相关的统计量

​​​​​​​​​​​​​​2.1、 水平(总体)的均值

假设从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体样本均值公式如下,

2.2、 全部观察值的总均值

    全部观察值Xij 的总和除以观察值的总个数。

    ​​​​​​​2.3、 总离差平方和(SST)

    样本全部观察值Xij 与总平均值的离差平方和,反映全部观察值的离散状况。

    SST能反映全部试验数据Xij 之间的总的波动,因此称为总偏差平方和。

    ​​​​​​​2.4、水平项平方和(SS4)

    各个水平Ai下样本均值与样本总平均的偏差平方和,它在一定程度上反映了各总体均值μj之间的差异引起的波动,又称组间平方和,该平方和既包括随机误差,也包括系统误差。

    2.5、误差项平方和(SSE)

      在各个总体Ai下,样本数据Xij与其总体均值的偏差平方和反映了抽样的随机性引起的样本数据Xij的波动,又称组内平方和,该平方和反映的是随机误差的大小。

      2.6、总离差平方和的分解

        总离差平方和 SST包括误差项平方和SSE(随机误差引起)与水平项平方和 SSA(随机误差和外平差异引起的系统误差),证明如下。

        可得平方和分解式:SST=SSE+SSA。

        其中总离差平方和(SST)反映全部数据总的误差程度,组内平方和(SSE)反映随机误差的大小,组间平方和(SSA)反映随机误差和系统误差的大小。

        ​​​​​​​​​​​​​​2.7、各自由度

        总偏差平方和(SST)的自由度为n-1,其中n为全部观察值的个数;误差项离差平方和(SSE的自由度为k-1,其中k为因素水平(总体)的个数;水平项离差平方和(SS4)的自由度为n-k。

        ​​​​​​​2.8、各误差的均方差MSA和MSE

        各误差平方和的大小与样本观察值的个数有关,我们只需要求出平均值,称之为均方差。组间腾SSA的均方差记为MSA,组内方差SSE的均方差记为MSE,计算方法是用误差平方和除以相的自由度。

        3、方差分析的作用

        ​​​​​​​3.1、比较多组均值

        检验多个组(如不同治疗方法、不同品牌产品等)的均值是否存在显著差异,避免逐一两两比较带来的误差累积(如t检验的多次使用)。

        ​​​​​​​3.2、 分解变异来源

        将总变异分解为:

        组间变异(不同组之间的差异,反映处理效应)。

        组内变异(组内个体随机误差)。
        通过比较两者判断组间差异是否显著。

        ​​​​​​​3.3、控制Ⅰ类错误

        相比多次t检验,ANOVA在一次分析中同时比较所有组,降低了总体犯错误的概率。

        ​​​​​​​3.4、扩展应用

        单因素ANOVA:分析一个分类变量对连续变量的影响(如不同施肥量对作物产量的影响)。

        多因素ANOVA:分析多个分类变量及其交互作用(如施肥量和浇水频率共同对产量的影响)。

        协方差分析(ANCOVA):加入连续型协变量(如控制基线水平的影响)。

        相关文章:

      1. CUDA安装步骤注意事项
      2. SecureCRT常用命令
      3. 图生生AI生图,图片风格模仿,复刻爆款风格
      4. pytorch模型的进阶训练和性能优化
      5. Java事务管理:编程式事务 vs 声明式事务
      6. GIT 撤销上次推送
      7. ai图片视频生成wan模型
      8. 【Easylive】convertLine2Tree 方法详解
      9. Keil5中的C/C++选项下的GUN extensions什么意思?
      10. 微前端知识内容
      11. [Kerberos] 简化的加密和校验和总则
      12. MYSQL8.0以上版本 主从复制
      13. C++11QT复习 (十)
      14. 中科驭数受邀参展2025中关村论坛 DPU受主流媒体关注
      15. 从 Java 到 Go:面向对象的巨人与云原生的轻骑兵
      16. [250331] Paozhu 发布 1.9.0:C++ Web 框架,比肩脚本语言 | DeaDBeeF 播放器发布 1.10.0
      17. Java 应用程序CPU 100%问题排查优化实战
      18. Linux centos 7 常用服务器搭建
      19. kubernetes安装部署k8s
      20. RK3588使用笔记:导出做好的文件系统
      21. 湖北宜化拟斥资超32亿加价回购“弃子”,布局上游煤炭业务
      22. 浙江省台州市政协原副主席林虹被“双开”
      23. 李公明︱一周书记:当前科学观中的盲点、危机与……人类命运
      24. 德国总理默茨发表首份政府声明:将提升国防能力,全力发展经济
      25. 爱德华多·阿拉纳宣誓就任秘鲁新总理
      26. 诠释微末处的丰盈:“上海制造佳品汇”首届海外专场即将亮相日本大阪