人工智能基础知识笔记六:方差分析
人工智能基础知识笔记六:方差分析
1、什么是方差分析
**方差分析(Analysis of Variance, ANOVA)**是一种统计方法,用于比较三个或更多组之间的均值差异是否具有统计学意义。其核心思想是通过分析数据中的方差(变异)来源,判断组间差异是否显著大于组内差异。
关键假设
独立性:各组数据相互独立。
正态性:各组数据近似服从正态分布(大样本时影响较小)。
方差齐性:各组方差相等(可通过Levene检验等验证)。
若假设不满足,可使用非参数方法(如Kruskal-Wallis检验)或稳健ANOVA。
1.1、相关概念
试验指标:在试验中要考察的指标,也称为因变量。
因素:影响试验指标的条件,也称为自变量。要分析行业对投诉次数是否有影响,行业就是要检验的因素。
水平:因素所处的状态,即每个自变量的不同取值。
总体:因素的每一个水平可以看作一个总体,例如零售业、旅游业、航空公司、家电制造业可以看作4个总体。
如果试验仅考虑一个因素,则称为单因素试验,否则称为多因素试验。
样本数据:从总体中抽取的样本数据。
方差分析包括单因素方差分析、双因素方差分析和多因素方差分析。
1.2、方差分析的基本思想
随机误差:某一因素的同一水平(同一个总体)下,样本各观察值之间的差异。例如,同一行业下,不同企业被投诉次数是不同的。这种差异可以看成是随机因素的影响,称为随机误差。
系统误差:某一因素的不同水平(不同总体)下,各观察值之间的差异。例如,不同行业被投诉次数之间的差异。这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。
方差分析的基本思想:比较样本数据的两类误差(随机误差和系统误差),以检验总体的均值是否相等。比较的基础是样本数据的方差比。如果样本的系统误差显著地不同于随机误差,则总体分布的均值就是不相等的,反之均值就是相等的。
1.3、 方差的比较
针对样本数据方差的比较包括组内方差和组间方差。
组内方差:某一因素的同一水平(同一个总体)下样本数据的方差,例如,零售业被投诉次数的方差。组内方差只包含随机误差。
组间方差:某一因素的不同水平(不同总体)下各样本之间的方差,例如,4个行业被投诉次数之间的方差。组间方差既包括随机误差,也包括系统误差。
如果不同行业对投诉次数没有影响,则组间误差中只包含随机误差,没有系统误差,这时组同误差与组内误差经过平均后的数值很接近,它们的比值会接近1。
如果不同行业对投诉次数有影响,在组间误差中除包含随机误差以外,还会包含有系统误差。这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1。当比值大到某种程度时,我们就认为不同水平之间存在显著差异,即自变量对因变量有影响。
判断行业对投诉次数是否有显著影响,实际上也就是检验被投诉次数的差异主要是什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响,也就是说不同行业总体的均值是不一样的。
1.4、方差分析的前提条件
使用方差分析需要满足一定的前提条件,主要包括以下条件。
- 各水平下的总体都服从正态分布,例如,每个行业被投诉的次数必须服从正态分布。
- 各水平下的总体方差可以不知道,但要求彼此相等,即方差齐性,例如,4个行业被投诉次数的方差相等。
- 每个试验数据的取得是相互独立的,例如,每个行业被投诉的次数与其他行业被业被投诉次数的相互独立。
2、方差分析相关的统计量
2.1、 水平(总体)的均值
假设从第i个总体中抽取一个容量为ni的简单随机样本,第i个总体样本均值公式如下,
2.2、 全部观察值的总均值
全部观察值Xij 的总和除以观察值的总个数。
2.3、 总离差平方和(SST)
样本全部观察值Xij 与总平均值的离差平方和,反映全部观察值的离散状况。
SST能反映全部试验数据Xij 之间的总的波动,因此称为总偏差平方和。
2.4、水平项平方和(SS4)
各个水平Ai下样本均值与样本总平均
的偏差平方和,它在一定程度上反映了各总体均值μj之间的差异引起的波动,又称组间平方和,该平方和既包括随机误差,也包括系统误差。
2.5、误差项平方和(SSE)
在各个总体Ai下,样本数据Xij与其总体均值的偏差平方和反映了抽样的随机性引起的样本数据Xij的波动,又称组内平方和,该平方和反映的是随机误差的大小。
2.6、总离差平方和的分解
总离差平方和 SST包括误差项平方和SSE(随机误差引起)与水平项平方和 SSA(随机误差和外平差异引起的系统误差),证明如下。
可得平方和分解式:SST=SSE+SSA。
其中总离差平方和(SST)反映全部数据总的误差程度,组内平方和(SSE)反映随机误差的大小,组间平方和(SSA)反映随机误差和系统误差的大小。
2.7、各自由度
总偏差平方和(SST)的自由度为n-1,其中n为全部观察值的个数;误差项离差平方和(SSE的自由度为k-1,其中k为因素水平(总体)的个数;水平项离差平方和(SS4)的自由度为n-k。
2.8、各误差的均方差MSA和MSE
各误差平方和的大小与样本观察值的个数有关,我们只需要求出平均值,称之为均方差。组间腾SSA的均方差记为MSA,组内方差SSE的均方差记为MSE,计算方法是用误差平方和除以相的自由度。
3、方差分析的作用
3.1、比较多组均值
检验多个组(如不同治疗方法、不同品牌产品等)的均值是否存在显著差异,避免逐一两两比较带来的误差累积(如t检验的多次使用)。
3.2、 分解变异来源
将总变异分解为:
组间变异(不同组之间的差异,反映处理效应)。
组内变异(组内个体随机误差)。
通过比较两者判断组间差异是否显著。
3.3、控制Ⅰ类错误
相比多次t检验,ANOVA在一次分析中同时比较所有组,降低了总体犯错误的概率。
3.4、扩展应用
单因素ANOVA:分析一个分类变量对连续变量的影响(如不同施肥量对作物产量的影响)。
多因素ANOVA:分析多个分类变量及其交互作用(如施肥量和浇水频率共同对产量的影响)。
协方差分析(ANCOVA):加入连续型协变量(如控制基线水平的影响)。