统计学(第8版)——方差分析Ⅰ(考试用)
一、方差分析的基本概念与原理
1.1 方差分析的目的与作用
-
核心问题:判断某个(或某些)因素对产品指标是否有显著影响,即检验因素作用下指标均值是否相等。
-
应用场景:如农作物收获量受品种、肥料影响;生产线维修时间受型号影响等。
-
核心思想:将总偏差平方和分解为 “因素水平引起的波动” 和 “随机因素引起的波动”,通过比较两者大小进行统计判断。
1.2 基本概念
-
因素:可控制的实验条件(如生产线型号、肥料种类)。
-
水平:因素的不同等级(如型号 A、B、C)。
-
单因素试验:仅一个因素变化,其他条件不变。
-
双因素试验:两个因素同时变化(后续展开)。
1.3 数学模型与数据结构
- 模型假设:在水平 A i A_i Ai 下,观测值 Y i j Y_{ij} Yij 满足:
其中 μ i \mu_i μi 为 A i A_i Ai 下的真值, ε i j \varepsilon_{ij} εij 为随机误差,且 ε i j ∼ N ( 0 , σ 2 ) \varepsilon_{ij} \sim N(0, \sigma^2) εij∼N(0,σ2), Y i j ∼ N ( μ i , σ 2 ) Y_{ij} \sim N(\mu_i, \sigma^2) Yij∼N(μi,σ2)。
- 效应分解:将 μ i \mu_i μi 分解为一般平均 μ \mu μ 和水平效应 α i \alpha_i αi:
μ i = μ + α i ( ∑ i = 1 k α i = 0 ) \mu_i = \mu + \alpha_i \quad (\sum_{i=1}^k \alpha_i = 0) μi=μ+αi(∑i=1kαi=0)
模型可写为:
Y i j = μ + α i + ε i j Y_{ij} = \mu + \alpha_i + \varepsilon_{ij} Yij=μ+αi+εij
二、单因素方差分析的详细步骤
2.1 参数点估计(最小二乘法)
- 估计量推导:通过最小化偏差平方和 ∑ i = 1 k ∑ j = 1 m ( Y i j − μ − α i ) 2 \sum_{i=1}^k \sum_{j=1}^m (Y_{ij} - \mu - \alpha_i)^2 ∑i=1k∑j=1m(Yij−μ−αi)2,得:
μ ^ = Y ˉ = 1 k m ∑ i = 1 k ∑ j = 1 m Y i j , α ^ i = Y ˉ i − Y ˉ , μ ^ i = Y ˉ i \hat{\mu} = \bar{Y} = \frac{1}{km} \sum_{i=1}^k \sum_{j=1}^m Y_{ij}, \quad \hat{\alpha}_i = \bar{Y}_i - \bar{Y}, \quad \hat{\mu}_i = \bar{Y}_i μ^=Yˉ=km1∑i=1k∑j=1mYij,α^i=Yˉi−Yˉ,μ^i=Yˉi
其中 Y ˉ i = 1 m ∑ j = 1 m Y i j \bar{Y}_i = \frac{1}{m} \sum_{j=1}^m Y_{ij} Yˉi=m1∑j=1mYij。
- 误差估计: ε ^ i j = Y i j − Y ˉ i \hat{\varepsilon}_{ij} = Y_{ij} - \bar{Y}_i ε^ij=Yij−Yˉi。
2.2 偏差平方和分解定理
- 总偏差平方和:
S T = ∑ i = 1 k ∑ j = 1 m ( Y i j − Y ˉ ) 2 S_T = \sum_{i=1}^k \sum_{j=1}^m (Y_{ij} - \bar{Y})^2 ST=∑i=1k∑j=1m(Yij−Yˉ)2
- 效应平方和(组间):
S A = m ∑ i = 1 k ( Y ˉ i − Y ˉ ) 2 S_A = m \sum_{i=1}^k (\bar{Y}_i - \bar{Y})^2 SA=m∑i=1k(Yˉi−Yˉ)2
- 误差平方和(组内):
S E = ∑ i = 1 k ∑ j = 1 m ( Y i j − Y ˉ i ) 2 S_E = \sum_{i=1}^k \sum_{j=1}^m (Y_{ij} - \bar{Y}_i)^2 SE=∑i=1k∑j=1m(Yij−Yˉi)2
- 分解公式:
S T = S A + S E S_T = S_A + S_E ST=SA+SE
- 自由度:
f T = k m − 1 , f A = k − 1 , f E = k ( m − 1 ) , f T = f A + f E f_T = km - 1, \quad f_A = k - 1, \quad f_E = k(m - 1), \quad f_T = f_A + f_E fT=km−1,fA=k−1,fE=k(m−1),fT=fA+fE
2.3 显著性检验(F 检验)
- 假设:
- 统计量:
F = S A / f A S E / f E ∼ F ( f A , f E ) F = \frac{S_A / f_A}{S_E / f_E} \sim F(f_A, f_E) F=SE/fESA/fA∼F(fA,fE)
- 决策:若 F > F α ( f A , f E ) F > F_\alpha(f_A, f_E) F>Fα(fA,fE),拒绝 H 0 H_0 H0,否则接受。
2.4 方差分析表(标准格式)
方差来源 | 平方和 | 自由度 | 均方 | F 比 |
---|---|---|---|---|
组间(A) | S A S_A SA | k − 1 k-1 k−1 | M S A = S A / ( k − 1 ) MS_A = S_A / (k-1) MSA=SA/(k−1) | F = M S A / M S E F = MS_A / MS_E F=MSA/MSE |
组内(E) | S E S_E SE | k ( m − 1 ) k(m-1) k(m−1) | M S E = S E / [ k ( m − 1 ) ] MS_E = S_E / [k(m-1)] MSE=SE/[k(m−1)] | |
总和 | S T S_T ST | k m − 1 km-1 km−1 |
三、例题详解:生产线维修时间差异分析
3.1 问题背景
调查 6 种型号生产线的维修时间(每种 4 条),数据如下:
型号 | 维修时间(小时) | 总和 T i T_i Ti | T i 2 T_i^2 Ti2 |
---|---|---|---|
A 型 | 9.5, 8.8, 11.4, 7.8 | 37.5 | 1406.25 |
B 型 | 4.3, 7.8, 3.2, 6.5 | 21.8 | 475.24 |
C 型 | 6.5, 8.3, 8.6, 8.2 | 31.6 | 998.56 |
D 型 | 6.1, 7.3, 4.2, 4.1 | 21.7 | 470.89 |
E 型 | 10.0, 4.8, 5.4, 9.6 | 29.8 | 888.04 |
F 型 | 9.3, 8.7, 7.2, 10.1 | 35.3 | 1246.09 |
总计 | - | T = 177.7 T = 177.7 T=177.7 | ∑ T i 2 = 5485.07 \sum T_i^2 = 5485.07 ∑Ti2=5485.07 |
3.2 计算过程
- 效应平方和 :
S A = 1 m ∑ T i 2 − T 2 k m = 5485.07 4 − 177.7 2 24 = 55.55 S_A = \frac{1}{m} \sum T_i^2 - \frac{T^2}{km} = \frac{5485.07}{4} - \frac{177.7^2}{24} = 55.55 SA=m1∑Ti2−kmT2=45485.07−24177.72=55.55
- 误差平方和 :
S E = ∑ Y i j 2 − 1 m ∑ T i 2 = 1427.99 − 1371.27 = 56.72 S_E = \sum Y_{ij}^2 - \frac{1}{m} \sum T_i^2 = 1427.99 - 1371.27 = 56.72 SE=∑Yij2−m1∑Ti2=1427.99−1371.27=56.72
- 自由度:
f A = 5 , f E = 18 f_A = 5, \quad f_E = 18 fA=5,fE=18
- 均方与 F 值:
M S A = 11.11 , M S E = 3.15 , F = 11.11 3.15 ≈ 3.53 MS_A = 11.11, \quad MS_E = 3.15, \quad F = \frac{11.11}{3.15} \approx 3.53 MSA=11.11,MSE=3.15,F=3.1511.11≈3.53
- 决策: α = 0.05 \alpha = 0.05 α=0.05 时, F 0.05 ( 5 , 18 ) = 2.77 F_{0.05}(5, 18) = 2.77 F0.05(5,18)=2.77,因 3.53 > 2.77 3.53 > 2.77 3.53>2.77,拒绝 H 0 H_0 H0,即各型号维修时间有显著差异。
3.3 方差分析表
方差来源 | 平方和 | 自由度 | 均方 | F 比 |
---|---|---|---|---|
组间(A) | 55.55 | 5 | 11.11 | 3.53 |
组内(E) | 56.72 | 18 | 3.15 | |
总和 | 112.27 | 23 |
四、做题技巧总结
4.1 方差分析四步法
-
假设: H 0 H_0 H0(效应为零)与 H 1 H_1 H1(至少一效应非零)。
-
计算平方和与自由度(画表):
-
S T = ∑ ∑ ( Y i j − Y ˉ ) 2 S_T = \sum\sum(Y_{ij} - \bar{Y})^2 ST=∑∑(Yij−Yˉ)2, f T = k m − 1 f_T = km - 1 fT=km−1
-
S A = m ∑ ( Y ˉ i − Y ˉ ) 2 S_A = m\sum(\bar{Y}_i - \bar{Y})^2 SA=m∑(Yˉi−Yˉ)2, f A = k − 1 f_A = k - 1 fA=k−1
-
S E = S T − S A S_E = S_T - S_A SE=ST−SA, f E = k ( m − 1 ) f_E = k(m - 1) fE=k(m−1)
-
构造 F 统计量: F = S A / f A S E / f E F = \frac{S_A/f_A}{S_E/f_E} F=SE/fESA/fA,查临界值。
-
决策: F > F α F > F_\alpha F>Fα 拒绝 H 0 H_0 H0。
4.2 关键公式记忆
-
平方和分解: S T = S A + S E S_T = S_A + S_E ST=SA+SE。
-
自由度关系: f T = f A + f E f_T = f_A + f_E fT=fA+fE。
-
F 统计量:组间均方 / 组内均方。
4.3 计算表格化技巧
型号 | Y i j Y_{ij} Yij | Y i j 2 Y_{ij}^2 Yij2 | T i T_i Ti | T i 2 T_i^2 Ti2 | Y ˉ i \bar{Y}_i Yˉi |
---|---|---|---|---|---|
A 型 | … | … | 37.5 | 1406.25 | 9.375 |
… | … | … | … | … | … |
总计 | - | ∑ Y i j 2 = 1427.99 \sum Y_{ij}^2=1427.99 ∑Yij2=1427.99 | T = 177.7 T=177.7 T=177.7 | ∑ T i 2 = 5485.07 \sum T_i^2=5485.07 ∑Ti2=5485.07 | Y ˉ a ^ ‰ˆ 7.40 \bar{Y}≈7.40 Yˉa^‰ˆ7.40 |
五、PPT 新增例题:酸液浓度对汗布冲击强力的影响
5.1 问题背景
某厂研究晴棉漂白工艺中酸液浓度(g/L)对汗布冲击强力的影响,测试 3 种浓度(A1、A2、A3),每种浓度重复 6 次试验,数据如下:
浓度 | 冲击强力(单位) |
---|---|
A1 | 16.2, 15.1, 15.8, 14.8, 17.1, 15.0 |
A2 | 17.5, 17.1, 15.9, 18.4, 17.7, 16.8 |
A3 | 20.5, 19.7, 19.0, 20.1, 18.9, 18.2 |
目的:检验酸液浓度对冲击强力是否有显著影响(α=0.05)。
5.2 数据整理与中间计算
表 1:原始数据与组统计量
浓度 | 观测值 Y i j Y_{ij} Yij | 组和 T i T_i Ti | 组均值 Y ˉ i \bar{Y}_i Yˉi | 组内平方和 ∑ ( Y i j − Y ˉ i ) 2 \sum(Y_{ij}-\bar{Y}_i)^2 ∑(Yij−Yˉi)2 |
---|---|---|---|---|
A1 | 16.2, 15.1, 15.8, 14.8, 17.1, 15.0 | 16.2 + 15.1 + . . . + 15.0 = 94 16.2+15.1+...+15.0=94 16.2+15.1+...+15.0=94 | 94 / 6 a ^ ‰ˆ 15.67 94/6≈15.67 94/6a^‰ˆ15.67 | 4.54 |
A2 | 17.5, 17.1, 15.9, 18.4, 17.7, 16.8 | 17.5 + 17.1 + . . . + 16.8 = 103.4 17.5+17.1+...+16.8=103.4 17.5+17.1+...+16.8=103.4 | 103.4 / 6 a ^ ‰ˆ 17.23 103.4/6≈17.23 103.4/6a^‰ˆ17.23 | 3.82 |
A3 | 20.5, 19.7, 19.0, 20.1, 18.9, 18.2 | 20.5 + 19.7 + . . . + 18.2 = 116.4 20.5+19.7+...+18.2=116.4 20.5+19.7+...+18.2=116.4 | 116.4 / 6 = 19.4 116.4/6=19.4 116.4/6=19.4 | 5.84 |
总计 | - | T = 94 + 103.4 + 116.4 = 313.8 T=94+103.4+116.4=313.8 T=94+103.4+116.4=313.8 | Y ˉ = 313.8 / 18 a ^ ‰ˆ 17.43 \bar{Y}=313.8/18≈17.43 Yˉ=313.8/18a^‰ˆ17.43 | S E = 4.54 + 3.82 + 5.84 = 14.2 S_E=4.54+3.82+5.84=14.2 SE=4.54+3.82+5.84=14.2 |
5.3 平方和与自由度计算
- 总偏差平方和 :
S T = ∑ Y i j 2 − T 2 k m = 5535.8 − 313.8 2 18 a ^ ‰ˆ 65.66 S_T = \sum Y_{ij}^2 - \frac{T^2}{km} = 5535.8 - \frac{313.8^2}{18} ≈ 65.66 ST=∑Yij2−kmT2=5535.8−18313.82a^‰ˆ65.66
- 效应平方和:
S A = 6 A ~ — [ ( 15.67 − 17.43 ) 2 + ( 17.23 − 17.43 ) 2 + ( 19.4 − 17.43 ) 2 ] = 42.12 S_A = 6×[ (15.67-17.43)^2 + (17.23-17.43)^2 + (19.4-17.43)^2 ] = 42.12 SA=6A~—[(15.67−17.43)2+(17.23−17.43)2+(19.4−17.43)2]=42.12
- 自由度:
f T = 17 , f A = 2 , f E = 15 f_T = 17, \quad f_A = 2, \quad f_E = 15 fT=17,fA=2,fE=15
5.4 方差分析表与决策
方差来源 | 平方和 | 自由度 | 均方 | F 值 | F 0.05 ( 2 , 15 ) F_{0.05}(2,15) F0.05(2,15) | 决策 |
---|---|---|---|---|---|---|
组间(浓度) | 42.12 | 2 | 21.06 | 22.41 | 3.68 | 拒绝 H 0 H_0 H0 |
组内(误差) | 14.2 | 15 | 0.95 | |||
总和 | 65.66 | 17 |
结论:酸液浓度对汗布冲击强力有显著影响。