中级统计师-统计学基础知识-第六章 回归分析
第一节 一元线性回归分析
1. 基本概念
- 回归分析:通过数学模型描述因变量(Y)与自变量(X)之间的关系,并预测或解释因变量的变化。
- 模型形式:
Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε
其中:- β 0 \beta_0 β0:截距项
- β 1 \beta_1 β1:斜率(回归系数)
- ε \varepsilon ε:随机误差项,满足 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,同方差,独立正态分布。
2. 参数估计——最小二乘法
- 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=∑(yi−y^i)2。
- 求解公式:
β ^ 1 = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2 , β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^1=n∑xi2−(∑xi)2n∑xiyi−∑xi∑yi,β^0=yˉ−β^1xˉ - 残差: e i = y i − y ^ i e_i = y_i - \hat{y}_i ei=yi−y^i,表示观测值与拟合值的偏差。
3. 回归方程的评价
(1)判定系数 R 2 R^2 R2
- 定义:
R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1−SSTSSE- S S T = ∑ ( y i − y ˉ ) 2 SST = \sum (y_i - \bar{y})^2 SST=∑(yi−yˉ)2(总平方和)
- S S R = ∑ ( y ^ i − y ˉ ) 2 SSR = \sum (\hat{y}_i - \bar{y})^2 SSR=∑(y^i−yˉ)2(回归平方和)
- S S E = ∑ ( y i − y ^ i ) 2 SSE = \sum (y_i - \hat{y}_i)^2 SSE=∑(yi−y^i)2(残差平方和)
- 意义: R 2 R^2 R2 越接近1,模型拟合越好。
(2)估计标准误差 s e s_e se
- 公式:
s e = S S E n − 2 = ∑ ( y i − y ^ i ) 2 n − 2 s_e = \sqrt{\frac{SSE}{n-2}} = \sqrt{\frac{\sum (y_i - \hat{y}_i)^2}{n-2}} se=n−2SSE=n−2∑(yi−y^i)2 - 意义: s e s_e se 越小,预测精度越高。
4. 显著性检验
(1)回归方程显著性检验(F检验)
- 假设:
H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0(无线性关系)
H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β1=0 - 统计量:
F = S S R / 1 S S E / ( n − 2 ) ∼ F ( 1 , n − 2 ) F = \frac{SSR/1}{SSE/(n-2)} \sim F(1, n-2) F=SSE/(n−2)SSR/1∼F(1,n−2)- 若 F > F α ( 1 , n − 2 ) F > F_{\alpha}(1, n-2) F>Fα(1,n−2) 或 p < α p < \alpha p<α,拒绝 H 0 H_0 H0。
(2)回归系数显著性检验(t检验)
- 假设:同F检验
- 统计量:
t = β ^ 1 V a r ( β ^ 1 ) ∼ t ( n − 2 ) t = \frac{\hat{\beta}_1}{\sqrt{Var(\hat{\beta}_1)}} \sim t(n-2) t=Var(β^1)β^1∼t(n−2)- 若 ∣ t ∣ > t α / 2 ( n − 2 ) |t| > t_{\alpha/2}(n-2) ∣t∣>tα/2(n−2) 或 p < α p < \alpha p<α,拒绝 H 0 H_0 H0。
5. 预测
- 点预测: y ^ 0 = β ^ 0 + β ^ 1 x 0 \hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 y^0=β^0+β^1x0
- 区间预测(置信水平 1 − α 1-\alpha 1−α):
y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \hat{y}_0 \pm t_{\alpha/2}(n-2) \cdot s_e \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2}} y^0±tα/2(n−2)⋅se1+n1+∑(xi−xˉ)2(x0−xˉ)2
第二节 多元线性回归分析
1. 模型定义
- 形式:
Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1+β2X2+⋯+βkXk+ε - 估计方程:
y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ k x k \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k y^=β^0+β^1x1+⋯+β^kxk
2. 参数估计(最小二乘法)
- 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=∑(yi−y^i)2。
- 标准方程组:通过偏导数为零求解 β ^ 0 , β ^ 1 , … , β ^ k \hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k β^0,β^1,…,β^k。
3. 回归方程的评价
(1)多重判定系数 R 2 R^2 R2
- 公式:
R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1−SSTSSE - 问题:自变量增多时 R 2 R^2 R2 会虚高,需使用 调整后的 R a 2 R_a^2 Ra2:
R a 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) R_a^2 = 1 - \frac{SSE/(n-k-1)}{SST/(n-1)} Ra2=1−SST/(n−1)SSE/(n−k−1)
(2)估计标准误差
s e = S S E n − k − 1 s_e = \sqrt{\frac{SSE}{n - k - 1}} se=n−k−1SSE
4. 显著性检验
(1)整体显著性检验(F检验)
- 假设:
H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H0:β1=β2=⋯=βk=0
H 1 H_1 H1:至少有一个 β j ≠ 0 \beta_j \neq 0 βj=0 - 统计量:
F = S S R / k S S E / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1) F=SSE/(n−k−1)SSR/k∼F(k,n−k−1)
(2)单个系数显著性检验(t检验)
- 假设: H 0 : β j = 0 H_0: \beta_j = 0 H0:βj=0
- 统计量:
t = β ^ j V a r ( β ^ j ) ∼ t ( n − k − 1 ) t = \frac{\hat{\beta}_j}{\sqrt{Var(\hat{\beta}_j)}} \sim t(n-k-1) t=Var(β^j)β^j∼t(n−k−1)
5. 经典例题
例题1
【单选题】 多元回归中复相关系数的取值范围是(B)。
A. [-1,1]
B. [0,1]
C. [-1,0]
D. (0,1)
解析:复相关系数是 R 2 R^2 R2 的平方根,非负。
例题2
【单选题】 回归方程 y ^ = 15 + 1.6 x \hat{y} = 15 + 1.6x y^=15+1.6x,当 x = 10 x=10 x=10,实际值 y = 28 y=28 y=28,残差为(B)。
A. -15
B. -3
C. 3
D. 16
解析: y ^ = 15 + 1.6 × 10 = 31 \hat{y}=15+1.6×10=31 y^=15+1.6×10=31,残差 = 28 − 31 = − 3 =28-31=-3 =28−31=−3。
总结对比表
指标 | 一元回归 | 多元回归 |
---|---|---|
模型形式 | Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε | Y = β 0 + β 1 X 1 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1+⋯+βkXk+ε |
判定系数 | R 2 R^2 R2(简单判定系数) | R 2 R^2 R2 和 R a 2 R_a^2 Ra2(调整后判定系数) |
显著性检验 | t检验和F检验等价 | F检验(整体)和t检验(单个系数) |
预测区间公式 | 含 ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} ∑(xi−xˉ)2(x0−xˉ)2 | 类似,但考虑多个自变量协方差矩阵 |