当前位置: 首页 > news >正文

中级统计师-统计学基础知识-第六章 回归分析

第一节 一元线性回归分析

1. 基本概念

  • 回归分析:通过数学模型描述因变量(Y)与自变量(X)之间的关系,并预测或解释因变量的变化。
  • 模型形式
    Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε
    其中:
    • β 0 \beta_0 β0:截距项
    • β 1 \beta_1 β1:斜率(回归系数)
    • ε \varepsilon ε:随机误差项,满足 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0,同方差,独立正态分布。

2. 参数估计——最小二乘法

  • 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=(yiy^i)2
  • 求解公式
    β ^ 1 = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2 , β ^ 0 = y ˉ − β ^ 1 x ˉ \hat{\beta}_1 = \frac{n \sum x_i y_i - \sum x_i \sum y_i}{n \sum x_i^2 - (\sum x_i)^2}, \quad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} β^1=nxi2(xi)2nxiyixiyi,β^0=yˉβ^1xˉ
  • 残差 e i = y i − y ^ i e_i = y_i - \hat{y}_i ei=yiy^i,表示观测值与拟合值的偏差。

3. 回归方程的评价

(1)判定系数 R 2 R^2 R2
  • 定义
    R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1SSTSSE
    • S S T = ∑ ( y i − y ˉ ) 2 SST = \sum (y_i - \bar{y})^2 SST=(yiyˉ)2(总平方和)
    • S S R = ∑ ( y ^ i − y ˉ ) 2 SSR = \sum (\hat{y}_i - \bar{y})^2 SSR=(y^iyˉ)2(回归平方和)
    • S S E = ∑ ( y i − y ^ i ) 2 SSE = \sum (y_i - \hat{y}_i)^2 SSE=(yiy^i)2(残差平方和)
  • 意义 R 2 R^2 R2 越接近1,模型拟合越好。
(2)估计标准误差 s e s_e se
  • 公式
    s e = S S E n − 2 = ∑ ( y i − y ^ i ) 2 n − 2 s_e = \sqrt{\frac{SSE}{n-2}} = \sqrt{\frac{\sum (y_i - \hat{y}_i)^2}{n-2}} se=n2SSE =n2(yiy^i)2
  • 意义 s e s_e se 越小,预测精度越高。

4. 显著性检验

(1)回归方程显著性检验(F检验)
  • 假设
    H 0 : β 1 = 0 H_0: \beta_1 = 0 H0:β1=0(无线性关系)
    H 1 : β 1 ≠ 0 H_1: \beta_1 \neq 0 H1:β1=0
  • 统计量
    F = S S R / 1 S S E / ( n − 2 ) ∼ F ( 1 , n − 2 ) F = \frac{SSR/1}{SSE/(n-2)} \sim F(1, n-2) F=SSE/(n2)SSR/1F(1,n2)
    • F > F α ( 1 , n − 2 ) F > F_{\alpha}(1, n-2) F>Fα(1,n2) p < α p < \alpha p<α,拒绝 H 0 H_0 H0
(2)回归系数显著性检验(t检验)
  • 假设:同F检验
  • 统计量
    t = β ^ 1 V a r ( β ^ 1 ) ∼ t ( n − 2 ) t = \frac{\hat{\beta}_1}{\sqrt{Var(\hat{\beta}_1)}} \sim t(n-2) t=Var(β^1) β^1t(n2)
    • ∣ t ∣ > t α / 2 ( n − 2 ) |t| > t_{\alpha/2}(n-2) t>tα/2(n2) p < α p < \alpha p<α,拒绝 H 0 H_0 H0

5. 预测

  • 点预测 y ^ 0 = β ^ 0 + β ^ 1 x 0 \hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0 y^0=β^0+β^1x0
  • 区间预测(置信水平 1 − α 1-\alpha 1α):
    y ^ 0 ± t α / 2 ( n − 2 ) ⋅ s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \hat{y}_0 \pm t_{\alpha/2}(n-2) \cdot s_e \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2}} y^0±tα/2(n2)se1+n1+(xixˉ)2(x0xˉ)2

第二节 多元线性回归分析

1. 模型定义

  • 形式
    Y = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1+β2X2++βkXk+ε
  • 估计方程
    y ^ = β ^ 0 + β ^ 1 x 1 + ⋯ + β ^ k x k \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_k x_k y^=β^0+β^1x1++β^kxk

2. 参数估计(最小二乘法)

  • 目标:最小化残差平方和 Q = ∑ ( y i − y ^ i ) 2 Q = \sum (y_i - \hat{y}_i)^2 Q=(yiy^i)2
  • 标准方程组:通过偏导数为零求解 β ^ 0 , β ^ 1 , … , β ^ k \hat{\beta}_0, \hat{\beta}_1, \ldots, \hat{\beta}_k β^0,β^1,,β^k

3. 回归方程的评价

(1)多重判定系数 R 2 R^2 R2
  • 公式
    R 2 = S S R S S T = 1 − S S E S S T R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} R2=SSTSSR=1SSTSSE
  • 问题:自变量增多时 R 2 R^2 R2 会虚高,需使用 调整后的 R a 2 R_a^2 Ra2
    R a 2 = 1 − S S E / ( n − k − 1 ) S S T / ( n − 1 ) R_a^2 = 1 - \frac{SSE/(n-k-1)}{SST/(n-1)} Ra2=1SST/(n1)SSE/(nk1)
(2)估计标准误差

s e = S S E n − k − 1 s_e = \sqrt{\frac{SSE}{n - k - 1}} se=nk1SSE


4. 显著性检验

(1)整体显著性检验(F检验)
  • 假设
    H 0 : β 1 = β 2 = ⋯ = β k = 0 H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 H0:β1=β2==βk=0
    H 1 H_1 H1:至少有一个 β j ≠ 0 \beta_j \neq 0 βj=0
  • 统计量
    F = S S R / k S S E / ( n − k − 1 ) ∼ F ( k , n − k − 1 ) F = \frac{SSR/k}{SSE/(n-k-1)} \sim F(k, n-k-1) F=SSE/(nk1)SSR/kF(k,nk1)
(2)单个系数显著性检验(t检验)
  • 假设 H 0 : β j = 0 H_0: \beta_j = 0 H0:βj=0
  • 统计量
    t = β ^ j V a r ( β ^ j ) ∼ t ( n − k − 1 ) t = \frac{\hat{\beta}_j}{\sqrt{Var(\hat{\beta}_j)}} \sim t(n-k-1) t=Var(β^j) β^jt(nk1)

5. 经典例题

例题1

【单选题】 多元回归中复相关系数的取值范围是(B)。
A. [-1,1]
B. [0,1]
C. [-1,0]
D. (0,1)

解析:复相关系数是 R 2 R^2 R2 的平方根,非负。

例题2

【单选题】 回归方程 y ^ = 15 + 1.6 x \hat{y} = 15 + 1.6x y^=15+1.6x,当 x = 10 x=10 x=10,实际值 y = 28 y=28 y=28,残差为(B)。
A. -15
B. -3
C. 3
D. 16

解析 y ^ = 15 + 1.6 × 10 = 31 \hat{y}=15+1.6×10=31 y^=15+1.6×10=31,残差 = 28 − 31 = − 3 =28-31=-3 =2831=3


总结对比表

指标一元回归多元回归
模型形式 Y = β 0 + β 1 X + ε Y = \beta_0 + \beta_1 X + \varepsilon Y=β0+β1X+ε Y = β 0 + β 1 X 1 + ⋯ + β k X k + ε Y = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k + \varepsilon Y=β0+β1X1++βkXk+ε
判定系数 R 2 R^2 R2(简单判定系数) R 2 R^2 R2 R a 2 R_a^2 Ra2(调整后判定系数)
显著性检验t检验和F检验等价F检验(整体)和t检验(单个系数)
预测区间公式 ( x 0 − x ˉ ) 2 ∑ ( x i − x ˉ ) 2 \frac{(x_0 - \bar{x})^2}{\sum (x_i - \bar{x})^2} (xixˉ)2(x0xˉ)2类似,但考虑多个自变量协方差矩阵

相关文章:

  • electron 控制台打印中文乱码问题
  • 我的爬虫夜未眠:一场与IP限流的攻防战
  • 《大数据之路:阿里巴巴大数据实践》笔记
  • deepwiki-open开源项目分析
  • Spark Streaming原理与应用
  • 职坐标嵌入式MCU/DSP与RTOS开发精讲
  • 黑马Java基础笔记-14
  • 1-Wire 总线协议介绍
  • 如何看navicat数据库连接的密码
  • 光谱相机在地质勘测中的应用
  • 乘最多水的容器 | 算法 | 给定一个整数数组。有n条垂线。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。
  • Java集合框架与三层架构实战指南:从基础到企业级应用
  • 堆的C语言实现
  • 复杂项目中通过使用全局变量解决问题的思维方式
  • 网工每日一练
  • WebRTC:实时通信的未来之路
  • OceanBase数据库全面指南(数据操作篇DML)
  • SpringBoot 2.X 版本整合 Swagger + Knife4j 接口文档
  • PyQt学习系列03-动画与过渡效果
  • 04-Web后端基础(基础知识)
  • 设置网站开场动画/中国十大网站
  • 焦作建网站/东莞排名优化团队
  • 开封景区网站建设项目方案/快速优化工具
  • 个体营业执照年审怎么年审/什么是搜索引擎优化
  • 做房地产公司网站的费用/seo分析工具
  • 烟台网站建设哪家服务好/百度推广开户渠道公司