Estimator and Confidence interval
Coefficient of determination and sample correlation coefficient
R2=SSRSSTR^2 = \frac{SSR}{SST}R2=SSTSSR
SSR=∑i=1n((yi^−yˉ)2)SSR=\sum_{i=1}^n((\hat{y_{i}}-\bar{y})^2)SSR=∑i=1n((yi^−yˉ)2)
SST=∑i=1n((yi−yˉ)2)SST=\sum_{i=1}^n((y_{i}-\bar{y})^2)SST=∑i=1n((yi−yˉ)2)
rxy2=cov(x,y)2var(x)var(y)r^2_{xy}=\frac{cov(x,y)^2}{var(x)var(y)}rxy2=var(x)var(y)cov(x,y)2
ryy^2=cov(y,y^)2var(y)var(y^)r^2_{y\hat{y}}=\frac{cov(y,\hat{y})^2}{var(y)var(\hat{y})}ryy^2=var(y)var(y^)cov(y,y^)2
推导:
推导 1: R2=rxy2R^2 = r_{xy}^2R2=rxy2 (一元线性回归)
在简单线性回归模型中:
yi=β^0+β^1xi+εiy_i = \hat{\beta}_0 + \hat{\beta}_1 x_i + \varepsilon_iyi=β^0+β^1xi+εi
y^i=b1+b2xi\hat{y}_{i}=b_{1}+b_{2}x_{i}y^i=b1+b2xi
yi^=yˉ−b2xˉ+b2xi\hat{y_{i}}=\bar{y}-b_{2}\bar{x}+b_{2}x_{i}yi^=yˉ−b2xˉ+b2xi
yi^=yˉ+SxySxx(xi−xˉ)\hat{y_{i}}=\bar{y}+\frac{S_{xy}}{S_{xx}}(x_{i}-\bar{x})yi^=yˉ+SxxSxy(xi−xˉ)
定义相关系数:
rxy=∑(xi−xˉ)(yi−yˉ)∑(xi−xˉ)2∑(yi−yˉ)2r_{xy} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}rxy=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)
推导 2: R2=ryy^2R^2 = r_{y\hat{y}}^2R2=ryy^2 (一般线性回归)
考虑一般线性回归(可能是多元):
R2=SSRSST=∑(y^i−yˉ)2∑(yi−yˉ)2R^2 = \frac{SSR}{SST} = \frac{\sum (\hat{y}_i - \bar{y})^2}{\sum (y_i - \bar{y})^2}R2=SSTSSR=∑(yi−yˉ)2∑(y^i−yˉ)2
相关系数定义为:
ryy^=∑(yi−yˉ)(y^i−yˉ)∑(yi−yˉ)2∑(y^i−yˉ)2r_{y\hat{y}} = \frac{\sum (y_i - \bar{y})(\hat{y}_i - \bar{y})}{\sqrt{\sum (y_i - \bar{y})^2 \sum (\hat{y}_i - \bar{y})^2}}ryy^=∑(yi−yˉ)2∑(y^i−yˉ)2∑(yi−yˉ)(y^i−yˉ)
在 OLS 回归中,残差与预测值正交:
∑(yi−y^i)(y^i−yˉ)=0\sum (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) = 0∑(yi−y^i)(y^i−yˉ)=0
因此:
∑(yi−yˉ)(y^i−yˉ)=∑(y^i−yˉ)2=SSR\sum (y_i - \bar{y})(\hat{y}_i - \bar{y}) = \sum (\hat{y}_i - \bar{y})^2 = SSR∑(yi−yˉ)(y^i−yˉ)=∑(y^i−yˉ)2=SSR
代入得:
ryy^2=(∑(yi−yˉ)(y^i−yˉ))2SST⋅SSR=SSR2SST⋅SSR=SSRSST=R2r_{y\hat{y}}^2 = \frac{\left(\sum (y_i - \bar{y})(\hat{y}_i - \bar{y})\right)^2}{SST \cdot SSR} = \frac{SSR^2}{SST \cdot SSR} = \frac{SSR}{SST} = R^2ryy^2=SST⋅SSR(∑(yi−yˉ)(y^i−yˉ))2=SST⋅SSRSSR2=SSTSSR=R2
Estimating the variance of the error term
样本方差无偏性推导
Estimators are not normally distributed
1. 两种情况
- 情况 A:假设误差 ϵi∼N(0,σ2)\epsilon_i \sim N(0,\sigma^2)ϵi∼N(0,σ2)
那么 b1,b2b_1, b_2b1,b2 都是 ϵi\epsilon_iϵi 的线性组合,而正态分布的线性组合仍然是正态。
所以此时可以直接得出:
b1∼N(β1,Var(b1)),b2∼N(β2,Var(b2)).b_1 \sim N(\beta_1, \mathrm{Var}(b_1)), \quad b_2 \sim N(\beta_2, \mathrm{Var}(b_2)).b1∼N(β1,Var(b1)),b2∼N(β2,Var(b2)).
-
情况 B:不假设 ϵi\epsilon_iϵi正态,只要求它们 i.i.d.,有有限方差 σ2\sigma^2σ2
这时 b1,b2b_1, b_2b1,b2仍然是 ϵi\epsilon_iϵi的线性组合,但组合后的分布不一定正态。
不过,当 n 足够大时,可以用 中心极限定理 (CLT):样本均值或权重加权和会渐近趋向正态。于是得到b1∼aN(β1,Var(b1)),b2∼aN(β2,Var(b2)).b_1 \overset{a}{\sim} N(\beta_1, \mathrm{Var}(b_1)), \quad b_2 \overset{a}{\sim} N(\beta_2, \mathrm{Var}(b_2)).b1∼aN(β1,Var(b1)),b2∼aN(β2,Var(b2)).
这里的∼a\overset{a}{\sim}∼a 就是“渐近正态”。
Confidence intervals for regression parameters
标准差 (Standard Deviation, SD) 和 标准误差 (Standard Error, SE) 的区别
SD 和 SE
定义层面
-
标准差 (SD)
衡量 数据本身 的离散程度。σ=E[(X−μ)2],s=1n−1∑(xi−xˉ)2.\sigma = \sqrt{E\big[(X-\mu)^2\big]}, \quad s = \sqrt{\tfrac{1}{n-1}\sum (x_i-\bar{x})^2}.σ=E[(X−μ)2],s=n−11∑(xi−xˉ)2.
-
标准误差 (SE)
衡量 统计量(比如样本均值、回归系数)在重复抽样下的波动大小。SE(Xˉ)=sn.SE(\bar{X}) = \frac{s}{\sqrt{n}}.SE(Xˉ)=ns.
它是“估计量的标准差”。
含义直观
-
SD:告诉你单个观测值一般离平均数有多远。
-
SE:告诉你估计出来的统计量(比如 xˉ,b2\bar{x},b_2xˉ,b2)在不同样本之间会有多大差异。
求解置信区间
讨论:为什么是n-2自由度
**自由度 (degrees of freedom, df)
直观定义
自由度 = 可以自由变化的数据点个数 = 总数据点数 − 约束条件数。
例子:
-
有 n 个数,它们可以完全随意 → 自由度 = n。
-
但如果规定它们的和必须等于 0(加了 1 个约束) → 自由度 = n−1。
-
在回归里,估计了 k 个参数(k 个约束) → 残差自由度 = n−k。
数学定义
在统计学里,自由度通常指 统计量的分布所依赖的独立信息量。
比如:
-
卡方分布 χ2\chi^2χ2的自由度就是平方和中独立正态变量的个数。
-
t 分布的自由度是 χ2\chi^2χ2 分母里的独立信息量。
-
回归中 σ^2\hat{\sigma}^2σ^2 的自由度就是“残差能自由变化的维度”。
t检验
回归分析的情形
-
模型背景:线性回归模型
yi=β0+β1xi1+⋯+βkxik+εi.y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i.yi=β0+β1xi1+⋯+βkxik+εi. -
检验命题:检验某个回归系数是否显著不为 0,例如
H0:βj=0vsH1:βj≠0.H_0: \beta_j = 0 \quad \text{vs} \quad H_1: \beta_j \neq 0.H0:βj=0vsH1:βj=0.
-
统计量:
T=β^jSE(β^j),T∼tn−k−1. T = \frac{\hat{\beta}_j}{\operatorname{SE}(\hat{\beta}_j)}, \quad T \sim t_{n-k-1}.T=SE(β^j)β^j,T∼tn−k−1.
- 自由度:因为我们估计了 k+1 个参数(截距 + k 个系数),所以剩下的自由度 = n−k−1。
单样本 t 检验
-
模型背景:只有一组样本{x1,x2,…,xn}\{x_1, x_2, \dots, x_n\}{x1,x2,…,xn},总体均值 μ\muμ 未知,总体方差也未知。
-
检验命题:检验总体均值是否等于某个假设值 μ0\mu_0μ0,即
H0:μ=μ0vsH1:μ≠μ0.H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0.H0:μ=μ0vsH1:μ=μ0.
-
统计量:
T=Xˉ−μ0s/n,T∼tn−1.T = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}, \quad T \sim t_{n-1}.T=s/nXˉ−μ0,T∼tn−1.
-
自由度:因为估计了 1 个参数(样本均值 Xˉ\bar{X}Xˉ),所以自由度 = n-1 。
regression analysis output
R2R^2R2 and R2ˉ\bar{R^2}R2ˉ
That is, R2R^2R2 assumes that every single variable explains the variation in the dependent variable. In contrast, R2ˉ\bar{R^2}R2ˉ tells you the percentage of variation explained by only the explanatory variables that actually affect the dependent variable.
F Value
F Value and Pr > F: The p-values are used to answer the question “Do the explanatory variables reliably predict the dependent variable?”. The p-value is compared to your significance level (typically α = 0.05) and, if smaller, you can conclude “Yes, the explanatory variables reliably predict the dependent variable”. If the p-value is greater than the significance level, you would say that the group of explanatory variables does not show a statistically significant relationship with the dependent variable, or that the group of explanatory variables does not reliably predict the dependent variable. Note that this is an overall significance test assessing whether the group of explanatory variables when used together reliably predict the dependent variable, and does not address the ability of any of the particular explanatory variables to predict the dependent variable. The ability of each individual explanatory variable to predict the dependent variable is addressed in the table below where each of the individual variables are listed
简单总结:
-
F 检验:整体显著性 → 模型有没有解释力。
-
t 检验:局部显著性 → 哪个变量在起作用。
回归系数的标准误差(Standard Error, SE)
Standard Error: These are the standard errors associated with the parameter estimates. The standard error is used for testing whether the parameter is significantly different from 0 by dividing the parameter estimate by its associated standard error to obtain a test statistic (or t-value). The standard errors can also be used to form a confidence interval for the parameter.
-
定义
每个参数估计值β^j\hat{\beta}_jβ^j都有一个抽样分布,因为我们是用样本数据来估计真实参数βj\beta_jβj。
标准误差(SE)就是这个抽样分布的标准差:SE(β^j)=Var(β^j)SE(\hat{\beta}_j) = \sqrt{\text{Var}(\hat{\beta}_j)}SE(β^j)=Var(β^j)
-
作用
它衡量了估计值的不确定性:SE 越小,说明参数估计越稳定、越精确;SE 越大,说明估计结果波动性大,不稳定。 -
检验统计量(t 值)
为了检验某个参数是否显著(通常是检验 H0:βj=0H_0: \beta_j = 0H0:βj=0),我们计算t=β^jSE(β^j)t = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}t=SE(β^j)β^j
这个 t 值会服从近似的 t 分布(自由度 = n−k),然后和临界值或 p 值比较。
-
直观理解
-
如果 ∣t∣很大(意味着估计值远大于它的波动范围),就说明这个系数显著 ≠ 0。
-
如果 ∣t∣很小(估计值和噪声水平差不多),就说明没有显著证据认为这个系数 ≠ 0。
-
所以:
-
SE 反映参数估计的不确定性。
-
t 值 = 参数估计 ÷ 标准误差 → 用来做显著性检验。
回顾统计假设理论
p 值是什么?
p 值是:在零假设 H0H_0H0为真时,观察到当前检验统计量(比如 t 值或 F 值)或更极端结果的概率。
p=P(Test statistic ≥ observed value ∣H0 true)p = P(\text{Test statistic ≥ observed value } \mid H_0 \text{ true})p=P(Test statistic ≥ observed value ∣H0 true)
α(显著性水平)是什么?
α 是事先设定的阈值(常用 0.05)。它表示我们最多愿意接受 5% 的错误拒绝 H0H_0H0的概率(第一类错误)。
比较 p 和 α 的结论
-
如果 p < α → 说明这种极端结果在 H0H_0 下出现的概率太小,不合理 → 拒绝零假设。
-
如果 p ≥ α → 说明结果在 H0H_0 下还算合理 → 不能拒绝零假设(但不是“接受”,只是“没有足够证据拒绝”)。
关键点:为什么不是“接受” H0?
因为统计推断是基于有限样本的,我们没法证明 H0 真,只能说“目前的样本证据不足以否定 H0”。
所以严格的说法是:
-
拒绝 H0(p < α)
-
未能拒绝 H0(p ≥ α)