稳健标准误
1. 背景知识
对于线性回归:
yi=βxi+εiy_i=\beta x_i + \varepsilon_i yi=βxi+εi
其中:
b=∑xiyi∑xi2=β+1n∑xiεi1n∑xi2b=\frac{\sum x_{i} y_{i}}{\sum x_{i}^{2}}=\beta+\frac{\frac{1}{n} \sum x_{i} \varepsilon_{i}}{\frac{1}{n} \sum x_{i}^{2}} b=∑xi2∑xiyi=β+n1∑xi2n1∑xiεi
-
对于上式的分子来说:
由于$E(\frac{1}{n} \sum x_{i} \varepsilon_{i}) =0 $ 和 $Var(\frac{1}{n} \sum x_{i} \varepsilon_{i}) = \frac{1}{n^{2}} Var(\sum x_{i} \varepsilon_{i}) $
1n∑xiεi→dN(0,1n2Var(∑xiεi))\frac{1}{n} \sum {x_{i} \varepsilon_{i}} \rightarrow_{d} N(0, \frac{1}{n^{2}} Var(\sum x_{i} \varepsilon_{i}))n1∑xiεi→dN(0,n21Var(∑xiεi)) -
对于上式的分母来说:
1n∑xi2→pExi2\frac{1}{n} \sum x_{i}^{2} \rightarrow _{p} Ex_i^2 n1∑xi2→pExi2
所以b→dN(β,1n2Var(∑xiεi)(Exi2)2)b \rightarrow_{d} N(\beta , \frac{1}{n^{2}} \frac{Var(\sum x_{i} \varepsilon_{i})}{(Ex_i^2)^2} )b→dN(β,n21(Exi2)2Var(∑xiεi))
系数估计标准误s.e(b)的正确形式取决于 xiεix_{i} \varepsilon_{i}xiεi之间是否相关。
2.三种不同的标准误
2.1 同方差标准误 (σ2\sigma^2σ2)
- 当假定 Var(εi∣xi)=σ2\text{Var}\left(\varepsilon_i|x_i\right)=\sigma^2Var(εi∣xi)=σ2 为常数,且 Cov(εi,εj)=0\text{Cov}(\varepsilon_i,\varepsilon_j)=0Cov(εi,εj)=0 时,相应的标准误称为同方差标准误。这个假设太强,通常不采用。
- 假定所有扰动是相互独立、同方差的;
1n2Var(∑xiεi)=1nσ2Exi2 \frac{1}{n^2}\text{Var}\left(\sum x_i\varepsilon_i\right)=\frac{1}{n}\sigma^2\mathbb{E}x_i^2 n21Var(∑xiεi)=n1σ2Exi2
Var(b)=σ2nExi2, Var(b)^=s2∑xi2 \text{Var}(b)=\frac{\sigma^2}{n\mathbb{E}x_i^2},\ \widehat{\text{Var}(b)}=\frac{s^2}{\sum x_i^2} Var(b)=nExi2σ2, Var(b)=∑xi2s2
2.2 异方差稳健标准误 (εi2\varepsilon_i^2εi2)
- 当假定 Var(εi∣xi)\text{Var}(\varepsilon_i|x_i)Var(εi∣xi) 可以各不相同,且 Cov(εi,εj)=0\text{Cov}(\varepsilon_i,\varepsilon_j)=0Cov(εi,εj)=0 时,相应的标准误称为异方差稳健标准误。
- 允许扰动有不同方差,但仍假定它们是相互独立的;
1n2Var(∑xiεi)=1nE(xi2εi2) \frac{1}{n^2}\text{Var}\left(\sum x_i\varepsilon_i\right)=\frac{1}{n}\mathbb{E}\left(x_i^2\varepsilon_i^2\right) n21Var(∑xiεi)=n1E(xi2εi2)
Var(b)=1nE(xi2εi2)(Exi2)2, Var(b)^=∑xi2ei2(∑xi2)2 \text{Var}(b)=\frac{1}{n}\frac{\mathbb{E}\left(x_i^2\varepsilon_i^2\right)}{\left(\mathbb{E}x_i^2\right)^2},\ \widehat{\text{Var}(b)}=\frac{\sum x_i^2e_i^2}{\left(\sum x_i^2\right)^2} Var(b)=n1(Exi2)2E(xi2εi2), Var(b)=(∑xi2)2∑xi2ei2
2.3 聚类稳健标准误
- 当 Cov(εi,εj)≠0\text{Cov}(\varepsilon_i,\varepsilon_j)\neq0Cov(εi,εj)=0 时,需要进一步假定扰动项在同一类内可能相关,但在不同类间不相关,此时称之为聚类稳健标准误。
- 是在数据中存在**组内相关性(intra-cluster correlation)**时对标准误差进行修正的一种方法。
2.4 一些注意事项
类型 | 对异方差有效 | 对组内相关有效 | 对组间相关有效 |
---|---|---|---|
同方差标准误 | ❌ | ❌ | ❌ |
异方差稳健标准误 | ✅ | ❌ | ❌ |
聚类稳健标准误 | ✅ | ✅ | ❌ |
-
大样本理论在类的数目足够大时成立。(在现有研究中,有的认为类≥30,有的认为≥52。在类的数目比较小的情况下,可采用自抽样的方法)
-
聚类稳健标准误通常比异方差稳健标准误更大,采用聚类稳健标准误之后,系数估计的统计显著性更难得到。(一般来说,不加cluster追究不大,但不加robust的影响很大)
-
研究者实际无从知道观测个体在哪个层面上互相相关,(1)将类定义得过小,类间不相关的条件不容易满足,相应的标准误估计将不是真实的标准误的一致估计;(2)将类定义得过大,标准误估计的一致性虽然得以保证,但毕竟标准误的形式只有当类的数目足够大时才成立,基于此的标准误估计可能对系数估计量的有限样本标准误近似得很差(有限样本偏误大)。
-
异方差稳健标准误可以看作每个个体独自为一类的“聚类稳健标准误”。合适的聚类层级需要依研究情境和数据特征而异。一个经验法则是:当核心解释变量X的数据层级高于被解释变量Y时,标准误应聚类到核心解释变量X所在层级。
-
固定效应的类别划分 vs 标准误的聚类层级
- 固定效应的类别划分得越细致,结果越稳健。这个稳健性是针对因果识别而言,因为固定效应控制下的识别假设是,固定效应所定义的类别内部,核心解释变量和扰动项不相关,所以固定效应的类别划分得越细致,识别假设就越容易成立。
- 相反,标准误的聚类层级越高,结果越稳健。这个稳健性是针对统计推断而言——稳健标准误是否可信,即其背后关于观测个体的相关性假设是否可信。
3. 举例说明
聚类层级越高,所隐含的假设越弱,标准误估计更稳健。
聚类层级越高,等于允许的数据中有更多未观测的结构性相关性存在,从而降低模型对“独立性”的依赖,结果更稳健,但也更保守。
有企业、城市、省份三个层级,下面分别介绍聚类到城市和省份的差别。
3.1 城市层面
- 考虑 εicp\varepsilon_{icp}εicp,iii 表示企业,ccc 表示城市,ppp 表示省份,如果标准误聚类到城市层面,所隐含的对扰动项方差协方差结构的假设是
(样本量为8的一个横截面data,2个省份,每个省份有2个城市)
(不同城市之间是不相关的,相同城市之间是相关的)
(ε111ε211ε321ε421ε532ε632ε742ε842ε111××ε211××ε321××ε421××ε532××ε632××ε742××ε842××) \left( \begin{array}{cccccccc} & \varepsilon_{111} & \varepsilon_{211} & \varepsilon_{321} & \varepsilon_{421} & \varepsilon_{532} & \varepsilon_{632} & \varepsilon_{742} & \varepsilon_{842} \\ \varepsilon_{111} & \times & \times & & & & & & \\ \varepsilon_{211} & \times & \times & & & & & & \\ \varepsilon_{321} & & & \times & \times & & & & \\ \varepsilon_{421} & & & \times & \times & & & & \\ \varepsilon_{532} & & & & & \times & \times & & \\ \varepsilon_{632} & & & & & \times & \times & & \\ \varepsilon_{742} & & & & & & & \times & \times \\ \varepsilon_{842} & & & & & & & \times & \times \\ \end{array} \right) ε111ε211ε321ε421ε532ε632ε742ε842ε111××ε211××ε321××ε421××ε532××ε632××ε742××ε842××
3.2 省份层面
- 如果标准误聚类到省份层面,所隐含的对扰动项方差协方差结构的假设是
(ε111ε211ε321ε421ε532ε632ε742ε842ε111××××ε211××××ε321××××ε421××××ε532××××ε632××××ε742××××ε842××××) \left( \begin{array}{cccccccc} & \varepsilon_{111} & \varepsilon_{211} & \varepsilon_{321} & \varepsilon_{421} & \varepsilon_{532} & \varepsilon_{632} & \varepsilon_{742} & \varepsilon_{842} \\ \varepsilon_{111} & \times & \times & \times & \times & & & & \\ \varepsilon_{211} & \times & \times & \times & \times & & & & \\ \varepsilon_{321} & \times & \times & \times & \times & & & & \\ \varepsilon_{421} & \times & \times & \times & \times & & & & \\ \varepsilon_{532} & & & & & \times & \times & \times & \times \\ \varepsilon_{632} & & & & & \times & \times & \times & \times \\ \varepsilon_{742} & & & & & \times & \times & \times & \times \\ \varepsilon_{842} & & & & & \times & \times & \times & \times \\ \end{array} \right) ε111ε211ε321ε421ε532ε632ε742ε842ε111××××ε211××××ε321××××ε421××××ε532××××ε632××××ε742××××ε842××××
3.3 双向聚类
- 考虑数据 εicd\varepsilon_{icd}εicd,其中 ccc 表示城市,ddd 表示行业,此时同一城市内部不同个体的扰动项之间可能相关,同一行业内部不同个体的扰动项之间也可能相关,此时有必要使用双向聚类 (two-way clustering) 稳健标准误,其隐含的假设是
(8个个体,2个城市,2个行业)
(ε111ε211ε312ε412ε521ε621ε722ε822ε111××××××ε211××××××ε312××××××ε412××××××ε521××××××ε621××××××ε722××××××ε822××××××) \left( \begin{array}{cccccccc} & \varepsilon_{111} & \varepsilon_{211} & \varepsilon_{312} & \varepsilon_{412} & \varepsilon_{521} & \varepsilon_{621} & \varepsilon_{722} & \varepsilon_{822} \\ \varepsilon_{111} & \times & \times & \times & \times & \times & \times & & \\ \varepsilon_{211} & \times & \times & \times & \times & \times & \times & & \\ \varepsilon_{312} & \times & \times & \times & \times & & & \times & \times \\ \varepsilon_{412} & \times & \times & \times & \times & & & \times & \times \\ \varepsilon_{521} & \times & \times & & & \times & \times & \times & \times \\ \varepsilon_{621} & \times & \times & & & \times & \times & \times & \times \\ \varepsilon_{722} & & & \times & \times & \times & \times & \times & \times \\ \varepsilon_{822} & & & \times & \times & \times & \times & \times & \times \\ \end{array} \right) ε111ε211ε312ε412ε521ε621ε722ε822ε111××××××ε211××××××ε312××××××ε412××××××ε521××××××ε621××××××ε722××××××ε822××××××
- 聚类到行业✖城市层面,注意,这里不如双向聚类标准误稳健哦。
(ε111ε211ε312ε412ε521ε621ε722ε822ε111××ε211××ε312××ε412××ε521××ε621××ε722××ε822××) \left( \begin{array}{cccccccc} & \varepsilon_{111} & \varepsilon_{211} & \varepsilon_{312} & \varepsilon_{412} & \varepsilon_{521} & \varepsilon_{621} & \varepsilon_{722} & \varepsilon_{822} \\ \varepsilon_{111} & \times & \times & & & & & & \\ \varepsilon_{211} & \times & \times & & & & & & \\ \varepsilon_{312} & & & \times & \times & & & & \\ \varepsilon_{412} & & & \times & \times & & & & \\ \varepsilon_{521} & & & & & \times & \times & & \\ \varepsilon_{621} & & & & & \times & \times & & \\ \varepsilon_{722} & & & & & & & \times & \times \\ \varepsilon_{822} & & & & & & & \times & \times \\ \end{array} \right) ε111ε211ε312ε412ε521ε621ε722ε822ε111××ε211××ε312××ε412××ε521××ε621××ε722××ε822××
3.4其他聚类标准误
- 聚类稳健标准误的构造思路是定义“类”,类内相关,类外不相关。
- 一种稳健标准误的构造思路是定义“距离”,两个观测单位的相关性随距离衰减。这方面最典型的例子是适用于时间序列数据的 Newey-West 标准误,假定两期之间的自相关性和间隔的期数负相关。
- Conley (1999, JoE) 类似地构造了反映横截面相关性 (cross-sectional dependence) 的稳健标准误。根据研究情境不同,两个横截面观测单位之间的相关性可能与地理距离有关,也可能与经济距离有关。