双重机器学习DML
一、X和W分别指代的是什么?
X
、W
和 T
分别代表不同的变量:
1. W
(控制变量)
-
W
是一个大小为(n, n_w)
的矩阵,表示n
个样本的n_w
个控制变量。 -
这些控制变量是从标准正态分布中随机生成的,即
W ~ N(0, 1)
。 -
W
是影响处理变量T
和结果变量Y
的共同因素。
2. X
(协变量)
-
X
是一个大小为(n, n_x)
的矩阵,表示n
个样本的n_x
个协变量。 -
这些协变量是从均匀分布
U(0, 1)
中随机生成的。 -
X
用于生成异质性处理效应(TE
),即处理效应TE
是X
的函数。这意味着处理效应TE
依赖于X
的值。
3. T
(处理变量)
-
T
是一个大小为n
的向量,表示每个样本的处理变量。 -
T
是通过W
的线性组合生成的,具体来说,T = np.dot(W[:, support_T], coefs_T) + eta_sample(n)
。 -
这里
support_T
是从W
中选择的部分变量,coefs_T
是对应的系数,eta_sample(n)
是随机噪声。 -
因此,
T
与W
是相关的,因为T
是W
的线性组合加上噪声。
4. Y
(结果变量)
-
Y
是一个大小为n
的向量,表示每个样本的结果变量。 -
Y
是通过Y = TE * T + np.dot(W[:, support_Y], coefs_Y) + epsilon_sample(n)
生成的。 -
这里
TE
是异质性处理效应,T
是处理变量,W[:, support_Y]
是W
中选择的部分变量,coefs_Y
是对应的系数,epsilon_sample(n)
是随机噪声。 -
因此,
Y
与T
和W
都是相关的,因为Y
是T
和W
的线性组合加上噪声。
5. X
、W
和 T
之间的相关关系
-
X
和W
:在代码中,X
和W
是独立生成的,因此它们之间没有直接的相关关系。 -
X
和T
:X
和T
之间也没有直接的相关关系,因为T
是通过W
生成的,而X
是独立生成的。 -
W
和T
:W
和T
是相关的,因为T
是通过W
的线性组合生成的。 -
X
和Y
:X
通过影响TE
来间接影响Y
,因为TE
是X
的函数。 -
W
和Y
:W
直接影响Y
,因为Y
是W
的线性组合加上其他项。 -
T
和Y
:T
直接影响Y
,因为Y
是T
的线性组合加上其他项。
总结
-
W
是影响T
和Y
的共同因素。 -
X
通过影响TE
来间接影响Y
,但与W
和T
没有直接的相关关系。 -
T
与W
相关,并且直接影响Y
。
这种设定通常用于模拟因果推断中的处理效应估计问题,其中 X
是协变量,W
是控制变量,T
是处理变量,Y
是结果变量。