双重机器学习DML
一、X和W分别指代的是什么?
X、W 和 T 分别代表不同的变量:
1. W (控制变量)
-
W是一个大小为(n, n_w)的矩阵,表示n个样本的n_w个控制变量。 -
这些控制变量是从标准正态分布中随机生成的,即
W ~ N(0, 1)。 -
W是影响处理变量T和结果变量Y的共同因素。
2. X (协变量)
-
X是一个大小为(n, n_x)的矩阵,表示n个样本的n_x个协变量。 -
这些协变量是从均匀分布
U(0, 1)中随机生成的。 -
X用于生成异质性处理效应(TE),即处理效应TE是X的函数。这意味着处理效应TE依赖于X的值。
3. T (处理变量)
-
T是一个大小为n的向量,表示每个样本的处理变量。 -
T是通过W的线性组合生成的,具体来说,T = np.dot(W[:, support_T], coefs_T) + eta_sample(n)。 -
这里
support_T是从W中选择的部分变量,coefs_T是对应的系数,eta_sample(n)是随机噪声。 -
因此,
T与W是相关的,因为T是W的线性组合加上噪声。
4. Y (结果变量)
-
Y是一个大小为n的向量,表示每个样本的结果变量。 -
Y是通过Y = TE * T + np.dot(W[:, support_Y], coefs_Y) + epsilon_sample(n)生成的。 -
这里
TE是异质性处理效应,T是处理变量,W[:, support_Y]是W中选择的部分变量,coefs_Y是对应的系数,epsilon_sample(n)是随机噪声。 -
因此,
Y与T和W都是相关的,因为Y是T和W的线性组合加上噪声。
5. X、W 和 T 之间的相关关系
-
X和W:在代码中,X和W是独立生成的,因此它们之间没有直接的相关关系。 -
X和T:X和T之间也没有直接的相关关系,因为T是通过W生成的,而X是独立生成的。 -
W和T:W和T是相关的,因为T是通过W的线性组合生成的。 -
X和Y:X通过影响TE来间接影响Y,因为TE是X的函数。 -
W和Y:W直接影响Y,因为Y是W的线性组合加上其他项。 -
T和Y:T直接影响Y,因为Y是T的线性组合加上其他项。
总结
-
W是影响T和Y的共同因素。 -
X通过影响TE来间接影响Y,但与W和T没有直接的相关关系。 -
T与W相关,并且直接影响Y。
这种设定通常用于模拟因果推断中的处理效应估计问题,其中 X 是协变量,W 是控制变量,T 是处理变量,Y 是结果变量。
