搜广推校招面经四十四
快手主站推荐算法
一、因果里面前门准则是什么(Front-Door Criterion)
前门准则是因果推断中的一个重要概念,用于在存在未观测混杂因素的情况下识别因果效应。它由朱迪亚·珀尔(Judea Pearl)提出,是后门准则的补充。
1.1. 定义
前门准则适用于以下情况:
- 存在一个中介变量 M M M,它完全介导了处理变量 X X X 对结果变量 Y Y Y 的因果效应。
- 处理变量 X X X 和结果变量 Y Y Y 之间存在未观测的混杂因素 U U U。
1.2. 条件
要应用前门准则,必须满足以下条件:
- 中介变量 M M M 完全介导 X X X 对 Y Y Y 的因果效应:即 X X X 对 Y Y Y 的因果效应完全通过 M M M 传递。
- X X X 和 M M M 之间没有未观测的混杂因素:即 X X X 对 M M M 的因果效应是无偏的。
- M M M 和 Y Y Y 之间没有未观测的混杂因素:即 M M M 对 Y Y Y 的因果效应是无偏的。
1.4. 因果效应识别
在前门准则下, X X X 对 Y Y Y 的因果效应可以通过以下步骤识别:
- 估计 X X X 对 M M M 的因果效应。
- 估计 M M M 对 Y Y Y 的因果效应。
- 将这两个效应相乘,得到 X X X 对 Y Y Y 的总因果效应。
1.3. 数学表达
因果效应可以表示为:
P
(
Y
∣
d
o
(
X
)
)
=
∑
m
P
(
Y
∣
d
o
(
M
=
m
)
)
⋅
P
(
M
=
m
∣
d
o
(
X
)
)
P(Y | do(X)) = \sum_{m} P(Y | do(M = m)) \cdot P(M = m | do(X))
P(Y∣do(X))=m∑P(Y∣do(M=m))⋅P(M=m∣do(X))
其中:
- P ( Y ∣ d o ( M = m ) ) P(Y | do(M = m)) P(Y∣do(M=m)) 是 M M M 对 Y Y Y 的因果效应。
- P ( M = m ∣ d o ( X ) ) P(M = m | do(X)) P(M=m∣do(X)) 是 X X X 对 M M M 的因果效应。
1.4. 示例
假设:
- X X X 是吸烟,
- M M M 是焦油沉积,
- Y Y Y 是肺癌,
- U U U 是未观测的基因因素。
如果焦油沉积完全介导了吸烟对肺癌的因果效应,并且吸烟与焦油沉积之间、焦油沉积与肺癌之间没有未观测的混杂因素,那么可以使用前门准则来估计吸烟对肺癌的因果效应。
二、后门准则(Back-Door Criterion)
后门准则是因果推断中的一个重要概念,用于在存在混杂因素的情况下识别因果效应。它由朱迪亚·珀尔(Judea Pearl)提出,是因果图模型中的核心工具之一。
2.1. 定义
后门准则用于确定一组变量 Z Z Z,使得在控制 Z Z Z 后,处理变量 X X X 对结果变量 Y Y Y 的因果效应可以被无偏地估计。具体来说, Z Z Z 需要阻断 X X X 和 Y Y Y 之间的所有后门路径。
2.2. 后门路径
后门路径是指从 X X X 到 Y Y Y 的任何非因果路径(即不经过 X → Y X \rightarrow Y X→Y 的路径),这些路径可能会引入混杂偏差。后门路径通常通过未观测的混杂因素 U U U 连接 X X X 和 Y Y Y。
2.3. 条件
要应用后门准则,必须满足以下条件:
- Z Z Z 阻断所有 X X X和 Y Y Y 之间的后门路径:即 Z Z Z 必须包含足够的信息来阻断所有非因果路径。
- Z Z Z 不包含 X X X 的后代:即 Z Z Z 不能是 X X X 的因果效应变量,否则会引入新的偏差。
2.4. 因果效应识别
在后门准则下,
X
X
X 对
Y
Y
Y 的因果效应可以通过以下公式识别:
P
(
Y
∣
d
o
(
X
)
)
=
∑
z
P
(
Y
∣
X
,
Z
=
z
)
⋅
P
(
Z
=
z
)
P(Y | do(X)) = \sum_{z} P(Y | X, Z = z) \cdot P(Z = z)
P(Y∣do(X))=z∑P(Y∣X,Z=z)⋅P(Z=z)
其中:
- $P(Y | X, Z = z) 是在控制 Z Z Z 后 X X X 对 Y Y Y的条件概率。
- P ( Z = z ) P(Z = z) P(Z=z) 是 Z Z Z的边际分布。
2.5. 示例
假设:
- X X X 是药物治疗,
- Y Y Y 是康复情况,
- Z Z Z 是患者的年龄,
- U U U 是未观测的健康状况。
如果年龄 Z Z Z 是 X X X 和 Y Y Y 之间的混杂因素,且没有其他未观测的混杂因素,那么可以通过控制 Z Z Z 来估计药物治疗 X X X 对康复情况 Y Y Y 的因果效应。
2.6. 总结
后门准则提供了一种在存在混杂因素的情况下识别因果效应的方法,通过控制一组适当的变量 Z Z Z 来阻断后门路径,从而获得无偏的因果估计。
三、去偏方法概述
去偏(Debiasing)是指通过统计或机器学习方法消除数据中的偏差,从而更准确地估计因果效应或模型参数。以下是常见的去偏方法,包括针对 RCT(随机对照试验)数据的处理方式。
3.1. RCT 数据的去偏方法
(1) 随机化检验
- 目的:验证随机化是否成功。
- 方法:比较处理组和对照组在基线特征上的分布是否均衡。
- 工具:t 检验、卡方检验、KS 检验等。
(2) 协变量调整
- 目的:进一步控制基线特征的差异。
- 方法:在回归模型中加入基线协变量 ( Z )。
- 公式:
Y = β 0 + β 1 X + β 2 Z + ϵ Y = \beta_0 + \beta_1 X + \beta_2 Z + \epsilon Y=β0+β1X+β2Z+ϵ
其中 X X X 是处理变量, Z Z Z 是协变量。
(3) 倾向得分匹配(PSM)
- 目的:在非完全随机化的情况下,通过匹配处理组和对照组来减少偏差。
- 方法:
- 估计倾向得分 P ( X = 1 ∣ Z ) P(X=1 | Z) P(X=1∣Z)。
- 根据倾向得分匹配处理组和对照组样本。
- 工具:Logistic 回归、最近邻匹配、核匹配等。
(4) 逆概率加权(IPW)
- 目的:通过加权调整样本分布,使其更接近随机化分布。
- 方法:
- 计算每个样本的权重 W = 1 P ( X = 1 ∣ Z ) W = \frac{1}{P(X=1 | Z)} W=P(X=1∣Z)1(处理组)或 W = 1 1 − P ( X = 1 ∣ Z ) W = \frac{1}{1 - P(X=1 | Z)} W=1−P(X=1∣Z)1(对照组)。
- 使用加权回归或加权平均估计因果效应。
(5) 多重插补
- 目的:处理 RCT 数据中的缺失值问题。
- 方法:
- 使用多重插补法填补缺失值。
- 在填补后的数据集上进行分析。
- 工具:MICE(多重插补链式方程)、Amelia 等。
3.2. 去偏的一般方法(适用于非 RCT 数据)
(1) 后门调整
- 目的:通过控制混杂变量 Z Z Z 来阻断后门路径。
- 方法:使用后门准则选择 Z Z Z,并在回归模型中调整 Z Z Z。
(2) 前门调整
- 目的:在存在未观测混杂因素时,通过中介变量 M M M 估计因果效应。
- 方法:使用前门准则,估计 X → M X \rightarrow M X→M 和 M → Y M \rightarrow Y M→Y 的因果效应。
(3) 工具变量(IV)
- 目的:在存在未观测混杂因素时,通过工具变量 I I I 估计因果效应。
- 方法:使用两阶段最小二乘法(2SLS)或其他 IV 方法。
(4) 双重机器学习(Double ML)
- 目的:在高维数据中估计因果效应。
- 方法:
- 使用机器学习模型估计倾向得分和条件均值。
- 通过残差法估计因果效应。
四、迭代标签(Iterative Labeling)方法
迭代标签是一种通过多次迭代优化数据标签质量的半监督学习方法。它通常用于以下场景:
- 数据标签不完整或噪声较大。
- 需要利用未标注数据提升模型性能。
- 标注成本较高,希望通过迭代减少人工标注需求。
4.1. 迭代标签的基本流程
迭代标签的核心思想是通过模型预测和人工验证的交替进行,逐步优化标签质量。其基本流程如下:
- 初始训练:使用少量已标注数据训练初始模型。
- 预测未标注数据:用初始模型对未标注数据进行预测,生成伪标签。
- 筛选高置信度样本:选择预测置信度高的样本,将其伪标签加入训练集。
- 人工验证(可选):对高置信度样本进行人工验证,确保标签质量。
- 重新训练模型:使用扩展后的训练集重新训练模型。
- 迭代优化:重复步骤 2-5,直到模型性能收敛或达到预设条件。
4.2. 迭代标签的关键步骤
(1) 初始训练
- 使用少量高质量标注数据训练初始模型。
- 模型可以是分类模型、回归模型或深度学习模型。
(2) 伪标签生成
- 使用训练好的模型对未标注数据进行预测。
- 为每个样本生成预测标签及其置信度。
(3) 高置信度样本筛选
- 根据置信度阈值(如 0.9)选择高置信度样本。
- 仅将高置信度样本的伪标签加入训练集。
(4) 人工验证(可选)
- 对高置信度样本进行人工检查,修正错误标签。
- 确保加入训练集的标签质量。
(5) 重新训练模型
- 使用扩展后的训练集重新训练模型。
- 可以使用相同的模型架构,或调整模型复杂度。
(6) 迭代优化
- 重复伪标签生成、筛选、验证和重新训练的过程。
- 直到模型性能不再显著提升或达到最大迭代次数。
4.3. 迭代标签的实现方法
(1) 自训练(Self-Training)
- 使用模型自身的预测结果作为伪标签。
- 适用于分类、回归等任务。
(2) 协同训练(Co-Training)
- 使用多个视图(View)或多个模型生成伪标签。
- 适用于多模态数据或多视角学习。
(3) 主动学习(Active Learning)
- 在每次迭代中选择不确定性最高的样本进行人工标注。
- 结合人工标注和伪标签生成。
(4) 半监督学习(Semi-Supervised Learning)
- 结合已标注数据和未标注数据进行训练。
- 使用伪标签作为未标注数据的监督信号。