当前位置: 首页 > news >正文

搜广推校招面经四十四

快手主站推荐算法

一、因果里面前门准则是什么(Front-Door Criterion)

前门准则是因果推断中的一个重要概念,用于在存在未观测混杂因素的情况下识别因果效应。它由朱迪亚·珀尔(Judea Pearl)提出,是后门准则的补充。

1.1. 定义

前门准则适用于以下情况:

  • 存在一个中介变量 M M M,它完全介导了处理变量 X X X 对结果变量 Y Y Y 的因果效应。
  • 处理变量 X X X 和结果变量 Y Y Y 之间存在未观测的混杂因素 U U U

1.2. 条件

要应用前门准则,必须满足以下条件:

  1. 中介变量 M M M 完全介导 X X X Y Y Y 的因果效应:即 X X X Y Y Y 的因果效应完全通过 M M M 传递。
  2. X X X M M M 之间没有未观测的混杂因素:即 X X X M M M 的因果效应是无偏的。
  3. M M M Y Y Y 之间没有未观测的混杂因素:即 M M M Y Y Y 的因果效应是无偏的。

1.4. 因果效应识别

在前门准则下, X X X Y Y Y 的因果效应可以通过以下步骤识别:

  1. 估计 X X X M M M 的因果效应。
  2. 估计 M M M Y Y Y 的因果效应。
  3. 将这两个效应相乘,得到 X X X Y Y Y 的总因果效应。

1.3. 数学表达

因果效应可以表示为:
P ( Y ∣ d o ( X ) ) = ∑ m P ( Y ∣ d o ( M = m ) ) ⋅ P ( M = m ∣ d o ( X ) ) P(Y | do(X)) = \sum_{m} P(Y | do(M = m)) \cdot P(M = m | do(X)) P(Ydo(X))=mP(Ydo(M=m))P(M=mdo(X))

其中:

  • P ( Y ∣ d o ( M = m ) ) P(Y | do(M = m)) P(Ydo(M=m)) M M M Y Y Y 的因果效应。
  • P ( M = m ∣ d o ( X ) ) P(M = m | do(X)) P(M=mdo(X)) X X X M M M 的因果效应。

1.4. 示例

假设:

  • X X X 是吸烟,
  • M M M 是焦油沉积,
  • Y Y Y 是肺癌,
  • U U U 是未观测的基因因素。

如果焦油沉积完全介导了吸烟对肺癌的因果效应,并且吸烟与焦油沉积之间、焦油沉积与肺癌之间没有未观测的混杂因素,那么可以使用前门准则来估计吸烟对肺癌的因果效应。

二、后门准则(Back-Door Criterion)

后门准则是因果推断中的一个重要概念,用于在存在混杂因素的情况下识别因果效应。它由朱迪亚·珀尔(Judea Pearl)提出,是因果图模型中的核心工具之一。

2.1. 定义

后门准则用于确定一组变量 Z Z Z,使得在控制 Z Z Z 后,处理变量 X X X 对结果变量 Y Y Y 的因果效应可以被无偏地估计。具体来说, Z Z Z 需要阻断 X X X Y Y Y 之间的所有后门路径。

2.2. 后门路径

后门路径是指从 X X X Y Y Y 的任何非因果路径(即不经过 X → Y X \rightarrow Y XY 的路径),这些路径可能会引入混杂偏差。后门路径通常通过未观测的混杂因素 U U U 连接 X X X Y Y Y

2.3. 条件

要应用后门准则,必须满足以下条件:

  1. Z Z Z 阻断所有 X X X Y Y Y 之间的后门路径:即 Z Z Z 必须包含足够的信息来阻断所有非因果路径。
  2. Z Z Z 不包含 X X X 的后代:即 Z Z Z 不能是 X X X 的因果效应变量,否则会引入新的偏差。

2.4. 因果效应识别

在后门准则下, X X X Y Y Y 的因果效应可以通过以下公式识别:
P ( Y ∣ d o ( X ) ) = ∑ z P ( Y ∣ X , Z = z ) ⋅ P ( Z = z ) P(Y | do(X)) = \sum_{z} P(Y | X, Z = z) \cdot P(Z = z) P(Ydo(X))=zP(YX,Z=z)P(Z=z)

其中:

  • $P(Y | X, Z = z) 是在控制 Z Z Z X X X Y Y Y的条件概率。
  • P ( Z = z ) P(Z = z) P(Z=z) Z Z Z的边际分布。

2.5. 示例

假设:

  • X X X 是药物治疗,
  • Y Y Y 是康复情况,
  • Z Z Z 是患者的年龄,
  • U U U 是未观测的健康状况。

如果年龄 Z Z Z X X X Y Y Y 之间的混杂因素,且没有其他未观测的混杂因素,那么可以通过控制 Z Z Z 来估计药物治疗 X X X 对康复情况 Y Y Y 的因果效应。

2.6. 总结

后门准则提供了一种在存在混杂因素的情况下识别因果效应的方法,通过控制一组适当的变量 Z Z Z 来阻断后门路径,从而获得无偏的因果估计。

三、去偏方法概述

去偏(Debiasing)是指通过统计或机器学习方法消除数据中的偏差,从而更准确地估计因果效应或模型参数。以下是常见的去偏方法,包括针对 RCT(随机对照试验)数据的处理方式。

3.1. RCT 数据的去偏方法

(1) 随机化检验

  • 目的:验证随机化是否成功。
  • 方法:比较处理组和对照组在基线特征上的分布是否均衡。
  • 工具:t 检验、卡方检验、KS 检验等。

(2) 协变量调整

  • 目的:进一步控制基线特征的差异。
  • 方法:在回归模型中加入基线协变量 ( Z )。
  • 公式
    Y = β 0 + β 1 X + β 2 Z + ϵ Y = \beta_0 + \beta_1 X + \beta_2 Z + \epsilon Y=β0+β1X+β2Z+ϵ
    其中 X X X 是处理变量, Z Z Z 是协变量。

(3) 倾向得分匹配(PSM)

  • 目的:在非完全随机化的情况下,通过匹配处理组和对照组来减少偏差。
  • 方法
    1. 估计倾向得分 P ( X = 1 ∣ Z ) P(X=1 | Z) P(X=1∣Z)
    2. 根据倾向得分匹配处理组和对照组样本。
  • 工具:Logistic 回归、最近邻匹配、核匹配等。

(4) 逆概率加权(IPW)

  • 目的:通过加权调整样本分布,使其更接近随机化分布。
  • 方法
    1. 计算每个样本的权重 W = 1 P ( X = 1 ∣ Z ) W = \frac{1}{P(X=1 | Z)} W=P(X=1∣Z)1(处理组)或 W = 1 1 − P ( X = 1 ∣ Z ) W = \frac{1}{1 - P(X=1 | Z)} W=1P(X=1∣Z)1(对照组)。
    2. 使用加权回归或加权平均估计因果效应。

(5) 多重插补

  • 目的:处理 RCT 数据中的缺失值问题。
  • 方法
    1. 使用多重插补法填补缺失值。
    2. 在填补后的数据集上进行分析。
  • 工具:MICE(多重插补链式方程)、Amelia 等。

3.2. 去偏的一般方法(适用于非 RCT 数据)

(1) 后门调整

  • 目的:通过控制混杂变量 Z Z Z 来阻断后门路径。
  • 方法:使用后门准则选择 Z Z Z,并在回归模型中调整 Z Z Z

(2) 前门调整

  • 目的:在存在未观测混杂因素时,通过中介变量 M M M 估计因果效应。
  • 方法:使用前门准则,估计 X → M X \rightarrow M XM M → Y M \rightarrow Y MY 的因果效应。

(3) 工具变量(IV)

  • 目的:在存在未观测混杂因素时,通过工具变量 I I I 估计因果效应。
  • 方法:使用两阶段最小二乘法(2SLS)或其他 IV 方法。

(4) 双重机器学习(Double ML)

  • 目的:在高维数据中估计因果效应。
  • 方法
    1. 使用机器学习模型估计倾向得分和条件均值。
    2. 通过残差法估计因果效应。

四、迭代标签(Iterative Labeling)方法

迭代标签是一种通过多次迭代优化数据标签质量的半监督学习方法。它通常用于以下场景:

  • 数据标签不完整或噪声较大。
  • 需要利用未标注数据提升模型性能。
  • 标注成本较高,希望通过迭代减少人工标注需求。

4.1. 迭代标签的基本流程

迭代标签的核心思想是通过模型预测和人工验证的交替进行,逐步优化标签质量。其基本流程如下:

  1. 初始训练:使用少量已标注数据训练初始模型。
  2. 预测未标注数据:用初始模型对未标注数据进行预测,生成伪标签。
  3. 筛选高置信度样本:选择预测置信度高的样本,将其伪标签加入训练集。
  4. 人工验证(可选):对高置信度样本进行人工验证,确保标签质量。
  5. 重新训练模型:使用扩展后的训练集重新训练模型。
  6. 迭代优化:重复步骤 2-5,直到模型性能收敛或达到预设条件。

4.2. 迭代标签的关键步骤

(1) 初始训练

  • 使用少量高质量标注数据训练初始模型。
  • 模型可以是分类模型、回归模型或深度学习模型。

(2) 伪标签生成

  • 使用训练好的模型对未标注数据进行预测。
  • 为每个样本生成预测标签及其置信度。

(3) 高置信度样本筛选

  • 根据置信度阈值(如 0.9)选择高置信度样本。
  • 仅将高置信度样本的伪标签加入训练集。

(4) 人工验证(可选)

  • 对高置信度样本进行人工检查,修正错误标签。
  • 确保加入训练集的标签质量。

(5) 重新训练模型

  • 使用扩展后的训练集重新训练模型。
  • 可以使用相同的模型架构,或调整模型复杂度。

(6) 迭代优化

  • 重复伪标签生成、筛选、验证和重新训练的过程。
  • 直到模型性能不再显著提升或达到最大迭代次数。

4.3. 迭代标签的实现方法

(1) 自训练(Self-Training)

  • 使用模型自身的预测结果作为伪标签。
  • 适用于分类、回归等任务。

(2) 协同训练(Co-Training)

  • 使用多个视图(View)或多个模型生成伪标签。
  • 适用于多模态数据或多视角学习。

(3) 主动学习(Active Learning)

  • 在每次迭代中选择不确定性最高的样本进行人工标注。
  • 结合人工标注和伪标签生成。

(4) 半监督学习(Semi-Supervised Learning)

  • 结合已标注数据和未标注数据进行训练。
  • 使用伪标签作为未标注数据的监督信号。

相关文章:

  • 嵌入式音视频通话SDK组件EasyRTC:全平台设备兼容,智能硬件里的WebRTC调用实践
  • python ---cad二次开发(环境搭建)
  • 【OpenGL】01-配置环境
  • element tree树形结构默认展开全部
  • 韩国 KAIST激光雷达领域研究概况2025.3.12
  • 大模型微调中warmup(学习率预热)是什么
  • MATLAB 控制系统设计与仿真 - 24
  • 【技海登峰】Kafka漫谈系列(五)Java客户端之生产者Producer核心组件与实现原理剖析
  • 嵌入式NuttX RTOS面试题及参考答案
  • Restormer: Efficient Transformer for High-Resolution Image Restoration
  • 力扣热题 100:贪心算法专题经典题解析
  • LabVIEW非线性拟合实现正弦波参数提取
  • 在MATLAB中实现PID控制仿真
  • 模型训练和推理
  • mysql8安装后没有自动生成登录密码
  • frameworks 之屏幕旋转
  • 【从零开始学习计算机科学】操作系统(五)处理器调度
  • JAVASE(五)
  • 垃圾收集算法与收集器
  • vue2:表单的动态校验和静态校验
  • 老人刷老年卡乘车被要求站着?公交公司致歉:涉事司机停职
  • 郑州一街道被指摊贩混乱经营,12345热线:已整治并加强巡查
  • 非洲中青年军官代表团访华,赴北京、长沙、韶山等地参访交流
  • 中东睿评|胡塞武装已成为楔入中东各方力量之间的钉子户
  • 上海今日降雨降温,节后首个工作日气温回升最高可达28℃
  • 马丽称不会与沈腾终止合作,“他是我的恩人,也是我的贵人”