因果推断中的d-分离图模型
在因果推断的图模型(尤其是有向无环图DAG)中,d-分离(d-separation)是判断变量间是否存在“条件独立关系”的核心工具,也是连接图结构与概率分布的桥梁。它通过分析图中变量的连接路径(尤其是“碰撞点”的特殊作用),确定在控制某些变量( conditioning set )后,两个变量的关联是否被“阻断”,进而推断其概率独立性。
要理解d-分离,需先明确图模型中的两个基础概念:路径和碰撞点,再掌握“阻断路径”的规则,最终定义d-分离。
一、前置概念
路径与碰撞点 在DAG中,变量用节点表示,因果关系用有向边(如X→Y)表示。首先区分两个关键术语:
1. 路径(Path)
变量间的无向连接序列(不考虑边的方向),例如:
(1)X→Y→Z 的路径是 X-Y-Z(忽略箭头方向);
(2)X←Y→Z 的路径也是 X-Y-Z。
路径不等于“因果路径”,它仅描述节点间的连接关系,需进一步分析是否被“阻断”。
2. 碰撞点(Collider)
路径中两个箭头同时指向的节点,例如在路径 X→C←Y 中,节点C就是碰撞点(箭头“碰撞”于C)。
与之相对的是非碰撞点:路径中箭头“穿过”的节点(如 X→M→Y 中的M,或 X←M→Y 中的M)。
碰撞点是d-分离的核心——它的存在会显著改变路径的“阻断规则”,这与直觉中的“中间变量”作用完全不同。
二、核心规则:
阻断一条路径 d-分离的本质是“判断路径是否被阻断”。对于DAG中的任意一条路径(连接变量A和B),若满足以下任一条件,则这条路径被阻断:
规则1:
路径中存在“非碰撞点”且该节点被控制(放入条件集Z) 若路径中的某个节点M是非碰撞点(如 A→M→B 或 A←M→B 中的M),且我们“控制”了M(即M∈Z),则路径被阻断。
例1:路径 X→M→Y,M是非碰撞点。若控制M(条件集Z={M}),则X到Y的关联被M阻断(X的影响需通过M传递,控制M后传递中断)。
例2:路径 X←M→Y,M是非碰撞点(“共同原因”)。若控制M(Z={M}),则X和Y因“共同原因”产生的虚假关联被阻断(例如“冰淇淋销量X”和“溺水人数Y”的关联由“气温M”引起,控制气温后二者独立)。
规则2:
路径中存在“碰撞点”且该节点及其后代均未被控制 若路径中的某个节点C是碰撞点(如 A→C←B),且C和其所有后代(如C→D中的D)均不在条件集Z中,则路径被阻断。
例:路径 X→C←Y,C是碰撞点(“共同结果”)。若不控制C或其后代,X和Y之间无关联传递(X影响C,Y也影响C,但C的结果不会反向传递到X或Y),因此路径天然阻断,X和Y独立。
反规则:
碰撞点被控制时路径“开放” 若路径中的碰撞点C或其后代被控制(C∈Z或后代∈Z),则原本阻断的路径会开放,X和Y会产生“虚假关联”(称为“伯克森悖论”)。
例:假设X(才华)和Y(颜值)原本独立,C(成为明星)是X和Y的共同结果(X→C←Y)。若仅研究“明星群体”(即控制C=1),会发现“才华和颜值负相关”——因为明星只需满足“有才华”或“有颜值”其一即可,这种虚假关联就是控制碰撞点后路径开放的结果。
三、d-分离的正式定义
基于“阻断路径”的规则,d-分离的定义如下: 对于DAG中的两个变量子集A和B,以及一个条件集Z(A、B、Z两两不交),若所有连接A中节点与B中节点的路径都被Z阻断,则称A和B被Z d-分离,记为 A ⊥⊥_d B | Z。
d-分离的核心价值在于:若DAG正确反映了变量的因果关系,则“d-分离”等价于“概率条件独立”(即 A ⊥⊥_d B | Z ⇨ A ⊥⊥ B | Z,这一性质称为“马尔可夫性”)。 这意味着,我们可以仅通过观察图结构(无需数据),就能推断变量间的独立关系——这是因果推断从“数据驱动”走向“结构驱动”的关键。
四、实例:
用d-分离判断独立关系 通过一个具体DAG理解d-分离的应用,假设DAG结构为: X → M → Y,X ← C → Y(即X和Y有直接因果路径X→M→Y,且有共同原因C)。
我们分析不同条件集下X和Y的d-分离关系:
条件集Z | 连接X与Y的路径 | 路径是否被阻断? | X与Y是否d-分离? | 结论(概率独立) |
Z=∅(无控制) | 1. X→M→Y(非碰撞点M) 2. X←C→Y(非碰撞点C) | 两条路径均未阻断(未控制M/C) | 否 | X与Y不独立 |
Z={M} | 1. X→M→Y(控制非碰撞点M,阻断) 2. X←C→Y(未控制C,未阻断) | 路径2未阻断 | 否 | X与Y仍不独立(受C影响) |
Z={C} | 1. X→M→Y(未控制M,未阻断) 2. X←C→Y(控制C,阻断) | 路径1未阻断 | 否 | X与Y仍不独立(受M影响) |
Z={M,C} | 1. X→M→Y(控制M,阻断) 2. X←C→Y(控制C,阻断) | 两条路径均阻断 | 是 | X与Y条件独立 |
五、d-分离的关键作用
d-分离是因果推断的“基础工具”,其核心应用包括:
1. 识别混杂变量:混杂变量是同时影响处理变量(T)和结果变量(Y)的变量,且会导致T和Y的虚假关联。通过d-分离可判断:若控制某个变量集Z后,T和Y被d-分离,则Z可阻断所有混杂路径,是有效的“去混杂集”。
2. 验证工具变量:工具变量(IV)需满足“仅通过T影响Y”,即IV与Y的所有路径都需经过T。通过d-分离可验证:若控制T后,IV与Y被d-分离,则IV满足“排他性”条件。
3. 构建因果效应估计式:例如在“后门准则”中,d-分离用于判断“后门路径”(从T到Y且包含指向T的边)是否可被控制变量阻断,进而确定因果效应的可识别性。
总结
d-分离的本质是通过图结构判断“条件独立”,其核心逻辑围绕“路径是否被阻断”展开,而“碰撞点”的特殊作用(控制则开放、不控制则阻断)是理解的关键。它将抽象的因果结构转化为可计算的独立关系,是连接因果图与概率推断的桥梁,也是后续因果效应识别(如后门准则、前门准则)的基础。