贝叶斯网络_TomatoSCI分析日记
贝叶斯网络是一种用于表示变量之间条件依赖关系的图模型。每个节点代表一个随机变量,每条有向边表示一个变量对另一个变量的直接影响。在实际应用中,贝叶斯网络既适用于分类变量,也适用于连续变量,具备极强的灵活性。它不仅能刻画变量之间的因果结构,还可以用于推理与预测,因此广泛应用于医疗诊断、社会科学分析等多个领域。下面将围绕变量类型,结合示例数据进行讲解。
01 离散型贝叶斯网络
离散型贝叶斯网络专为分类变量设计,要求所有数据变量均为分类变量(见图1)。下面展示示例数据的分析结果。
图2为离散型贝叶斯网络图,节点代表变量,箭头表示因果关系——箭头从影响变量指向被影响变量。若某些节点孤立无连接,说明它们与其他变量没有直接依赖关系。
图3展示的是条件概率表。由于变量均为分类变量,概率用于量化变量取不同类别的可能性。对于孤立节点或没有父节点的变量,条件概率表仅包含该节点各类别的概率(例如0或1的概率)。若节点有父节点,则条件概率表会显示该节点在不同父节点状态组合下的类别概率,通常以二维表形式呈现,清晰反映变量间的条件依赖关系。
02 高斯贝叶斯网络
高斯贝叶斯网络专为连续变量设计,要求所有数据变量均为分类变量(见图4)。下面展示示例数据的分析结果。
图5为高斯贝叶斯网络图,解读方式与离散型贝叶斯网络类似,由于采用高斯分布建模,网络中不再使用条件概率表,而是通过节点的均值和协方差矩阵描述变量间的条件依赖关系,如箭头上的系数就是代表两者关系的量化,如y指向x2,系数为0.3,意味着y每增加1个单位,x2条件期望(平均值)增加0.2个单位。
03 需要注意的问题
1. 数据量要求较高
贝叶斯网络在结构学习(即确定变量之间的因果路径)和参数估计过程中,通常需要较大的样本量作为支撑。如果样本量不足,模型可能会出现以下问题:学不出网络结构,尤其在变量较多时;结构不稳定或过拟合,仅反映数据中的随机性。
2. 混合变量类型的限制
贝叶斯网络对变量类型有严格要求:离散型贝叶斯网络要求所有变量为分类变量;高斯贝叶斯网络要求所有变量为连续变量且满足高斯分布假设;当前主流R包(如bnlearn)尚不支持直接对分类变量和连续变量混合建模。
TomatoSCI科研数据分析平台,欢迎大家来访!数据分析无需登录,专业在线客服答疑,还可在线传输文件,五折优惠码“tomatosci”开放使用中。PCA、RDA、PCoA、层次聚类等方法等你就位。