从0开始学习R语言--Day31--概率图模型
在探究变量之间的相关性时,由于并不是每次分析数据时所用的样本集都能囊括所有的情况,所以单纯从样本集去下判断会有武断的嫌疑;同样的,我们有时候也想要在数据样本不够全面时就能对结果有个大概的了解。
例如医生在给患者做诊断时,有些检查需要耗费的时间很久,但仅仅凭借一些其他的症状,他就可以对病人患某种病有个大概的猜想,从而先做出一些措施来降低风险,毕竟等到疾病真正发生时可能会来不及。概率图模型便是能够同时进行多变量的概率分析的模型,既能提高效率,又能顾及没有注意到的细节。
以下是一个例子:
library(bnlearn)# 1. 生成更简单的模拟数据集(确保变量间有明确因果关系)
set.seed(123)
n <- 1000# 明确因果关系:Smoking -> LungCancer -> Cough
smoking <- rbinom(n, 1, 0.3)
lung_cancer <- ifelse(smoking, rbinom(n, 1, 0.15), rbinom(n, 1, 0.05))
cough <- ifelse(lung_cancer, rbinom(n, 1, 0.5), rbinom(n, 1, 0.1))health_data <- data.frame(Smoking = factor(smoking, labels = c("No", "Yes")),LungCancer = factor(lung_cancer, labels = c("No", "Yes")),Cough = factor(cough, labels = c("No", "Yes"))
)# 2. 构建网络结构(改用明确指定结构的方式)
bn_struct <- empty.graph(names(health_data))# 手动指定因果关系(避免方向不确定问题)
arcs(bn_struct) <- matrix(c("Smoking", "LungCancer","LungCancer", "Cough"),ncol = 2, byrow = TRUE
)# 3. 参数学习(现在应该可以正常运行)
bn_model <- bn.fit(bn_struct, health_data)# 查看条件概率表
cat("吸烟对肺癌的影响:\n")
print(bn_model$LungCancer)cat("\n肺癌对咳嗽的影响:\n")
print(bn_model$Cough)# 4. 简单推理示例
# 已知某人吸烟,预测患肺癌概率
smoking_yes_probs <- cpquery(bn_model, event = (LungCancer == "Yes"),evidence = (Smoking == "Yes"))cat("\n吸烟者患肺癌概率:", round(smoking_yes_probs, 3))# 已知某人咳嗽,反推吸烟概率
cough_yes_smoking <- cpquery(bn_model,event = (Smoking == "Yes"),evidence = (Cough == "Yes"))cat("\n咳嗽患者中吸烟比例:", round(cough_yes_smoking, 3))
输出:
Parameters of node Cough (multinomial distribution)Conditional probability table:LungCancer
Cough No YesNo 0.91738197 0.54411765Yes 0.08261803 0.45588235
吸烟者患肺癌概率: 0.137
咳嗽患者中吸烟比例: 0.364
从结果可以看到,患者中有无肺癌,咳嗽的概率有明显的不同,这说明咳嗽确实是肺癌的一个重要表现,但反过来,咳嗽的也有可能是其他原因导致的。如果反过来去看因果发生的概率,即咳嗽的人群中患有肺癌的概率,便会发现概率没有想象中那么大,这能辅助我们考虑多种情况。