贝叶斯共识聚类(BCC)
共识聚类被广泛用于整合多种聚类算法或多源数据集。贝叶斯共识聚类提出了一种数据驱动的共识聚类方法,通过扩展有限狄利克雷混合模型以适配多数据源,同时对源特定特征和整体聚类进行建模。该方法为每个数据源生成独立的聚类结果,但这些结果均与所有数据源的整体聚类松散关联。贝叶斯共识聚类能够同步完成特定数据源聚类与共识聚类,且共识聚类的形成基于一种概率分布,该分布对在特定区域频繁出现的簇赋予更高概率。
研究者还提出了一种启发式方法,用于为给定数据集选择最优聚类数量。贝叶斯共识聚类的实现基于数据服从正态分布的假设。
在实证研究中,BCC方法被应用于乳腺癌亚型识别,数据来源包括TCGA乳腺癌数据库中的348个样本,涵盖基因表达、DNA甲基化、miRNA表达和蛋白质数据(见表2)。该方法最终生成3个簇,分别对应已知的乳腺癌亚型:BCC的簇1对应基底细胞亚型,簇2对应Luminal A亚型,簇3则包含ER/PR阳性状态的样本。其中,基因表达数据的特定模式与整体聚类的关联度最高。
多数据集整合(MDI)
多数据集整合方法采用狄利克雷混合模型对每个数据源进行聚类,同时建模聚类间的成对依赖性。MDI 在基因组特征等被分配至组分的变量层面连接不同模型,这种基于组分变量的关联能够捕捉多组学数据间的依赖关系。例如,该方法可识别在多个数据集中被分配到同一组分、从而共同聚类的基因群。
作者提出的MDI应用案例包括整合酿酒酵母的基因表达和ChIP数据,以识别转录共调控的蛋白质复合物。此外,Savage等与Chauvel等的研究展示了该方法在利用TCGA多组学数据识别疾病亚型中的应用。
网络方法:相似性网络融合(SNF)
相似性网络融合是一种基于网络的方法,通过网络融合技术整合多组学数据集。首先,SNF为每种数据类型构建独立的相似性网络(节点代表患者或样本,边权重反映其相似性),随后通过非线性融合算法将这些网络合并为一个综合网络。融合过程基于消息传递理论,通过迭代使每个网络的结构逐渐与其他网络对齐。该方法的优势在于:弱连接(噪声)在迭代中逐渐消失,而强连接被保留并增强,直至收敛。
尽管SNF被归类为“网络方法”,但其技术核心同时结合了“融合”与“相似性”策略。
例如,研究通过SNF整合TCGA中215例胶质母细胞瘤(GBM) 的DNA甲基化、miRNA表达和基因表达数据(见表2),成功识别出GBM的3个亚型。其中最小聚类(簇3)对应已知的IDH1突变亚型,该亚型患者更年轻且预后较好;簇1包含对替莫唑胺(TMZ)治疗有反应的患者;簇2则与组织蛋白酶D(CTSD)过表达显著相关,后者已知会抑制TMZ疗效。这表明SNF能通过新型网络融合方法有效识别疾病亚型。
