基于多组学谱的疾病亚型分型与样本分类
许多疾病(尤其是癌症)具有高度的异质性,这是因为不同患者之间的癌症进展存在显著差异。此外,环境、生活方式等多种其他因素也可能在疾病异质性中发挥作用。因此,识别疾病的潜在亚型或将样本划分到已知的亚组中,对于理解疾病的病因学并为不同亚型患者确定合适的干预措施至关重要。目前已有多种工具可利用样本的多组学数据来识别疾病亚型,或根据多组学谱将样本分类到不同的亚组。本节将讨论那些有助于基于潜在分子模式理解样本分组的工具。
贝叶斯方法
- Pathway Recognition Algorithm using Data Integration on Genomic Models (PARADIGM) PARADIGM 可从多组学数据中推断患者特异性的生物通路活性。该方法整合对单个患者样本进行的多组学尺度测量,以推断基因及其产物的活性,以及从 NCI 蛋白相互作用数据库中经过整理的通路相互作用衍生出的抽象生物过程。PARADIGM 使用贝叶斯因子图,因此也可归属于"网络"类别。 该方法通过因子图将基因建模为一组互连的变量,这些变量编码基因及其产物的表达和已知活性,从而允许整合多种类型的组学数据作为证据。PARADIGM 会生成一个整合通路活性矩阵 A,其中 Aij 表示在患者样本 j 中实体 i 的推断活性。 使用来自 TCGA 胶质母细胞瘤 基因表达和拷贝数数据的 PARADIGM 整合方法,揭示了该疾病的 4 种亚型。第四种亚型显示出一种有趣的独特模式:HIF-1-alpha 转录因子网络下调,而 E2F 转录因子网络过表达。HIF-1-alpha 的失活可能标志着这些肿瘤的氧合程度更高,提示它们可能是更小或更新的肿瘤。与视网膜母细胞瘤肿瘤抑制因子共同作用的 E2F 的上调,与此亚型肿瘤样本中细胞周期进程的主动抑制相一致。此外,该亚型在生存期方面与其他簇存在显著差异。相比之下,前 3 种亚型中的 2 种表现出 EGFR 特征升高,以及涉及 GATA 白细胞介素转录级联的丝裂原活化蛋白激酶级联反应失活。因此,PARADIGM 整合通路活性提供了一组有意义的谱,可用于描绘具有显著不同生存结局的亚型。
iCluster 方法
-
iCluster iCluster 方法旨在基于对多种数据类型的同步推断,生成样本的单一聚类分配。这种无监督方法使用联合潜在变量模型进行整合聚类,并在单一框架内灵活建模不同数据类型之间的关联以及数据类型内的方差-协方差结构,同时降低数据集的维度。基于似然的推断是通过期望最大化算法获得的。 通过整合拷贝数和基因表达数据,iCluster 有助于识别乳腺癌中的新亚组及其特征性分子模式。在乳腺癌分析中,4 个细胞系被归入簇 1,从而与肿瘤样本区分开来。在簇 2 中观察到 HER2/ERBB2 亚型,而一个在 17 号染色体长臂末端显示扩增的新亚型被归入簇 3。簇 4 未显示出显著的独特模式。类似地,使用 GBM 的拷贝数、基因表达和甲基化数据集进行聚类分析,得到了 3 个不同的亚型。由簇 1 代表的亚型显示出不均匀分布的拷贝数改变谱、参与大脑发育和神经元分化的基因的高甲基化,以及前神经表达谱。由簇 2 代表的亚型其特征与 EGFR 改变、19 和 20 号染色体增益、同源盒基因甲基化以及表达富集相关。由簇 3 代表的亚型以 NF1 和 PTEN 改变为特征,并表现出间充质样表达。 然而,该方法无法同时处理分类变量和连续变量,这一问题在其高级版本 iClusterPlus 中得到了解决。
-
iClusterPlus iClusterPlus 是 iCluster 的增强版,它使用广义线性回归来构建来自整合的基因组、表观基因组和转录组谱分析中的分类变量和数值(连续和计数)变量的联合模型。该方法使用一组潜在变量来表示"k"个驱动因素,这些因素预测关键的基因组变量,从而捕捉生物学的变异。此外,通过使用 Lasso 回归方法,iClusterPlus 可精确定位导致亚型间生物学变异的特征子集。 利用来自癌症细胞系百科全书 中代表 23 种肿瘤类型的 729 个癌细胞系的突变、拷贝数和基因表达谱,iClusterPlus 识别出 12 个不同的簇。尽管许多细胞系主要按其起源细胞类型分组(例如,小细胞肺癌、造血和淋巴组织以及乳腺癌),但也揭示了几个其他亚组,这些亚组不依赖于细胞谱系,可能由共享的遗传改变驱动(例如,同属于非小细胞肺癌和胰腺癌细胞系的簇 9 显示出普遍的 KRAS 突变)。 在另一项使用 TCGA 结直肠癌数据集的案例研究中,iClusterPlus 除了基于染色体不稳定性 的两种经典亚型(染色体稳定型或不稳定型)外,还有助于发现了两种新亚型。新亚型 CIN-negative 显示最低程度的改变(3% 的基因组改变),而 CIN-low 显示中等程度的改变(14% 的基因组改变)。 然而,该方法的局限性在于,由于其计算密集型的方法和惩罚回归的使用,统计推断(最终模型的统计选择)并不直接了当。
