《Graph machine learning for integrated multi-omics analysis》
图神经网络(GNNs)的核心概念
GNNs是一种端到端的深度学习模型,能够直接处理图结构数据。论文介绍了以下几种主要GNN变体:
图卷积网络(GCN):通过聚合邻居节点信息进行特征提取。
GraphSAGE:基于采样的图神经网络,适合大规模图数据。
图注意力网络(GAT):利用注意力机制为不同邻居分配权重。
变换器网络(TNN):结合变换器架构处理图数据。
图自编码器(GAE)与变分图自编码器(GVAE):用于学习图的低维表示。
GNN在单细胞组学中的应用
论文详细探讨了GNN在以下单细胞组学领域的具体应用:
1. 单细胞转录组学(scRNA-seq)
任务:包括数据插补(imputation)、聚类(clustering)和细胞类型识别(cell type identification)。
方法:
Graph2CNN、scGNN等:通过构建基因-基因或细胞-细胞图,结合GNN进行数据插补和聚类。例如,scGNN通过路径活动评分矩阵(pathway activity score matrices)整合基因和细胞信息,预测细胞类型。
GraphCN:结合自编码器和GCN,利用细胞相似性矩阵进行细胞类型识别。
优势:GNN能够捕捉细胞间的相似性和基因交互关系,提高聚类和识别的准确性。
2. 单细胞表观遗传学(scATAC-seq)
任务:细胞类型注释(cell type annotation)。
方法:
scGCN:通过参考scRNA-seq数据集,构建查询和参考数据集的混合图,利用三层GCN进行细胞类型注释。
HyGamo:通过并行GNN架构,从scRNA-seq数据中提取特征,改进对scATAC-seq的注释效果。
挑战:scATAC-seq数据中峰值特征的转换可能丢失信息,HyGamo通过直接特征提取克服了这一问题。
3. 单细胞DNA甲基化
任务:甲基化插补(methylation imputation)。
方法:
CapriCG:使用GNN构建细胞-位点(loci)的二分图,通过GAT学习节点间关系,预测缺失的甲基化值。
意义:解决单细胞DNA甲基化数据的高稀疏性问题,提供更完整的细胞类型组成信息。
4. 细胞-细胞通信推断
任务:推断细胞间交互。
方法:
Graph-DIFWAE:基于scRNA-seq数据构建加权图,利用皮尔逊相关系数和变分自编码器(VAE)推断细胞通信。
应用:帮助理解细胞系统的生物学交互机制。
5. 单细胞多组学整合
任务:整合多种组学数据(如scRNA-seq、scATAC-seq等),进行细胞类型解卷积(cell type deconvolution)、模态预测等。
方法:
CLUE、GNN-SC、STAC:利用GNN整合特征-特征或细胞-细胞图,实现多组学数据融合。
MamiGT、DeepMAPS:结合GAT和GTN,识别细胞群体并预测蛋白质丰度。
DGTs:利用伪空间转录组(pseudo-SRT)数据,通过GNN预测空间网格中的细胞类型比例。
优势:GNN能够整合多模态数据,捕捉复杂的生物学关系。
6. 空间转录组学(SRT)
任务:空间数据分析,细胞类型解卷积。
方法:类似DGTs,利用空间图结构进行多尺度特征整合,预测细胞类型比例。
GNN变体的分布与应用趋势
分布:论文通过饼图展示了六种GNN变体(GCN、GraphSAGE、GAT、TNN、GAE、GVAE)的应用比例。
趋势:GNN在单细胞组学中的应用逐年增长,尤其在2022-2024年间,涉及转录组学、表观遗传学和多组学整合的任务显著增加。
结论与展望
总结:GNN在单细胞组学分析中展现了强大潜力,特别是在处理复杂图结构和整合多模态数据方面。论文回顾了50种GNN-based方法的成功应用,涵盖细胞类型识别、数据插补、通信推断和多组学整合等任务。
未来方向:
高分辨率数据:随着单细胞技术的发展,GNN将更广泛应用于高分辨率数据集。
个性化医学:通过整合多组学数据,GNN可助力开发更全面的细胞行为模型,推动个性化医学的发展。
预训练模型:在小规模任务特定数据集上微调预训练GNN模型,可显著提升性能。
资助与数据可用性
资助:研究由国家自然科学基金(2027121、2022022号)和CAST青年精英科学家资助计划(2022QRRC001)支持。
数据可用性:本研究未使用任何数据。