当前位置: 首页 > news >正文

《Graph machine learning for integrated multi-omics analysis》

图神经网络(GNNs)的核心概念

GNNs是一种端到端的深度学习模型,能够直接处理图结构数据。论文介绍了以下几种主要GNN变体:

  • 图卷积网络(GCN):通过聚合邻居节点信息进行特征提取。

  • GraphSAGE:基于采样的图神经网络,适合大规模图数据。

  • 图注意力网络(GAT):利用注意力机制为不同邻居分配权重。

  • 变换器网络(TNN):结合变换器架构处理图数据。

  • 图自编码器(GAE)与变分图自编码器(GVAE):用于学习图的低维表示。

GNN在单细胞组学中的应用

论文详细探讨了GNN在以下单细胞组学领域的具体应用:

1. 单细胞转录组学(scRNA-seq)

  • 任务:包括数据插补(imputation)、聚类(clustering)和细胞类型识别(cell type identification)。

  • 方法

    • Graph2CNN、scGNN等:通过构建基因-基因或细胞-细胞图,结合GNN进行数据插补和聚类。例如,scGNN通过路径活动评分矩阵(pathway activity score matrices)整合基因和细胞信息,预测细胞类型。

    • GraphCN:结合自编码器和GCN,利用细胞相似性矩阵进行细胞类型识别。

  • 优势:GNN能够捕捉细胞间的相似性和基因交互关系,提高聚类和识别的准确性。

2. 单细胞表观遗传学(scATAC-seq)

  • 任务:细胞类型注释(cell type annotation)。

  • 方法

    • scGCN:通过参考scRNA-seq数据集,构建查询和参考数据集的混合图,利用三层GCN进行细胞类型注释。

    • HyGamo:通过并行GNN架构,从scRNA-seq数据中提取特征,改进对scATAC-seq的注释效果。

  • 挑战:scATAC-seq数据中峰值特征的转换可能丢失信息,HyGamo通过直接特征提取克服了这一问题。

3. 单细胞DNA甲基化

  • 任务:甲基化插补(methylation imputation)。

  • 方法

    • CapriCG:使用GNN构建细胞-位点(loci)的二分图,通过GAT学习节点间关系,预测缺失的甲基化值。

  • 意义:解决单细胞DNA甲基化数据的高稀疏性问题,提供更完整的细胞类型组成信息。

4. 细胞-细胞通信推断

  • 任务:推断细胞间交互。

  • 方法

    • Graph-DIFWAE:基于scRNA-seq数据构建加权图,利用皮尔逊相关系数和变分自编码器(VAE)推断细胞通信。

  • 应用:帮助理解细胞系统的生物学交互机制。

5. 单细胞多组学整合

  • 任务:整合多种组学数据(如scRNA-seq、scATAC-seq等),进行细胞类型解卷积(cell type deconvolution)、模态预测等。

  • 方法

    • CLUE、GNN-SC、STAC:利用GNN整合特征-特征或细胞-细胞图,实现多组学数据融合。

    • MamiGT、DeepMAPS:结合GAT和GTN,识别细胞群体并预测蛋白质丰度。

    • DGTs:利用伪空间转录组(pseudo-SRT)数据,通过GNN预测空间网格中的细胞类型比例。

  • 优势:GNN能够整合多模态数据,捕捉复杂的生物学关系。

6. 空间转录组学(SRT)

  • 任务:空间数据分析,细胞类型解卷积。

  • 方法:类似DGTs,利用空间图结构进行多尺度特征整合,预测细胞类型比例。

GNN变体的分布与应用趋势

  • 分布:论文通过饼图展示了六种GNN变体(GCN、GraphSAGE、GAT、TNN、GAE、GVAE)的应用比例。

  • 趋势:GNN在单细胞组学中的应用逐年增长,尤其在2022-2024年间,涉及转录组学、表观遗传学和多组学整合的任务显著增加。

结论与展望

  • 总结:GNN在单细胞组学分析中展现了强大潜力,特别是在处理复杂图结构和整合多模态数据方面。论文回顾了50种GNN-based方法的成功应用,涵盖细胞类型识别、数据插补、通信推断和多组学整合等任务。

  • 未来方向

    • 高分辨率数据:随着单细胞技术的发展,GNN将更广泛应用于高分辨率数据集。

    • 个性化医学:通过整合多组学数据,GNN可助力开发更全面的细胞行为模型,推动个性化医学的发展。

    • 预训练模型:在小规模任务特定数据集上微调预训练GNN模型,可显著提升性能。

资助与数据可用性

  • 资助:研究由国家自然科学基金(2027121、2022022号)和CAST青年精英科学家资助计划(2022QRRC001)支持。

  • 数据可用性:本研究未使用任何数据。

http://www.dtcms.com/a/320707.html

相关文章:

  • ChipCamp探索系列 -- 1. Soft-Core RISC-V on FPGA
  • 【全栈自动驾驶与异构加速】系统学习计划
  • React 状态管理入门:从 useState 到复杂状态逻辑
  • 【MongoDB】查询条件运算符:$expr 和 $regex 详解,以及为什么$where和$expr难以使用索引
  • 使用pybind11封装C++API
  • HTML <picture> 元素:让图片根据设备 “智能切换” 的响应式方案
  • 数据结构(16)排序(上)
  • 时序数据库-涛思数据库
  • 6.Linux 系统上的库文件生成与使用
  • Linux 内核发包流程与路由控制实战
  • 医防融合中心-智慧化慢病全程管理医疗AI系统开发(上)
  • 後端開發技術教學(三) 表單提交、數據處理
  • 排序知识总结
  • 五、mysql8.0在linux中的安装
  • 引领云原生时代,华为云助您构建敏捷未来
  • php防注入和XSS过滤参考代码
  • Orange的运维学习日记--35.DNS拓展与故障排除
  • 31-数据仓库与Apache Hive-Insert插入数据
  • 专利服务系统平台|个人专利服务系统|基于java和小程序的专利服务系统设计与实现(源码+数据库+文档)
  • 代数系统的一般概念与格与布尔代数
  • 云平台运维工具 ——Azure 原生工具
  • 二倍精灵图的做法
  • Jetpack Compose 动画全解析:从基础到高级,让 UI “动” 起来
  • 网络基础——网络层级
  • VSCode 禁用更新检查的方法
  • 并查集算法的一个实战应用详解
  • 基于Flask + Vue3 的新闻数据分析平台源代码+数据库+使用说明,爬取今日头条新闻数据,采集与清洗、数据分析、建立数据模型、数据可视化
  • 认识爬虫 —— 正则表达式提取
  • MySQL数据库操作练习
  • 基于大数据的地铁客流数据分析预测系统 Python+Django+Vue.js