Information Fusion | Modal-NexT:统一的多模态细胞数据整合
在单细胞测量技术飞速发展的背景下,我们能获得大量多模态的细胞数据,如转录组(RNA)、染色质可及性(ATAC)和蛋白质组(ADT)等,并且有的配对,有的不配对,以及有的是附带空间信息的。对于这些异构数据的整合分析是构建虚拟细胞统一表征的初步愿景。Modal-Nexus Transductive learning (Modal-NexT) 是一个基于graph的统一整合范式,把任意多模态数据组织为图,并通过重建图学习所有节点的embedding。
- 异质细胞数据整合的目标与四项任务。a:在潜在空间中,整合的目标是确保相同类型的细胞聚集在一起,而不同类型的细胞彼此分离。b:配对多模态整合。c:非配对多模态整合。d:空间多模态整合需要额外考虑样本(spot)的坐标。e:除多模态整合外,相同模态下多源数据集的整合也是一项挑战(批次整合)。
Modal-NexT: Towards unified heterogeneous cellular data integration
https://www.sciencedirect.com/science/article/pii/S1566253525005524
目前细胞分辨率的多模态分子丰度观测数据已变得容易获取。然而,目前缺乏统一的整合范式。目前的方法往往局限于特定场景,比如特定于配对多模态数据整合,特定于空间多模态数据整合。不同的问题场景对应不同体系的深度学习表征方法,这可能会阻碍人工智能虚拟细胞(AIVCs)愿景的实现。在AIVC的展望里,我们需要统一的表征,来自不同深度学习方法的表征往往存在不可估计的间隔,我们需要一种统一的范式,就像LLM中一切皆token,然后用同一个架构Transformer去学习。
对于异构的多模态细胞数据,受到SIMBA的启发,Modal-NexT将所有细胞和特征视为实体,在一个统一的细胞-特征联合图上使用转导学习来捕获生物上下文。图结构还能根据空间关系构建edge,具有良好的扩展性,能够兼容各种模态。
Modal-NexT中总结了4种主要的整合场景,并针对每种场景提供了专门解决方案:
- 配对多模态整合:跨模态细胞样本有配对信息,共享细胞嵌入;
- 非配对多模态整合:无细胞间配对关系,通过自适应对齐策略实现模态对齐;
- 空间多模态整合:额外考虑样本空间坐标信息,融入空间模式;
- 多源整合:同一模态下多个数据集的整合,在特征子集上构建跨数据集的联系;
- Modal-NexT 示意图。a:细胞 - 特征边的构建。根据标准化后的特征表达进行排序与分箱,以获得不同类型的边。b:针对配对多模态整合,将跨模态配对的细胞视为单个细胞实体。按照 a 中的流程,为每个细胞实体连接异质模态下的特征实体;通过矩阵分解得到所有实体的初始嵌入向量,再通过边重构学习更新实体的嵌入向量。c:针对非配对多模态整合,按照 a 中的流程为每个模态构建细胞 - 特征图,随后将异质模态的细胞嵌入向量对齐到联合空间中。d:针对空间多模态整合,与上述流程相比,需在空间相邻的两个细胞之间构建连接边。e:针对多源整合,在细胞 - 特征边中,特征实体既包含多源数据集共享的特征子集,也包含各数据集特有的附加特征。