当前位置: 首页 > news >正文

scDown:单细胞RNA测序下游分析管道-文献精读140

scDown: A Pipeline for Single-Cell RNA-Seq Downstream Analysis

scDown:单细胞RNA测序下游分析管道

摘要

单细胞转录组数据分析常用两种流行工具:Seurat 和 Scanpy。在 Seurat 和 Scanpy 的细胞注释后,多个单独的工具被用来研究细胞分化和通讯,包括不同条件下的细胞比例差异分析、伪时间和轨迹分析(用于研究细胞过渡)以及细胞间通讯分析。为了自动化单细胞 RNA-seq 数据的整合性细胞分化和通讯分析,我们开发了一个名为“scDown”的单细胞 RNA-seq 下游分析管道。该 R 包包含了细胞比例差异分析、细胞间通讯分析、伪时间分析和 RNA 速度分析。该管道支持 Seurat 和 Scanpy 注释的单细胞 RNA-seq 数据。我们将 scDown 应用于一个已发表的数据集,识别出一种与罕见基因神经发育性疾病相关的独特、此前未发现的神经元炎症信号特征。这些发现是通过简单实施 Seurat 差异基因表达分析无法识别的,展示了我们管道在生物学发现中的价值。scDown 可以广泛应用于 scRNA-seq 数据的下游分析,特别是在罕见疾病领域。

1. 引言

根据国家罕见病组织(NORD)数据库,超过 10,000 种罕见病影响超过 3,000 万美国人。这些疾病由于其复杂和异质的细胞群体,常常缺乏有效的治疗。例如,像肌萎缩侧索硬化症、间质性肺病和胶质母细胞瘤等罕见疾病涉及其细胞环境中多种细胞类型之间的复杂相互作用[1,2,3]。随着单细胞 RNA 测序(scRNA-seq)技术的发展和测序成本的降低,scRNA-seq 已成为分析单细胞分辨率下基因表达的最广泛应用的方法之一。这项技术越来越多地应用于理解包括罕见基因疾病在内的疾病病因学。scRNA-seq 分析的标准管道包括预处理步骤,如质量控制、比对到参考基因组、归一化、降维、细胞聚类、细胞类型注释和不同条件下的差异表达分析。然而,有意义的生物学洞察往往需要进一步的下游分析,包括细胞比例差异分析,以确定特定细胞类型在不同条件下是否存在显著差异;伪时间分析,用于建模细胞分化和发育;RNA 速度分析,用于基于剪接和未剪接转录本的比率预测未来的细胞状态;以及细胞间通讯分析,用于推测细胞间信号传导网络。大多数项目需要多个分析步骤,以充分解决生物学的复杂性。

尽管每种分析都有多个工具可用,但执行这些分析需要用户安装、学习和集成多个软件包。为了应对这一限制,我们开发了 scDown,一个 R 包(版本 1,https://github.com/BCH-RC/scDown,于 2025 年 5 月 30 日访问),它将四种广泛使用的下游分析方法整合到一个自动化工作流中。scDown 兼容 Seurat 和 Scanpy 中分析的单细胞数据集,允许研究人员在不同的单细胞分析框架之间无缝转换。该包使用户能够执行多个下游分析,而无需深入的编程知识,这使其成为单细胞研究社区的宝贵资源。此外,scDown 集成了多个先进的工具,包括 scProportionTest [4],它量化了两种生物学条件下每个聚类中细胞比例的相对差异;CellChat [5,6],它通过配体-受体相互作用推断和可视化复杂的细胞间通讯网络,从而提供对不同细胞类型、组织和疾病条件下细胞相互作用的更深刻见解;Monocle3 [7,8,9,10],通过在二维空间(UMAP 或 t-SNE)中识别基因表达变化来执行细胞轨迹构建和伪时间分析,使研究人员能够研究细胞分化和发育等动态生物过程;以及 scVelo [11,12,13],它使 RNA 速度分析能够预测细胞状态过渡和未来状态,并用于可视化、轨迹推断和概率图抽象(PAGA),以探索谱系关系、细胞分化和单细胞 RNA 测序数据中的动态过渡。通过自动化复杂的多步骤分析并减少编码要求,scDown 显著减少了实验生物学家、临床医生和早期职业研究人员进行深入单细胞 RNA-seq 分析所需的时间和精力。此外,它与 Seurat 和 Scanpy 的兼容性促进了具有不同软件偏好的研究小组之间的合作,而不会影响可重复性或分析的严谨性。

2. 结果
2.1. scDown 的功能特性

scDown 接受 RDS 和 h5ad 格式的 scRNA-seq 数据,无论细胞类型是否已经注释或使用的整合方法,包括 Harmony、典型相关分析(CCA)或批次平衡 K 最近邻(BBKNN)[14,15,16]。对于未注释的 scRNA-seq 数据,scDown 包括一个名为 doTransferLabel 的功能,通过从一个具有相似细胞群体的参考 scRNA-seq 数据集转移注释来分析这些数据,使用的工具是 Symphony [17]。scDown 包括五个模块,每个模块集成了不同的已发布工具(见图 1)。模块 1:使用 Symphony 从参考 scRNA-seq 数据集转移注释;模块 2:使用 scProportionTest 进行不同条件下给定细胞类型的细胞比例差异分析;模块 3:使用 CellChat 进行单一或多条件下的细胞间通讯分析(图 S1);模块 4:使用 Monocle3 进行伪时间分析(图 S2);模块 5:使用 scVelo 进行 RNA 速度分析(图 S3)。为了更好地指导用户选择适合其 scRNA-seq 数据的模块,我们在表 1 中总结了这些模块的使用情况。除了集成不同的已发布工具,scDown 通过使用并行化过程提高了工具运行的计算效率,特别优化了大数据集的性能(见表 S1)。对于每个关键功能,结果,包括 RDS 对象、CSV 表格和高分辨率 PNG 文件,会自动保存在用户定义的目录中,以保证可重复性和出版需求。每个关键功能的详细参数和使用示例见图 S1–S3。

图 1. scDown 流程图 scDown 管道整合了多种单细胞 RNA-seq 数据的下游分析。它包括使用 Symphony 进行自动化的细胞类型注释、使用 scProportionTest 进行细胞比例比较、通过 CellChat 进行细胞间通讯分析、使用 Monocle3 进行轨迹推断以及使用 scVelo 进行 RNA 速度分析。

able 1. Required scRNA-seq data type for each module in scDown.

ModuleFunctionFunction DescriptionRequired scRNA-Seq Data
Unannotated DataAnnotated Data
One ConditionTwo or More Conditions
1doTransferLabelAutomated cell type annotation by transferring cell type annotation from a reference Seurat object to a query unannotated Seurat object
2run_scproportionStatistically assess the significance of differences in cell type proportions for different condition comparisons
3run_cellchatV2Perform comprehensive intercellular communications analysis based on ligand–receptor pair interactions across cell types using CellChat.
4run_monocle3Construct pseudotime trajectories to model the progression of cellular differentiation utilizing monocle3
5run_scveloIncorporate spliced and unspliced counts using velocyto.R and estimate RNA velocity utilizing velociraptor
run_scvelo_fullConduct RNA velocity analysis with enhanced visualizations and PAGA trajectory inference using scVelo
2.2. 案例研究—应用于已发布的数据集

为了展示 scDown 的功能,我们将其应用于一个已发布的罕见疾病 scRNA-seq 数据集(见第 4 节)。该数据集包含从人类死后脑样本中提取的前额皮质样本,收集自三种生物学条件:CNV(15q 重复综合症)、ASD(自闭症谱系障碍,无 15q 重复)和 CON(神经典型对照),并注释了 17 种细胞类型[18]。我们首先分析了三组两两比较(ASD 与 CNV、ASD 与 CON、CNV 与 CON)中的细胞类型比例差异,以评估每种细胞类型在不同条件下的比例变化。ASD 组与 CON 和 CNV 组相比,表现出较高比例的兴奋性神经元—第 5/6 层(Neu L56)细胞,CON 组的比例略高于 CNV 组。抑制性神经元—血管活性肠肽阳性(Inh-VIP)细胞在 CNV 组的丰度高于 ASD 和 CON 组,而少突胶质细胞谱系(OL)细胞在 CON 组的比例低于 ASD 和 CNV 组(图 S4)。尽管鉴于个体样本间的潜在随机变异[19],细胞比例差异的发现应谨慎对待,但神经元兴奋-抑制失衡理论对神经发育障碍的影响,使得 Neu L56 细胞的差异尤为引人注目[20,21]。我们还在 CNV 病例与 CON 或 ASD 组之间识别出了 T 细胞比例的差异(图 S4),这与下面关于 CNV 状态中特有的神经炎症特征的发现相关。

我们进行了 RNA 速度分析(图 2a),观察到星形胶质细胞 I 和 II 亚型、OL 细胞和少突胶质祖细胞(OPC)、抑制性神经元—帕瓦尔布明阳性 II 型(Inh-PVALB II)与抑制性神经元—生长抑素阳性(Inh-SST)之间的分化。当分别分析 CNV、ASD 和 CON 样本时,星形胶质细胞 I 和 II 亚型之间以及 OL 细胞与 OPC 细胞之间的分化在所有组中保持一致。然而,我们观察到在 CNV 组中,兴奋性神经元—第 2/3 层(Neu L23)向兴奋性神经元—第 4 层(Neu L4)的过渡较快,表现为较长的速度箭头,其次是 ASD 组,CON 组则相对较慢。这可能表明 CNV 中神经元分化加速,特别是影响了兴奋性神经元。此外,CNV 组中 Inh-PVALB II 向 Inh-SST 的流动在其他条件下没有出现,这可能表明 PVALB 和 SST 中间神经元在该条件下存在特有的扰动。重要的是,所有样本中均观察到星形胶质细胞 I 向星形胶质细胞 II 的过渡,表明原生质型和纤维型星形胶质细胞在 ASD、CNV 和 CON 中仍然保持 distinct。值得注意的是,我们还发现了从星形胶质细胞 II 到小胶质细胞的流动,这可能表明这两种细胞类型之间存在共享的基因表达谱。除了这些发现外,我们还识别了每种细胞类型在 RNA 速度上的差异基因,为这些模式的分子机制提供了进一步的洞察(图 S5)。

图 2. 使用 scDown 管道进行单细胞数据分析的案例研究结果 (a) RNA 速度向量场在 UMAP 嵌入空间中分别分析并可视化,每个样本条件(CNV、ASD 和 CON)单独展示。 (b) UMAP 图展示了 OPCs(少突胶质前体细胞)和少突胶质细胞,以及通过在每个分区内拟合主图来推断的伪时间轨迹。细胞根据使用最大潜力法确定的根节点沿伪时间排序。密度图显示了各条件下整个数据集中细胞在伪时间上的分布。 (c) 条形图比较了 CNV 和 CON 组之间不同信号通路的相对重要性。x 轴代表“信息流”,表示每个通路的绝对通讯强度,并突出了在组间进行通讯的最具影响力的通路。与 ASD 样本相比,SPP1 通路在 CNV 样本中更为富集,而 PDGF 和 RA 通路在 ASD 样本中比在 CNV 样本中更为富集。 (d) 该气泡图展示了参与 ADGRB 信号通路的配体-受体对。每个气泡代表一对细胞类型之间的配体-受体相互作用,其大小表示相互作用的显著性(p 值),颜色表示通讯的概率。

为了探索细胞谱系关系和分化进程,我们进一步重建了伪时间轨迹,将细胞沿着发育路径进行排序,其中我们定义 OPCs 为从中分化出少突胶质细胞的早期细胞类型(图 2b)。在少突胶质细胞中,ASD 组在晚期阶段的细胞密度高于其他组。我们发现,前 10 个显著的轨迹变量基因在早期分化阶段高度表达,在 OPCs 中的表达量高于少突胶质细胞。

最后,我们对不同条件下的细胞间通讯模式进行了调查和比较。在汇总视图层面,三组条件下所有细胞类型之间的进出相互作用的整体强度没有显著差异。然而,在分析特定通路时,我们在某些细胞类型中识别出富集的通路。例如,如图 2c 所示,SPP1(分泌性磷蛋白 1)通路在 CNV 中富集,而 PDGF(血小板衍生生长因子)和 RA(视黄酸)通路在 ASD 中富集,证实了 Dias 等人出版物中观察到的炎症特征,并为进一步研究提供了新方向[18]。此外,对于在 CNV 和 ASD 中都富集的通路,我们观察到不同细胞类型中参与细胞间通讯的配体-受体对的差异。如图 2d 所示,ADGRB(黏附 G 蛋白偶联受体 B)通路表现出不同的信号模式:在 CNV 中,L23 群体通过 C1QL3/ADGRB3 信号与其他细胞类型进行独特的通讯;在 CNV 和 ASD 中,C1QL1/ADGRB3 信号也存在;然而,Inh-PVALB II 群体仅在 CNV 中利用这种信号。这些结果突出了特定条件下的细胞间通讯在突触调控中的作用,提示在疾病病理学中的潜在功能意义。

3. 讨论

我们开发了一个全面且直观的 scDown 工具,以简化单细胞 RNA-seq 下游分析,即使对于编程知识有限的用户也是如此。据我们所知,目前尚未发布类似的 R 或 Python 版本的单细胞 RNA-seq 下游工具。尽管 Shaoxia 工具是一个基于 Web 的应用程序,能够执行类似的分析,但它也存在一些限制[22]。首先,Shaoxia 要求用户注册账户。其次,它不允许用户直接选择参数。例如,用户不能选择 UMAP 或 t-SNE 图的维度参数,而这些参数对于实现更好的细胞类型注释至关重要。最后,Shaoxia 要求用户将研究数据上传到其 Web 服务器,这可能会让有数据隐私顾虑的研究人员却步。相比之下,我们为用户创建了一个 Docker 镜像,允许用户在笔记本电脑、Linux 服务器或高性能计算集群上安装 scDown。我们还允许用户根据特定的研究目标自定义参数。

为了评估不同生物学条件下细胞类型比例的差异,我们采用了 scProportionTest,这是一个基于 R 的快速工具,与我们的 R 基础 scDown 管道完全集成。尽管像 scCODA 这样的替代方法存在,它是一种用于组成性单细胞数据分析的贝叶斯模型,但它是基于 Python 的,与我们当前的 R 框架兼容性较差[23]。对于细胞间通讯分析,我们选择了 CellChat,因为它提供了全面的通路级分析,支持细胞群体之间的定量比较,并且具有高质量的可视化。与 NicheNet 和 SingleCellSignalR 等其他工具相比,CellChat 在通路级别提供了更详细的信号推断,并且与 Seurat 下游分析的集成度更高[24,25]。虽然 CellPhoneDB 和 NATMI 等方法也被广泛使用,但它们是基于 Python 的,因此与我们的 R 基础管道兼容性较差[26,27]。对于轨迹和伪时间分析,我们使用了 Monocle3,它提供了广泛的下游分析功能,包括识别轨迹相关基因、基因模块聚类和差异表达分析。Monocle3 框架还提供了更大的灵活性,在根节点选择和提供比 Slingshot、Palantir 和 SCORPIUS 等替代工具更先进的可视化工具方面具有优势[28,29,30]。最后,对于 RNA 速度分析,我们采用了 scVelo,它通过基于似然的动态建模方法改进了原始 velocyto 方法,超越了稳态假设[31]。scVelo 支持多种模式,包括随机、动态和确定性模式,在效率和准确性之间提供了平衡。scVelo 还推断了潜在时间,使得细胞能够基于其转录活性进行一致的时间排序。与 dynamo 和 DeepVelo 等工具相比,scVelo 被更广泛地采用,并提供了性能、可解释性和与我们下游工作流的无缝集成之间的实用平衡[32,33]。

尽管罕见疾病中的细胞群体复杂且异质,导致不同细胞类型在其细胞环境中相互作用,scDown 在我们的案例研究中成功应用于一种罕见的遗传性神经发育性疾病。它成功检测了不同条件下细胞比例差异、细胞谱系关系、分化进程和细胞间通讯模式。scDown 可广泛应用于其他单细胞 RNA-seq 数据的下游分析。

为了进一步提升我们管道的实用性,我们计划整合多组学数据,如单细胞 ATAC-seq,以提供更全面的细胞调控机制视角。我们还计划纳入更多的细胞类型注释工具,如 SingleR 或 Azimuth,以补充 Symphony,并进一步增强可扩展性和稳健性[34,35]。此外,通过利用像 SComatic 和 MonoPogen 这样的工具,增加基于单细胞 RNA-seq 数据的变异检测,将使我们能够捕捉遗传变异与转录异质性,从而为细胞类型特异性或条件特异性突变和疾病机制提供更深入的见解[36,37]。

4. 材料与方法
4.1. 案例研究数据集

我们遵循了本研究中概述的数据预处理步骤,以确保高质量的单细胞 RNA-seq 分析[18]。最终集成的数据集包含 20 个样本、78,815 个细胞和三种条件:CNV、ASD 和 CON。原始测序读取已进行过滤,以去除低质量的读取和潜在的污染物,从而确保可靠的下游分析。应用了降维技术,如 t-SNE,以减少数据的复杂性,使细胞异质性可视化,并识别不同的细胞群体。然后,基于已知的标记基因对识别的细胞簇进行注释,从而便于对神经元和胶质细胞亚型的分类。

4.2. 细胞比例差异分析

为了评估不同条件下细胞组成的差异,我们在 scDown 管道中使用了 scProportionTest 算法。scProportionTest 算法采用基于置换的方法,通过蒙特卡洛抽样统计评估组间细胞比例的差异,估计观察到的差异的显著性。在 scDown 管道中,我们开发了一个自定义函数 run_scproportion,该函数接受 Seurat 对象(RDS 格式)作为输入,并传入定义细胞簇和样本组的元数据列名进行比较。分析工作流包括创建一个 scProportion 对象,并对样本组之间所有的两两比较进行置换检验。此并行化方法提高了计算效率,特别是在大数据集上。此外,用户可以灵活地指定两个感兴趣的组进行聚焦比较,从而进行有针对性的分析。该函数输出每个比较的可视化结果和统计结果。图形显示了组间细胞比例的差异,统计结果的表格提供了观察到的差异显著性的详细信息。

4.3. 细胞间通讯分析

我们开发了一个自动化的 CellChat 分析框架,简化并增强了不同样本或细胞群体之间的全面细胞间通讯分析。该框架允许用户进行比较分析,例如研究疾病与对照条件之间的差异,以突出条件特异性的信号传递模式。值得注意的是,我们实现了并行计算,能够在多个样本条件下进行分析,这显著减少了计算时间并提高了工作流的整体效率。除了全局分析外,我们还允许用户专注于特定的细胞类型,调查它们如何参与信号网络,提供对细胞间通讯中其特定角色的更深入理解。此外,用户还可以探索感兴趣的特定通路,调查它们在信号传递过程中的作用。该框架为这些通路提供了多种可视化方式,有效地呈现和解释研究结果。

4.4. 伪时间分析

我们开发了 run_monocle3(),一个综合且自动化的伪时间分析功能,使用 Monocle3 包 v1.3.7(Monocle 3, 2025 年 5 月 30 日访问),用于推断细胞分化轨迹[7,8]。我们的函数 run_monocle3 接受带有细胞类型标签的 Seurat 或 Scanpy 对象作为输入,并应用标准的 Monocle 分析,包括预处理、轨迹推断、伪时间计算和沿轨迹识别显著基因。我们为用户提供以下选项:(1)基于基因表达谱和蛋白质-蛋白质相互作用网络自动识别根节点[9];(2)选择细胞时间点最密集的节点;(3)手动指定首选根节点。如果指定了生物学条件,该函数还会为每个条件单独执行 Monocle3 分析,并行计算,显著减少计算时间。此外,用户可以通过指定所需的子集,针对特定细胞类型组合并行执行伪时间分析。该函数简化了伪时间分析,通过自动选择根节点并行化条件特异性和子集特异性轨迹推断,从而提高了可扩展性和效率。

4.5. RNA 速度分析

为了研究细胞过渡的动态,我们开发了两个自定义函数,用于使用 Python 包 scVelo v0.3.0 [13] 进行 RNA 速度分析。RNA 速度模型通过剪接动力学推断细胞状态过渡的方向性。

第一个函数 run_scvelo() 使用 R 包 velocyto.R v0.6 [11] 并集成了 R 包 velociraptor v1.8.0(https://github.com/kevinrue/velociraptor, 2025 年 5 月 30 日访问),它是 scVelo 的包装器。该函数接受带有细胞类型标签的 Seurat 或 Scanpy 对象作为输入。我们实现了 loom 文件的自定义处理,以无缝地将来自单个或多个 loom 文件的剪接和未剪接的 mRNA 计数矩阵整合到统一的 Seurat 对象中,并匹配细胞条形码和文件名。该函数估算 RNA 速度,并在 UMAP 嵌入上计算速度向量场,不仅在所有数据中,还在不同的时间点或组之间并行计算,从而提高计算效率。最终的 Seurat 对象,充实了剪接/未剪接计数,也会自动保存为 h5ad 格式,以便与第二个函数 run_scvelo_full() 兼容。此 R 基函数简化了 RNA 速度分析并增强了可扩展性,使得在全局数据和特定时间点上研究转录动力学成为可能。

虽然第一个函数 run_scvelo() 依赖现有的 R 包 velociraptor 来包装 scVelo,这种方法仅限于 scVelo 功能的一个子集。相比之下,run_scvelo_full() 旨在克服这一限制,支持完整的 scVelo 工作流,包括使用基于图的抽象(PAGA)进行轨迹推断的高级可视化[12]。该函数自动加载由 run_scvelo() 生成的 h5ad 文件,该文件包含细胞类型注释和剪接/未剪接计数,并执行标准的 scVelo 分析。此外,该函数还会针对所有数据和特定时间点或指定条件执行这些分析。此基于 Python 的 R 函数利用了 scVelo 的高级可视化,补充了 run_scvelo() 中流线化的处理过程。

5. 结论

scDown 提供了一个全面且直观的管道,用于单细胞 RNA-seq 下游分析,将细胞组成分析、细胞间通讯分析、轨迹分析和 RNA 速度建模集成到一个 R 包中。通过简化这些分析,scDown 促进了生物学发现,并增强了单细胞数据集的可解释性。我们将 scDown 应用于一个已发布的数据集,识别出与一种罕见的遗传性神经发育性疾病相关的独特、之前未发现的神经元炎症信号特征。此 R 包版本 1 可在 https://github.com/BCH-RC/scDown 上免费下载,2025 年 5 月 30 日访问。

相关文章:

  • Dify源码教程:账户和密码传递分析
  • 破局新能源消纳难题!安科瑞智慧能源平台助力10KV配电网重构未来
  • 【2025年】解决Burpsuite抓不到https包的问题
  • 从理论崩塌到新路径:捷克科学院APL Photonics论文重构涡旋光技术边界
  • 代码中文抽取工具并替换工具(以ts为例)
  • 4.3 HarmonyOS NEXT AI驱动的交互创新:智能助手、实时语音与AR/MR开发实战
  • MySQL间隙锁入手,拿下间隙锁面试与实操
  • 【华为云Astro-服务编排】服务编排中图元的使用与配置
  • 视频爬虫的Python库
  • nginx怎么使用nginx-rtmp-module模块实现直播间功能
  • LINUX编译vlc
  • HarmonyOS:如何在启动框架中初始化HMRouter
  • 箭头函数和普通函数的this指向
  • 图像测试点列表
  • 【已解决】MACOS M4 芯片使用 Docker Desktop 工具安装 MICROSOFT SQL SERVER
  • Vim 设置搜索高亮底色
  • HBuilder 发行Android(apk包)全流程指南
  • thinkphp8.1 调用巨量广告API接口,刷新token
  • android 之 Tombstone
  • Win10停更,Win11不好用?现在Mac电脑比Win11电脑更便宜
  • 网站开发超链接点击后变色/重庆seo小z博客
  • 北京市公共资源交易服务平台/seo引擎搜索网站
  • 泰益优网站开发公司/sem和seo的区别
  • wordpress建站方向/最近重大新闻头条
  • 江苏优化网站/重庆百度推广电话
  • 免费网站建设平台哪个好/网店运营工作内容