当前位置: 首页 > news >正文

【数据集】 PBMC(Peripheral Blood Mononuclear Cells)数据集

🧬 一、PBMC 数据集简介

内容描述
名称Peripheral Blood Mononuclear Cells(外周血单个核细胞)
细胞类型包括 B 细胞、T 细胞、NK 细胞、单核细胞等
技术平台通常由 10x Genomics 提供(例如 3k、4k、6k、10k 版本)
数据类型单细胞 RNA-seq(scRNA-seq)可扩展为 RNA + ATAC (scMultiome)
应用场景细胞类型识别、聚类分析、GNN建模、多模态学习、图嵌入等

📥 二、数据集下载方式(官方来源)

可以直接从 10x Genomics 官网下载:

🔗 PBMC 3k 示例数据(h5 和 mtx 格式):
Datasets - 10x Genomics

例如:

  • PBMC 3k

  • PBMC 10k

也可以使用 Python 工具(如 scanpyanndata) 直接加载。


🧪 三、Python 中使用示例(以 Scanpy 为例)

安装 Scanpy:

pip install scanpy

加载 PBMC 数据(h5 格式):

import scanpy as sc

# 下载后的文件路径
file_path = "pbmc_3k_filtered_feature_bc_matrix.h5"

# 读取
adata = sc.read_10x_h5(file_path)

# 基本预处理
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000, subset=True)

🔧 四、构建图用于图神经网络(GNN / GCN / scGCN 等)

使用 scanpy 的 k-NN 构图功能:

# PCA 降维
sc.pp.pca(adata, n_comps=50)

# 构建 k 近邻图
sc.pp.neighbors(adata, n_neighbors=15, n_pcs=40)

# 导出邻接图(scGCN 常用)
adj_matrix = adata.obsp['connectivities']

然后可以将邻接矩阵 + 表达矩阵输入到 PyTorch Geometric、DGL、scGCN、scMGCA、scTAG 等模型中。


🔍 五、可视化与聚类(UMAP/tSNE)

sc.tl.umap(adata)
sc.tl.leiden(adata)  # 聚类标签
sc.pl.umap(adata, color=["leiden"])

📊 六、数据格式说明(解读)

在 Scanpy 中读取后的 adataAnnData 类型,主要组成:

  • adata.X: 表达矩阵(细胞 × 基因)

  • adata.obs: 每个细胞的注释信息(聚类、细胞类型)

  • adata.var: 每个基因的信息

  • adata.obsp["connectivities"]: 邻接图稀疏矩阵


📂 七、PBMC 变种数据(适合做多模态)

数据名称模态类型下载链接
PBMC MultiomeRNA + ATACDatasets - 10x Genomics
SNARE-seq PBMCRNA + ATAC可在 GEO/Zenodo 上查找
Multi-omics PBMC from SeuratRNA + CITE-seq(蛋白)Seurat Vignette

📷 八、配图:PBMC 聚类图(UMAP)

根据 PBMC  数据做了个 UMAP 可视化图:


✅ 总结

PBMC 数据集是:

  • 适合 单细胞聚类、分类、多模态学习 的标准测试集

  • 可用于 图神经网络(scGCN、scTAG、scMGCA、scGCOT) 等模型评估

  • 有多种公开来源和变种(RNA-only、RNA+ATAC、RNA+Protein)

  • 在 Python 中可通过 Scanpy 高效加载、预处理、可视化、构图


相关文章:

  • USC安防平台XBOX云台控制
  • 小程序的外观—WXSS
  • Python星球日记 - 第7天:字典与集合
  • 2025高频面试算法总结篇【排序】
  • 【蓝桥杯】算法笔记5
  • 【Metasploit】Metasploit安装及使用教程(非常详细)从零基础入门到精通,看完这一篇就够了。
  • 脑影像分析软件推荐 | NBS-Predict:基于脑网络的机器学习预测工具包
  • 蓝桥杯备赛 Day 19 加练dfs
  • 情感语音的“开源先锋”!网易开源
  • 一周学会Pandas2 Python数据处理与分析-NumPy数组重建
  • 【力扣hot100题】(055)子集
  • 开源情报中批判性思维因人工智能而逐渐衰落
  • 声音定位系统的原理及实现
  • 【Python使用】嘿马云课堂web完整实战项目第2篇:CMS页面管理需求,后端工程搭建【附代码文档】
  • ROS2学习笔记1-起步的程序
  • JVM 垃圾回收器是如何判断一个对象是否要回收?
  • 使用NVM下载Node.js管理多版本
  • Logo语言的扩展运算符
  • Linux学习笔记——零基础详解:什么是Bootloader?U-Boot启动流程全解析!
  • leetcode刷题日记—— Z 字形变换
  • 台州做网站联系方式/电话营销技巧和营销方法
  • 公司网站制作费用多少/seo公司优化
  • 有梦商城公司网站/怎么做推广网站
  • 网站布局设计步骤/汕头seo计费管理
  • 广州传业建设有限公司网站/搜索引擎优化的内容
  • 铁路建设网站/seo外链建设的方法有