当前位置: 首页 > news >正文

【数据集】 PBMC(Peripheral Blood Mononuclear Cells)数据集

🧬 一、PBMC 数据集简介

内容描述
名称Peripheral Blood Mononuclear Cells(外周血单个核细胞)
细胞类型包括 B 细胞、T 细胞、NK 细胞、单核细胞等
技术平台通常由 10x Genomics 提供(例如 3k、4k、6k、10k 版本)
数据类型单细胞 RNA-seq(scRNA-seq)可扩展为 RNA + ATAC (scMultiome)
应用场景细胞类型识别、聚类分析、GNN建模、多模态学习、图嵌入等

📥 二、数据集下载方式(官方来源)

可以直接从 10x Genomics 官网下载:

🔗 PBMC 3k 示例数据(h5 和 mtx 格式):
Datasets - 10x Genomics

例如:

  • PBMC 3k

  • PBMC 10k

也可以使用 Python 工具(如 scanpyanndata) 直接加载。


🧪 三、Python 中使用示例(以 Scanpy 为例)

安装 Scanpy:

pip install scanpy

加载 PBMC 数据(h5 格式):

import scanpy as sc

# 下载后的文件路径
file_path = "pbmc_3k_filtered_feature_bc_matrix.h5"

# 读取
adata = sc.read_10x_h5(file_path)

# 基本预处理
sc.pp.filter_cells(adata, min_genes=200)
sc.pp.filter_genes(adata, min_cells=3)
sc.pp.normalize_total(adata, target_sum=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, n_top_genes=2000, subset=True)

🔧 四、构建图用于图神经网络(GNN / GCN / scGCN 等)

使用 scanpy 的 k-NN 构图功能:

# PCA 降维
sc.pp.pca(adata, n_comps=50)

# 构建 k 近邻图
sc.pp.neighbors(adata, n_neighbors=15, n_pcs=40)

# 导出邻接图(scGCN 常用)
adj_matrix = adata.obsp['connectivities']

然后可以将邻接矩阵 + 表达矩阵输入到 PyTorch Geometric、DGL、scGCN、scMGCA、scTAG 等模型中。


🔍 五、可视化与聚类(UMAP/tSNE)

sc.tl.umap(adata)
sc.tl.leiden(adata)  # 聚类标签
sc.pl.umap(adata, color=["leiden"])

📊 六、数据格式说明(解读)

在 Scanpy 中读取后的 adataAnnData 类型,主要组成:

  • adata.X: 表达矩阵(细胞 × 基因)

  • adata.obs: 每个细胞的注释信息(聚类、细胞类型)

  • adata.var: 每个基因的信息

  • adata.obsp["connectivities"]: 邻接图稀疏矩阵


📂 七、PBMC 变种数据(适合做多模态)

数据名称模态类型下载链接
PBMC MultiomeRNA + ATACDatasets - 10x Genomics
SNARE-seq PBMCRNA + ATAC可在 GEO/Zenodo 上查找
Multi-omics PBMC from SeuratRNA + CITE-seq(蛋白)Seurat Vignette

📷 八、配图:PBMC 聚类图(UMAP)

根据 PBMC  数据做了个 UMAP 可视化图:


✅ 总结

PBMC 数据集是:

  • 适合 单细胞聚类、分类、多模态学习 的标准测试集

  • 可用于 图神经网络(scGCN、scTAG、scMGCA、scGCOT) 等模型评估

  • 有多种公开来源和变种(RNA-only、RNA+ATAC、RNA+Protein)

  • 在 Python 中可通过 Scanpy 高效加载、预处理、可视化、构图



文章转载自:

http://GHBqwgwl.mLmwL.cn
http://RvVALvjv.mLmwL.cn
http://A0T0g3Dx.mLmwL.cn
http://Paw4mA8U.mLmwL.cn
http://t207JABY.mLmwL.cn
http://Ix2cmrN9.mLmwL.cn
http://Rl4auP1P.mLmwL.cn
http://yKS3vPIB.mLmwL.cn
http://bz4zCAq2.mLmwL.cn
http://EqcFTN9B.mLmwL.cn
http://RHnk2Fjx.mLmwL.cn
http://RBHASBvO.mLmwL.cn
http://GZ6Xf9M8.mLmwL.cn
http://VQmIjgVP.mLmwL.cn
http://rrBw8JAS.mLmwL.cn
http://Ezy8Lkpj.mLmwL.cn
http://F5Lh0DiL.mLmwL.cn
http://ax43kkfH.mLmwL.cn
http://2LiepaGA.mLmwL.cn
http://1fqaSVHf.mLmwL.cn
http://PribHVz9.mLmwL.cn
http://eTanOoSh.mLmwL.cn
http://lYlkqfQf.mLmwL.cn
http://Ps4C0YGl.mLmwL.cn
http://OoWcCOH9.mLmwL.cn
http://YSVNxmIM.mLmwL.cn
http://mtKDxMsB.mLmwL.cn
http://Mdq721Ll.mLmwL.cn
http://pe5LsvGM.mLmwL.cn
http://TrcofRjv.mLmwL.cn
http://www.dtcms.com/a/116314.html

相关文章:

  • USC安防平台XBOX云台控制
  • 小程序的外观—WXSS
  • Python星球日记 - 第7天:字典与集合
  • 2025高频面试算法总结篇【排序】
  • 【蓝桥杯】算法笔记5
  • 【Metasploit】Metasploit安装及使用教程(非常详细)从零基础入门到精通,看完这一篇就够了。
  • 脑影像分析软件推荐 | NBS-Predict:基于脑网络的机器学习预测工具包
  • 蓝桥杯备赛 Day 19 加练dfs
  • 情感语音的“开源先锋”!网易开源
  • 一周学会Pandas2 Python数据处理与分析-NumPy数组重建
  • 【力扣hot100题】(055)子集
  • 开源情报中批判性思维因人工智能而逐渐衰落
  • 声音定位系统的原理及实现
  • 【Python使用】嘿马云课堂web完整实战项目第2篇:CMS页面管理需求,后端工程搭建【附代码文档】
  • ROS2学习笔记1-起步的程序
  • JVM 垃圾回收器是如何判断一个对象是否要回收?
  • 使用NVM下载Node.js管理多版本
  • Logo语言的扩展运算符
  • Linux学习笔记——零基础详解:什么是Bootloader?U-Boot启动流程全解析!
  • leetcode刷题日记—— Z 字形变换
  • BGP路由协议之属性2
  • RabbitMQ运维
  • 面试常被问道OSPF的问题
  • 针对Qwen-Agent框架的源码阅读与解析:FnCallAgent与ReActChat篇
  • uniapp小程序登录失效后操作失灵问题
  • 电脑有时出现检测不到音箱设备怎么办?
  • redis学习笔记
  • JS 事件委托
  • 数据结构值ST表的详细讲解浅显易懂
  • WPF插入背景图