使用Scanpy的基本操作
文章目录
-
- 安装
- AnnData 对象
- 质量控制
- 寻找高变基因
- 数据标准化与对数转换
- PCA 降维
- 最近邻图 & 聚类
- 可视化
- 保存结果
安装
pip install scanpy>>> import scanpy as sc
AnnData 对象
通过scanpy读取anndata对象:
- 通用读取函数:
adata = sc.read(filename, # 文件路径或 URLbacked=None, # 是否使用 backed 模式(懒加载), 当文件是 .h5ad 时生效,只加载元信息而不加载全部矩阵数据sheet=None, # 当文件是 Excel (.xlsx) 时,指定要读取的 工作表名称或索引ext=None, # 手动指定文件扩展名delimiter=None, # 指定文本文件(.csv、.txt、.tsv)的分隔符first_column_names=None # 若为 True,则表示文本文件的 第一列 是行名(通常是基因名)
)
一般推荐用具体的 read_xxx() 函数(更安全)。
adata = sc.read_h5ad("your_data.h5ad") # 读取 .h5ad文件,这是scanpy的原生格式
adata = sc.read_10x_mtx("data/filtered_feature_bc_matrix/") # 读取 .mtx 目录
adata = sc.read_10x_h5("data/filtered_feature_bc_matrix.h5") # 读取 .h5文件
adata = sc.read_csv("data/my_csv.csv") # 读取 .csv文件
adata = sc.read_loom("data/sample.loom") # 读取 .loom文件
adata = sc.AnnData(df) # 从dataframe读取
一个 AnnData 对象包含四个主要部分:
属性 | 说明 |
---|---|
adata.raw | 原始矩阵(cells × genes) |
adata.X | 主矩阵(基因表达矩阵,细胞 × 基因) |