单细胞转录组测序上游——cellranger
1. 下载cellranger软件、sraToolkit软件并解压缩
#安装sraToolKit,用于下载sra数据
wget https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit#安装cellranger
wget https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest#解压完即可使用,但需要添加到环境变量
tar -zxvf [tar包] [指定路径可选] 解压压缩包(到指定路径)
2. 下载参考基因组
wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#wget https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz
#mouse参考基因组数据集下载md5sum refdata-gex-GRCh38-2020-A.tar.gz
tar -zxvf refdata-gex-GRCh38-2020-A.tar.gz
3. 设置路径
echo 'export PATH=/data/software/cellranger-7.1.0/bin/:$PATH' >> ~/.bashrc
echo 'export PATH=/data/software/sratoolkit.3.0.0-centos_linux64/bin/:$PATH' >> ~/.bashrc
source ~/.bashrccellranger
#显示配置成功(每次登陆都要source)
4. 下载sra文件(GEO网站找)
(1)prefetch SRR8478397 –-max-size 100GB –progress
(2)解压缩
(3)生成fastq文件:fastq-dump –-split-files ./ SRR8478397/ SRR8478397.sra
(4)压缩(cellranger输入文件为压缩文件,并且上一步运行完非常占空间):
gzip SRR8478397_1.fastq(单线程)
pigz SRR8478397_1.fastq(多线程,需下载pigz)
5. 改为cellranger要求的命名规范
[Sample Name]_S1_L00[Lane Number] _[Read Type]_001.fastq.gz
mv SRR8478397_1.fastq.gz GSM3576396_S1_L001_R1_001.fastq.gz
mv SRR8478397_2.fastq.gz GSM3576396_S1_L001_R2_001.fastq.gz
6. 运行cellranger
cellranger count --id=pbmc4k \
--transcriptome= /data/scRNAseq/00_cellranger/refdata-cellranger-GRCh38-1.2.0 \
--fastqs=/data/scRNAseq/00_cellranger/pbmc4k/fastqs \
--IocaIcores=10 \
--localmem=30 \ --nosecondary \
--chemistry=auto&
参数解读
--id 指定输出文件的目录名;
--transcriptome 指定参考基因组路径
--fastqs指定存储测序文件的文件夹
--sample 指定需要处理的fastq文件的前缀
--expect-cell 指定预期的细胞数目,默认参数是3000个
--localcores 指定计算的核心数
--mempercore 指定内存大小 GB
--nosecondary 不需要进行降维聚类(后期用R可视化)
跑出来的pbmc4k文件夹里面的cmdline文件与out文件夹很重要,其他文件没用,特别是SC_RNA_COUNTER_CS文件夹删掉。
outs文件夹里的两文件夹(raw_feature_bc_matrix和droplet去除后的filtered_features_bc_matrix)是后续分析的文件。
结果解读
- web_summary.html:必看,官方说明 summary HTML file ,包括许多QC指标,预估细胞数,比对率等;
- metrics_summary.csv:CSV格式数据摘要,可以不看;
- possorted_genome_bam.bam:比对文件,用于可视化比对的reads和重新创建FASTQ文件,可以不看;
- possorted_genome_bam.bam.bai:索引文件;
- filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件;
- filtered_feature_bc_matrix.h5:过滤掉的barcode信息HDF5 format,可以不看;
- raw_feature_bc_matrix:原始barcode信息,未过滤的可以用于构建矩阵的文件,可以不看;
- raw_feature_bc_matrix.h5:原始barcode信息HDF5 format,可以不看;
- analysis:数据分析目录,下面又包含聚类clustering(有graph-based & k-means)、差异分析diffexp、主成分线性降维分析pca、非线性降维tsne。Cellranger分析后一般自行进行Seurat分析,不用看;
- molecule_info.h5:可用于整合多样本,使用cellranger aggr函数;
- cloupe.cloupe:官方可视化工具Loupe Cell Browser 输入文件,无代码分析的情况下使用,会代码的同学通常用不到。
参考(仅用于自我学习)
(15 封私信 / 72 条消息) 10X单细胞转录组测序—常规流程 - 知乎
