tRAP(tRNA 活性预测器)
tRAP(tRNA 活性预测器)
29 种胎盘哺乳动物物种的预测结果已上线!点击访问
本程序仅依靠 DNA 序列即可对 tRNA 基因表达进行二元(活性/非活性)分类预测。相关论文请见:https://genome.cshlp.org/content/30/1/85。
程序最初围绕“从 HAL 对象到 tRNA 分类”这一思路构建。然而,许多实验室使用 MAF 而非 HAL,或者已经将 HAL 降维成其他格式。为此,整个流程提供了若干中间文件,可按顺序使用;如果您已经拥有某一步生成的文件,可直接跳过该步骤。
当您准备运行最终分类脚本时,应确保手头有以下文件:
.wig
文件:包含每个 tRNA 基因上游 20 bp 至下游 10 bp 区间所有碱基的 PhyloP 得分.bed
文件:记录各 tRNA 基因的坐标(由 tRNAscan-SE 产生).out
文件:记录各 tRNA 基因的 bit-score(由 tRNAscan-SE 产生).fa
文件:包含每个 tRNA 基因上下游各 350 bp 的 DNA 序列(若染色体末端不足 350 bp 则以末端为准)- RNAfold 输出:给出每个 tRNA 基因的最低自由能(MFE)
.bed
文件:包含目标基因组中已注释蛋白编码基因的位置
若要从头到尾完整运行,需安装:scikit-learn、RNAfold、tRNAscan-SE、HAL 与 PHAST。HAL 与 PHAST 的详细安装说明见:https://github.com/ComparativeGenomicsToolkit/hal(大多数系统通用)。
- tRNAscan-SE 下载:http://lowelab.ucsc.edu/tRNAscan-SE/
- 必要数据可直接从 http://gtrnadb.ucsc.edu 下载
- RNAfold:https://github.com/ViennaRNA/ViennaRNA
- scikit-learn:
conda install scikit-learn
或pip install scikit-learn
目录
- 通用用法
- 流程图
- 分步指南
- 简化版
- 仓库内容
- 联系方式
通用用法
在 Cactus 尚未普及之前,大多数用户可能希望仅凭一条基因组序列就快速获得分类结果。该“简化版”几乎与完整 Cactus 版同样准确,却更简洁、更快速且稳健。为此,我们提供了 Snakefile(Snakemake 教程见 这里)。使用 Snakefile 前,请先运行 tRNAscan-SE 与 EukHighConfidenceFilter(或直接从 gtrnadb.ucsc.edu 下载结果),并确保工作目录包含以下按固定命名规则命名的文件:
{root_name}.fa
(完整基因组,FASTA 格式){root_name}.chrom.sizes
(多数物种可从 https://hgdownload.soe.ucsc.edu/goldenPath/ 下载){root_name}-tRNAs.bed
(tRNAscan-SE 输出){root_name}-tRNAs-confidence-set.out
(tRNAscan-SE 输出){root_name}-tRNAs-confidence-set.ss
(tRNAscan-SE 输出)
然后执行:
snakemake {root_name}tRNAScores.txt
更多细节见 简化版 一节。
分步指南
以下按顺序给出完整指南。所有以 .py
结尾的命令为本仓库提供的脚本,其余为 HAL、PHAST 或 tRNAscan-SE 自带功能。
1 从 HAL 比对中提取目标物种基因组
hal2fasta /path/to/hal-file species-name > genome.fa
2 使用 tRNAscan-SE 2.0 查找并注释 tRNA 基因,同时过滤假基因与低置信度基因
tRNAscan-SE genome.fa \-o tRNA.out \-f tRNA.ss