2025.05.28【读书笔记】|如何用SILVA和RFAM数据库高效去除rRNA污染
文章目录
- 前言
- 为什么只用SILVA还不够?
- 实际操作方法
- 1. 下载SILVA和RFAM序列
- 2. 注意U和T的转换
- 3. 合并参考序列
- 4. 建立比对索引
- 5. 去除rRNA reads
- 常见问题与解答
- 总结
前言
在Ribo-seq、small RNA-seq等高通量测序分析中,去除rRNA污染是数据预处理的关键步骤。rRNA污染如果不清理干净,会严重影响下游的比对、定量和生物学解释。很多同学只用SILVA数据库去除rRNA,但其实这样往往不够。本文将用通俗的语言,介绍为什么要同时用SILVA和RFAM数据库,如何操作,以及常见注意事项。
为什么只用SILVA还不够?
SILVA数据库是全球最常用的rRNA数据库,收录了大量16S/18S和23S/28S等大、小亚基rRNA序列。但SILVA对5S rRNA的覆盖并不全面,有些物种的5S rRNA甚至没有收录。而5S rRNA虽然短小,却在实际样品中经常出现污染。
RFAM数据库则专注于各种非编码RNA家族。它的RF00001家族专门收录了5S rRNA的代表序列,内容更全。除此之外,RFAM还收录了5.8S rRNA(RF00002)、tRNA(RF0000