当前位置: 首页 > news >正文

bulk转录组测序分析之数据清洗

今天我们来讲一讲bulk转录组测序的数据清洗部分。

RNA-Seq是技术相对更成熟,应用最广泛,最适合生物信息学入门的方向。bulk RNA-Seq是最普遍的转录组测序方法,所谓bulk就是我们测的是所有细胞的总RNA(狭义指mRNA)取平均值代表每个基因的表达量。‍

我们从公司得到的原始的下机数据是fastq格式的文件

FASTQ Format (Illumina example)‍

我们拿到原始数据之后首先做数据的质控过滤,常用的软件包括fastp、fastqc

首先使用fastqc得到网页版的质量报告,再使用trim_galore去除质量低的和接头序列,trim_galore可以指定接头序列也可以自主查询,还可以通过--length设定长度的阈值,小于该阈值的序列会被扔掉。

fastqc+trim_galore‍

fastqc -t 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz #双端测序,-t表示线程数trim_galore -q 20  -o ./  --fastqc --paired -j 2 CER3_1_R1.fastq.gz CER3_1_R2.fastq.gz#--paired表示双端测序,-q 20表示去除Phred分数低于20的序列,-o表示输出(这里指输出到当前目录下),-j表示线程数,--fastqc表示清洗之后再交给fastqc做质控

fastqc结果报告

通过网页版的报告我们可以大致的了解到我的序列的质量情况,trim_galore后基本就可以用于后续的分析了。

还有一种常用的工具是fastp,整合了fasqc与trim_galore的功能‍‍

Fastp​​​​​

fastp -i CER3_1_R1.fastq.gz -I CER3_1_R2.fastq.gz -o CER3_1_R1.clean.fastq.gz -O CER3_1_R2.clean.fastq.gz -j CER3_1.json -h CER3_1.html -w 2 &#-i -I表示两个双端文件,-o -O表示输出文件,-j .json的报告,-h 网页版报告文件,-w线程数

fastp结果报告

我们经常会听到测序公司说测序的质量Q30>90%,是什么意思呢?就是说公司保证至少有90%以上的碱基错误率是小于千分之一的。类似的还有Q20(百分之一),Q40(万分之一),Q50(十万分之一)。

转录组我们一般使用fastp,做完数据清洗之后就可以进行后续分析了。‍‍

http://www.dtcms.com/a/611008.html

相关文章:

  • 深圳网站的公司做网站大概需要多少钱
  • 建立门户公司网站郑州 网站建设
  • MySQL 配置文件属性详解
  • chunk_overlap(通常译为“分块重叠度”)
  • CSFAFormer:用于多模态遥感图像语义分割的类别选择性特征聚合 Transformer
  • 国外网站制作有哪些常州网站建设青之峰
  • 创建网站收费双语cms网站
  • 信息系统安全-第六章-操作系统安全-2.Windows安全技术
  • 数据结构--7:排序(Sort)
  • C语言编译器菜鸟教程 | 学习C语言编程的入门指南
  • LINUX的dns主从服务
  • 做爰直播网站高端前端开发
  • 基于springboot的编程训练系统设计与实现
  • 阿里云空间可以做网站吗wordpress中文没人管了
  • 长沙哪里优化网站南昌做网站seo
  • 旅游网站爬虫实战:抓取携程酒店价格趋势全解析
  • SpringMVC基础教程(2)--Controller/RestFul风格/JSON/数据转发和重定向
  • 广州网站建设电话咨询网站的优化怎么做
  • 怎么做网站收录的关键词商城网站建设需要什么团队
  • 『 数据库 』MySQL 事务(一)
  • Windows(一)_powershell文件切分
  • Spring AI RAG RetrievalAugmentationAdvisor源码分析
  • 做的好的奥运会网站织梦的网站模板免费吗
  • 自己做的网站怎么打开电影爱好网
  • PyTorch-混合精度训练(amp)
  • 集约化网站群建设网站建设的公司上海
  • 每日两题day43
  • JVM入门知识点
  • 悬镜安全获评2024年度北京市科学技术奖
  • 用yershop做网站win7搭建网站服务器