当前位置: 首页 > news >正文

生物信息复习笔记(2)——测序基本概念

Intron:内含子,不参与编码。

Exon:外显子。

剪切子作用下,内含子会被剪切掉,只留下外显子部分,pre-mRNA成为成熟的mRNA,参与后续多肽以及蛋白质的合成。

mRNA可逆转录成cDNA。

测序时,用于测序的打碎的cDNA片段只可能是基因外显子部分。每次对一个cDNA片段进行一次测序称之为一个测序的read。一个基因所有read的总数称为count

fpkm,tpm等是对count数值进行标准化后得到的。

为什么标准化:如基因A和基因B,基因A的count比基因B的count高不能直接说A的表达比B的高,可能只是因为基因A比较长。(基因包含的碱基越多,就越长,匹配到这个基因上面的DNA片段就越多。

如基因A在样本1和样本2中,在样本1中count比在样本2中间中高,也不能说A在样本1中的表达比在样本2中高。(在PCR扩增时如果对样本1多扩增了一些,导致样本1中的DNA片段更多)

为什么标准化:我们无法直观的通过比较counts数值的大小来知道基因表达的差异。

转录本:剪切体在剪切pre-mRNA时,有多种不同的剪切方法,不同的剪切方法产生不同的转录本。

基因长度:通常用c.非重叠外显子长度之和。

测序深度:加入到测序仪器中的DNA片段越多,测序深度越大。

标准化:

RPK(read per k)(每千个碱基的read数):基因的count值除以基因的长度。*10的3次方是为了方便计算。

基因A的RPK=4,B的RPK=6

得出结论:在该样本中基因A表达量小于基因B

RPKM:(单端测序中使用)平衡掉基因长度影响后,再平衡测序深度的影响。(即在某个样品中,某基因的counts值除以该基因长度,再除以该样本所有基因的counts值的和。)*10的9次方方便计算

测序深度的平衡,靠counts值除以所有基因的counts值的和,即表示该基因在该样本中所有基因的占比。

不能用RPKM进行组间比较(即样本1与样本2的比较)

得出结论:样本1中A的表达量高于B。

FPKM(Fragment per million)(用于双端测序):Fragment是read1和read2的连接。公式与RPKM一致。

TPM:(既能组间比较,又能组内比较)(基本都用TPM)

CPM:(用的不多)(只能用于组间比较)

总结

生信分析很多时候只能输入counts值,因为很多R包有自己的一套标准化算法。

相关文章:

  • xampp安装教程与配置
  • React Router使用方法
  • 单片机开发资源分析实战——以STM32F103ZET6为例子,分析我们的单片机
  • matlab的meshgrid
  • 从零构建大语言模型全栈开发指南:第二部分:模型架构设计与实现-2.1.1自注意力机制(Scaled Dot-Product Attention)的逐行代码实现
  • kali没网 | 配置代理
  • 算法-分治
  • VSCode相关文件折叠展开
  • 【数据分析】有关前文的复习
  • 数据结构——树
  • 《大数据视角下美团优选消费者购买决策影响因素研究》开题报告
  • nest学习(5)
  • 《AI大模型趣味实战 》第7集:多端适配 个人新闻头条 基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 1
  • Web网页
  • Windows下编译安装Qt5.15.0指南
  • Kubernetes 学习详细资料
  • 【Python机器学习】3.7. 主成分分析(PCA)实战
  • HT9126DA芯片为生活增添光彩的LED灯IC
  • Qt程序增加Dump文件保存
  • Keras和 Estimator的创建历史是什么
  • 抗战回望20︱《山西省战区抗敌行政工作检讨会议议决案》:“强民政治”、“说服行政”
  • 吴清:推动公募基金高质量发展的行动方案今天将会发布
  • 金融监管总局将推出8项增量政策:涉房地产金融、险资入市、稳外贸等
  • 上海飞银川客机触地复飞后备降西安,亲历者:不少乘客都吐了
  • 上海国际电影节特设“走进大卫·林奇的梦境”单元
  • 习近平同欧洲理事会主席科斯塔、欧盟委员会主席冯德莱恩就中欧建交50周年互致贺电