bismark OT CTOT OB CTOB 以及mapping后的bam文件中的XG,XR列的含义
首先,OT,OB,CTOT,CTOB都是描述测序reads的,而不是描述参考基因组的。
bisul-fate建库会将DNA双链文库中非甲基化的C转化成U。转化结束后,被转化的U和互补链的G并不配对。此时正链(+,OT,original top strand)和反链(-,OB,original bottom strand)中,均为C to T转换的原始reads。
上述的reads经过PCR扩增后,正反单链均产生完全互补链。OT的互补链为CTOT(Complementary original top strand),OB的互补链为CTOB(Complementary bottom strand)。可知CTOT和CTOB均为GA转换。
图片引用自:
https://zhuanlan.zhihu.com/p/163495878
-
正链(+):是指 FASTA 文件中提供的原始序列本身,即参考基因组中记录的那条链。
-
负链(-):是指 FASTA 文件中记录的序列的反义链,也就是将参考序列取反向互补得到的链。
关于bismark比对,可以参考这篇:
https://www.zxzyl.com/archives/759/
比对生成的bam文件中,XR字段如果是CT,表示该reads是经过CT变换后匹配到了基因组中,即该reads属于OB或者OT;此时若XG字段为GA,表示它mapping到了参考基因组正链中的GA变换也就是反链中的CT变换,即表示它属于反链,即OB。如上图,即(2)对应的情况(reads上的C全部转换成T,然后mapping到了基因组正链GA转换。)
列个表供参考:
XR | XG | 说明 | Strand |
---|---|---|---|
CT | CT | read 是 C→T(OB或者OT),基因组是 C→T(OT或CTOT) | OT |
CT | GA | read 是 C→T(OB或者OT),基因组是 G→A(OB或CTOB) | OB |
GA | CT | read 是 G→A(CTOT或者CTOB),基因组是 C→T(OT或CTOT) | CTOT |
GA | GA | read 是 G→A(CTOT或者CTOB),基因组是 G→A(OB或CTOB) | CTOB |