当前位置: 首页 > news >正文

生信软件49 - 全基因组亚硫酸氢盐测序(WGBS)比对与甲基化水平调用工具BSseeker2

全基因组亚硫酸氢盐测序(WGBS)比对与甲基化水平调用工具

1. BS-Seeker2简介

BS-Seeker2是一个多功能的管道,用于准确和快速比对亚硫酸氢盐处理的reads。BS-Seeker 2的下游分析建议用CGmapTools (https://cgmaptools.github.io/)。支持的库类型: 全基因组亚硫酸氢盐测序(WGBS)与 还原代表性亚硫酸氢盐测序(RRBS)。要求Python(版本2.6 +),pysam软件包(版本0.6.x)。支持的对齐工具: bowtie, bowtie2, soap。

github 地址: https://github.com/BSSeeker/BSseeker2

# 安装
# 下载最新版
wget -c https://github.com/BSSeeker/BSseeker2/archive/refs/tags/BSseeker2-v2.1.8.tar.gz
tar zxvf BSseeker2-v2.1.8.tar.gz# 常见python2 conda环境
conda create -n BSseeker2 python=2.7.18
conda activate BSseeker2

2. Reads过滤模块: FilterReads.py

可选和独立的模块。一些读段在PCR期间将被过度扩增这个脚本进行比对之前获得唯一比对的reads,在进行比对之前决定是否过滤读取。

python FilterReads.py \-i sample.fq \ # 输入qseq/fastq/fasta/sequence文件-o sample.filter.fq

3. 基因组索引构建模块:bs_seeker2-build.py

为BS-Seeker 2建立索引的模块。

# 使用bowite2为WGBS创建基因组索引
python bs_seeker2-build.py \-f genome.fa \--aligner=bowtie2 \-p ~/path/bowtie2/ \  # 指定bowtie2工具路径# 使用Bowtie2为WGBS文库创建基因组索引,片段长度[40bp, 400bp]
python bs_seeker2-build.py \-f genome.fa \-l 40 \-u 400 \--aligner=bowtie2

4. 比对模块:bs_seeker2-align.py

用于在3-字母转化的基因组上映射读段的模块。

# Usage: bs_seeker2-align.py {-i <single> | -1 <mate1> -2 <mate2>} -g <genome.fa> [options]# WGBS 文库 ; 比对到基因组
python bs_seeker2-align.py \-i WGBS.fa \--aligner=bowtie2 \-o WGBS.bam \-f bam \-g genome.fa# 
# WGBS 文库 ; 比对到基因组, 双端PE模式
python bs_seeker2-align.py \-i WGBS.fa \-m 3 \--aligner=bowtie2 \-o WGBS.bam \-f bam \-g genome.fa \--bt2--end-to-end

4.1 BS_Seeker格式

read10	 1	+FW	chr1+0000169137	TC_CGGGGGTTATATGAGTGTGACGGCTGTAGCGTTAGGTGACGATGTCATCTCCGCGTTCCAAGCGTTATGTGCGCACTGAGGGACACATCCACGTTCCCGG_GG	CGGGGGTTATATGAGTGTGATGGTTGTAGCGTTAGGTGATGATGTTATTTTTGCGTTTTAAGCGTTATGTGCGTATTGAGGGATATATTTACGTTTTTGA	X-------------------x--y-----X---------x-----z--z-yx-X---zz---X--------X-z-y-------z-z--zz-X---zyx--	0	77	169135	169235
read102	 1	+FW	chr1+0000169137	TC_CGGGGGTTATATGAGTGTGACGGCTGTAGCGTTAGGTGACGATGTCATCTCCGCGTTCCAAGCGTTATGTGCGCACTGAGGGACACATCCACGTTCCCGG_GG	CGGGGGTTATATGAGTGTGATGGTTGTAGCGTTAGGTGATGATGTTATTTTTGCGTTTTAAGCGTTATGTGCGTATTGAGGGATATATTTACGTTTTTGA	X-------------------x--y-----X---------x-----z--z-yx-X---zz---X--------X-z-y-------z-z--zz-X---zyx--	0	77	169135	169235
read104	 0	+FW	chr1+0000325341	-C_CGGCAAACACCACGCCCCGCGATATGGCAGGATTCATGCCGACTAATGGAAAACACACCAGATGCTGGAAAGAGATAAAGGAGAGCGTTACTGCAATACT_GT	CGGTAAATATTACGTTTCGCGATATGGTAGGATTTATGTCGATTAATGGAAAATATATCAGATGTTGGAAAGAGATAAAGGAGAGCGTTATTGTAATATT	X--z---z-zz-X-zzyX-X-------y------z---yX--z----------z-z-zY-----y--------------------X----y--z----y-	0	154	325339	325509
read105	 0	+FW	chr1+0000238994	-C_CGGCCACACAGTGAAAGGCTGGGCTGTGAGAGCTTCGGTGGAAACCAGGCCTTCACCACTTCTTCTCCCTTCAAGCCACACACAGCTGTTGCAAGTTCCG_G-	CGGTTACATAGTGAAAGGTTGGGTTGTGAGAGTTTTGGTGGAAATTAGGTTTTTATTATTTTTTTTTTTTTTAAGTTATATATAGTTGTTGTAAGTTTCG	X--zz-Z-y---------y----y--------z--x--------zy---zz--z-zz-z--z--z-zzz--z---zz-z-z-y--y-----z-----yX-	0	118	238992	239093
 # 格式说明
(1) 读取ID(来自seq/fastq/qseq/fasta文件中的标题列,或原始输入的序列号)
(2) 第6列和第7列中基因组序列与BS读取列表之间的不匹配数量。不包括读取Ts到基因组Cs之间的亚硫酸氢盐转化位点。
(3) 读取的链可能来自(+FW、+RC、-RC、-FW)
(4) 映射位置的坐标,表示[染色体][映射的链(“+”或“-”)][沃森链上映射的基因组序列的0基5'端坐标]。
(5) BS读取序列从5'到3':如果读取被唯一映射为FW读取,则显示原始读取。如果读取与RC读取一样被唯一映射,则会显示它们的反向补码。(6) 甲基化位点的序列总结:甲基化的CG/CHG/CHH位点标记为X/Y/Z(大写),而非甲基化的CG/CHG/CSH位点标记为X/Y/Z(小写)。本栏直接总结自第6栏和第7栏。
(7) XS标签,当读取被识别为亚硫酸氢盐处理未完全转化时为1,否则为0
(8) my_region_serial,仅用于RRBS的标签,映射片段的序列id
(9) my_region_start,仅用于RRBS的标记,映射片段的开始位置
(10) my_region_end,仅用于RRBS的标记,映射片段的结束位置

5. 甲基化水平调用模块:bs_seeker2-call_methylation.py

该模块从映射结果调用甲基化水平。

 # 对于WGBS测序python bs_seeker2-call_methylation.py \-i WGBS.bam \-o output \--db /path/bowtie2/ # bowtie2索引所在目录
5.1 输出文件
wig 文件

WIG文件格式。第2列的负值表示负链上的胞嘧啶。

variableStep chrom=chr1
3000419	0.000000
3000423	-0.2
3000440	0.000000
3000588	0.5
3000593	-0.000000
CG map文件
chr1	G	3000851	CHH	CC	0.1	1	10
chr1	C	3001624	CHG	CA	0.0	0	9
chr1	C	3001631	CG	CG	1.0	5	5
# 格式说明
(1)染色体
(2)沃森(+)链上的核苷酸
(3)位置
(4)背景(CG/CHG/CHH)
(5)二核苷酸背景(CA/CC/CG/CT)
(6)甲基化水平= C#/(C#+ T #)
(7)#_of_C(甲基化C,此处显示C的读段计数)
(8)= #_of_C + #_of_T(所有胞嘧啶,此处显示C或T的读数计数)
ATCG map文件
chr1	T	3009410	--	--	0	10	0	0	0	0	0	0	0	0	na
chr1	C	3009411	CHH	CC	0	10	0	0	0	0	0	0	0	0	0.0
chr1	C	3009412	CHG	CC	0	10	0	0	0	0	0	0	0	0	0.0
chr1	C	3009413	CG	CG	0	10	50	0	0	0	0	0	0	0	0.83
(1) 染色体
(2) Watson(+)链上的核苷酸
(3) 职位
(4) 上下文(CG/CHG/CHH)
(5) 二核苷酸上下文(CA/CC/CG/CT)(6) 此处映射的Watson链的读取次数,Watson链上支持A
(7) 此处映射的Watson链的读取次数,Watson链上支持T
(8) 这里映射的Watson链的读取次数,支持Watson链上的C
(9) 此处映射的Watson链的读取次数,Watson链上支持G
(10) 此处映射的Watson链的读取次数,支持N(11) 此处映射的Crick链的读取次数,Watson链上支持A,Crick链上支持T
(12) 此处映射的Crick链的读取次数,Watson链上支持T,Crick链上支持A
(13) 此处映射的Crick链的读取次数,Watson链支持C,Crick链支持G
(14) 此处映射的Crick链的读取次数,Watson链上支持G,Crick链上支持C
(15) 此处映射的Crick链的读取次数,支持N
(16) 对于Watson链,甲基化水平=#C/(#C+#T)=C8/(C7+C8),对于Crick链,=C14/(C11+C14);
“nan”表示在这个位置没有支持C/T的读数。

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

生信软件35 - AI代码编辑器Cursor

生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon

生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap

生信软件38 - 基因型填充软件IMPUTE2

生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程

生信软件40 - bedtools经典使用方法合集

生信软件41 - GATK经典使用方法合集

生信软件42 - 科研绘图R包神器tidyplots

生信软件43 - iGenomes批量下载Ensembl、NCBI、GATK和UCSC参考基因组和注释文件资源

生信软件44 - 比PyVCF更高效的VCF解析Python库cyvcf2

生信软件45 - 遗传变异分析工具GEMINI

生信软件46 - 三代测序低深度全基因组测序结构变异SV检测工具NanoVar

生信软件47 - 超低测序深度的全基因组测序cfDNA肿瘤分数估计工具ichorCNA

生信软件48 - 差异甲基化区域(DMR)识别的DNA 甲基化分析工具methylpy

http://www.dtcms.com/a/308701.html

相关文章:

  • Linux 进程管理与计划任务
  • 代码随想录算法训练营第五十七天|图论part7
  • 物联网与AI深度融合,赋能企业多样化物联需求
  • Unity插件——Simple Waypoint System的使用总结
  • Apifox 7 月更新|通过 AI 命名参数及检测接口规范、在线文档支持自定义 CSS 和 JavaScript、鉴权能力升级
  • 20250731解决RK3588的AIOT参考设计刷机之后可以启动但是断电进MASKROM模式
  • 蓝牙LMP版本交换过程
  • 以AI大模型重构教育新生态,打造“教-学-练-辅-评”一体化智能平台
  • 为什么Android主线程与java主线程不同,不会退出?
  • 分布式系统的基石:ZooKeeper架构设计与实战指南
  • 【抄袭】思科交换机DAI(动态ARP监控)配置测试
  • 云上服务器常见的存储方式和类型
  • 自监督学习
  • get和post的请求在request里的应用与区别
  • 机器视觉的家电薄膜开关丝印应用
  • 前端 vue 第三方工具包详解-小白版
  • Data Processer
  • QQ输入法设置快捷键,更快造词或自定义短语
  • 智慧零售商品识别准确率↑32%:陌讯多模态融合算法实战解析
  • 2025年IntelliJ IDEA最新下载、安装教程,附详细图文
  • 人工智能如何助力工业领域实现可持续发展?
  • 循环神经网络RNN原理精讲,详细举例!
  • 人工智能与新闻传播:信息传播的变革
  • vue-seamless-scroll 与 echarts 三联水球图循环滚动的渲染难题-出现短暂空白
  • el-button长按触发事件(含未响应的解决方案)
  • 【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统(ReNeLLM)
  • QtConcurrent::run函数
  • React 项目环境如何安装使用?
  • es的histogram直方图聚合和terms分组聚合
  • pig Cloud中分布式锁的使用(setIfAbsent)