当前位置: 首页 > news >正文

基因组组装:1. Hifiasm 组装参考基因组

本文主要介绍了如何使用 Hifiasm 软件拼接 HiFi 测序数据,得到初步组装的参考基因组。同时,本文还介绍了如何评估组装出的参考基因组的质量。根据本人的操作经验,当组装质量较差时,多为测序质量较差或样本基因的杂合率较高,通过调整参数来改善组装质量的效果有限,往往需要其他类型数据辅助组装,如 HiC 数据。后续,本专题将介绍如何处理 “基因组中重复的同源单拷贝基因数量较多” 的情况。


1.1 Hifi 测序数据预处理

1.1.1 数据格式转换


部分测序公司产出的 HiFi 数据可能以 bam 格式交付,因为 Hifiasm 软件不支持 bam 文件作为输入,需要先使用 samtools fastq 功能将测序数据由 bam 格式转换为 fastq 格式。如安诺优达 Pacbio Revio 平台的测序结果,其中第十列记录了 CCS 的序列信息。由于测序技术原因,read 因形成环状结构而被测序多次,其中每次测序结果被称为 Subread。虽然三代测序的错误率较高,但多次 Subread 结果相互校正,将会得到准确率较高的 CCS(Circular Consensus Sequence,环形一致序列,图1)。安诺优达交付的数据是经过校正后且已去除接头的CCS。


	$ samtools fastq bam_file > fastq_file

图 1

图 1 Pacbio Revio平台三代数据产生过程原理图(from 安诺优达数据交付说明书)

1.1.2 过滤低质量数据


本操作流程参考棉花基因组组装文献 (Nat Genet, 2025, A telomere-to-telomere genome assembly of cotton provides insights into centromere evolution and short-season adaptation),其中 HiFi 的测序数据未进行质量控制,说明 HiFi 测序结果准确度较高,无需过滤低质量 reads(Methods,Genome sequencing and data quality control)。所以,本流程也不对HiFi数据进行质量控制。


1.2 Hifiasm 组装参考基因组

1.2.1 Hifiasm 分析流程简介


  1. 所有序列相互比对,对测序错误进行纠正。如果一个位置有多种碱基类型,且每个碱基类型至少有3条read支持,那么这个位置会被当作杂合位点,否则,视作测序错误,将被纠正。
  2. 根据序列之间的重叠关系,构建分型的字符串图(phased string graph)。其中一致重叠的序列称为边(edge,图 2 中绿色部分),不一致的序列称为气泡(bubble,图 2 中黄色和蓝色部分),说明包含杂合位点,有不止一种单倍型。
  3. 如果没有额外的信息,Hifiasm 会随机选择气泡的一边视为 primary assembly,另一边则是 alternate assembly。Hifiasm 默认输出 primary assembly、haplotype 1 assembly、haplotype 2 assembly 并分别写入 p_ctg、hap1.p_ctg、hap2.p_ctg 文件。

在这里插入图片描述

图 2 Hifiasm 分析流程示意图

1.2.2 运行 Hifiasm


$ hifiasm -o hifi.asm -t 25 hifi.fastq > hifi.asm.log-o						输出文件(hifi.asm)-t						运算使用的CPU上限(25)hifi.fastq				Hifi 测序数据hifi.asm.log			Hifiasm 运行日志

1.2.3 输出文件


表 1 Hifiasm 主要输出文件及内容

文件名称内容
.bp.r_utg.gfa所有的单倍型信息(raw unitig graph)
.bp.p_utg.gfa在 raw unitig graph 基础上过滤小的 bubble
.bp.p_ctg.gfa(重要)primary assembly 得到的 contig graph
.bp.hap1.p_ctg.gfa隶属于 haplotype1 assembly 的 contig graph
.bp.hap2.p_ctg.gfa隶属于 haplotype2 assembly 的 contig graph

gfa 格式是指 Genome Assembly Format(基因组组装格式),它是一种用于表示基因组组装图的文本格式。在 Hifiasm 软件的输出中,gfa 格式的文件用来存储组装图的数据,这些文件包含了基因组序列的结构信息,如节点(contigs)和它们之间的连接(edges)。如果不需要分单倍型组装的结果,只需要 primary 和 alternate 组装结果,可以在命令中添加 --primary 参数。


	$ hifiasm --primary -o BZ3_1.hifi.asm -t 25 BZ3_1.hifi.fastq输出文件:prefix.r_utg.gfa			记录所有的单倍型信息(raw unitig graph)prefix.p_utg.gfa			在 raw unitig graph 基础上过滤小的 bubbleprefix.p_ctg.gfa			记录 primary assembly 得到的 contig graphprefix.a_ctg.gfa			记录 alternate assembly 得到的 contig graph

1.3 评估组装质量

1.3.1 Hifiasm 输出结果评估组装质量


  1. 输出的 两种单倍型 组装结果之间(.hap1.p_ctg.gfa和.hap2.p_ctg.gfa),序列长度是否相似。如果相差较大,则说明组装不正确,可以通过修改 -s(默认0.55)参数来尝试解决问题。
  2. 查看 Hifiasm 软件选择的 “纯合reads覆盖度” 阈值是否正确。Hifiasm 输出的 log 信息中包含软件选择的阈值([M::purge_dups] homozygous read coverage threshold: 20),将阈值与 log 信息中 k-mer 的峰图比较,如果软件选择错误,则通过修改 --hom-cov 参数来尝试解决问题。本人使用经验显示,一般 Hifiasm 软件选择的阈值是正确的
  3. 如果组装结果中序列较短,片段化明显,则可以尝试提升参数 -D 和 -N 的值。虽然会增加运行时间,但是会提高重复区域的分辨率。如果解决效果不佳,可以考虑检测 HiFi 测序数据的质量。本人使用经验显示,提升参数 -D 和 -N 值的效果一般,contig 序列较短多为测序质量较低

1.3.2 QUAST 检查组装质量(N50 评估)


QUAST 是评估基因组组装质量的常用工具,可计算 N50、N90 等 contig 基本信息。可以通过 N50、N90 的长度,判断组装质量,一般 N50、N90 长度越长,组装质量越好。


	$ quast -t 10 -o hifi.asm.bp.p_ctg.quast hifi.asm.hom.bp.p_ctg.fa-t				最大线程数-o				输出结果储存的文件目录

表 2 猪毛菜 HiFi 测序数据 Hifiasm 的组装结果

Contigs numLargest contigTotal lengthN50L50
141722.23 MB1.30 GB4.30 MB86

N50:将 contig 按照长度从大到小排序,然后进行累加,直到累加的长度超过了总长度的 50%,此时,最后一个累加的 contig 的长度就是 N50 的长度。L50:将 contig 从大到小排序并累加,累加到总长度 50% 时所需的 contig 数量。


1.3.3 BUSCO 完整性评估(保守性评估)


BUSCO(Benchmarking Universal Single - Copy Orthologs,通用单拷贝同源基因基准)是一款 利用基因保守性来评估基因组组装质量 以及基因注释完整性的软件。BUSCO 将类群内已测序物种中共享(>90%)的单拷贝同源基因,即核心基因,构建为保守单拷贝同源基因集。BUSCO 假设隶属于该类群的测序样本的基因组,也应该拥有此集合中的基因,拥有比例越高则基因组完整性越高。BUSCO 软件根据用户选择的单拷贝同源基因集,使用 Miniprot 算法预测基因组上的潜在单拷贝同源基因,完成评估。用户需要使用样本对应大类的单拷贝同源基因集,如本人评估猪毛菜参考基因组的组装质量时,需使用双子叶植物纲的保守单拷贝同源基因集(eudicotyledons)。

PS:使用 “$ busco --list-datasets” 命令可以查看 busco 项目包含的所有保守单拷贝同源基因集。


	$ busco -i hifi.asm.bp.p_ctg.fa -m genome -l eudicotyledons_odb12 -c 20 -o busco_output-i				指定输入文件,fasta 格式-m				指定评估模式:genome,proteins,transcriptome-l				指定使用的 BUSCO lineage 数据集名称,本实验使用双子叶植物纲(eudicotyledons)-c, --cpu		指定使用的线程数量-o, --out		指定输出文件夹名称

	BUSCO 输出结果:C:96.6%[S:81.2%, D:15.4%], F:1.4%, M:2.1%, n:28052708(96.54%)    			Complete BUSCOs (C) (of which 62 contain internal stop codons)2277(81.18%)			Complete and single-copy BUSCOs (S)431(15.37%)			Complete and duplicated BUSCOs (D)38(1.35%)					Fragmented BUSCOs (F)59(2.10%)					Missing BUSCOs (M)2805(100%)				Total BUSCO groups searched

BUSCO 实验结果显示,组装质量较高,完整的 BUSCO 基因占全部基因的 96.54%,片段化和缺失的 BUSCO 数量较少。但 重复的 BUSCO 数量较多,可能组装过程中出现了 单倍型嵌合组装(chimeric assembly of haplotypes,指在基因组组装过程中,将来自不同单倍型的 DNA 序列错误地组合在一起,形成一种非自然的、混合的组装结果),也可能是样本杂合率较高,导致隶属于相同区段的不同单倍型,被识别为不同区段。

http://www.dtcms.com/a/457791.html

相关文章:

  • 网站制作设计专业公司网络营销个人总结
  • 力扣2779. 数组的最大美丽值
  • 深圳做分销网站北京搭建工厂
  • 甘肃省建设厅执业资格注册中心网站通知网站开发三个月能学会吗
  • 石家庄手机网站建设装饰装修网站大全
  • 鼎锋优配股票杠杆交易市场赣锋锂业涨超6%,创两年多新高
  • 网络服务投诉平台商丘seo快速排名
  • 自适应网站欣赏wordpress主题超限
  • TODO 分类任务指标计算和展示 准确率 F1 Recall
  • 网站分辨率做96是否会更好织梦做双语网站
  • 贪心:火烧赤壁
  • 公司网站建设的环境分析城乡建设厅官方网站办事大厅
  • 深度学习基础:从原理到实践——附录A:PyTorch 深度学习框架基础(下)
  • 网站 二级分类品牌创意网站建设徕卡e
  • 做网站设计师庐江网站制作
  • 夫妻分房睡,真的会感情淡吗?分房不是问题,分心才是
  • postgresql_2025Q2单季度财报数据
  • wap网站 html5东莞网站的建设
  • phpmysql网站开发案例企业网址是什么?
  • 机器学习-K-means
  • 如何在网站上做网页链接网页设计基础包括
  • 关联子查询
  • Linux108 shell:.bashrc 正则表达式:. * .* ^ $ ^$ [ ] [^] ^[] ^[^ ] \< \>
  • 怎么在京东做网站上海网站备案查询
  • 关于网站建设的申请报告做网站如何赚流量钱
  • 知识点1-lcd点亮->frame buffer、字库
  • 手机版免费申请微网站赣州新闻联播视频
  • 西安市做网站的公司新东方雅思培训机构官网
  • n8n工作流配置初解
  • 山东嘉祥做网站的有哪几家跳转网站