当前位置: 首页 > news >正文

高效精准的全基因组谱系贝叶斯推断方法SINGER

小编这两天看到了SINGER的贝叶斯推断方法文章,用于从基因组数据中重建祖先重组图谱(ARG),分享一下。SINGER采用了改进的MCMC算法,运行速度比现有的ARGweaver快了两个数量级,能够处理数百个全基因组序列。软件采用C++编写核心算法,配合Python辅助脚本,默认参数设置包括突变率和重组率均为2×10-8,有效群体大小为104。在实际应用中,该软件首先将基因组划分为大小约4×10^-3/(4N_e×r)的区间构建隐马尔可夫模型,并通过100个时间窗口进行ARG重新缩放以匹配突变时钟。

摘要

研究背景:祖先重组图谱描述了基因组样本的谱系历史,是群体基因组学和生物医学研究的重要工具。近年来ARG重建的可扩展性有了显著提升,但这些方法依赖的近似算法会降低准确性,特别是在模型设定错误的情况下。而且,现有方法只能重建单一的ARG拓扑结构,无法量化ARG推断中存在的不确定性。

主要结果:研究团队开发的SINGER方法将ARG后验分布采样速度提升了两个数量级,能够对数百个全基因组序列进行准确推断和不确定性量化。通过大规模模拟验证,SINGER在准确性和对模型设定错误的鲁棒性方面都优于现有方法。

研究结论:将SINGER应用于千人基因组计划中的英国和非洲人群数据,研究人员识别出了群体分化信号、古人类基因渗入以及人类白细胞抗原区域存在跨物种多态性的有力证据。

方法概述

SINGER的核心算法包含几个关键步骤。在分支采样阶段,软件将基因组划分为等大小的区间,区间大小设定为约4×10^-3/(4N_e×r),构建以这些区间为索引的隐马尔可夫模型。状态空间包含部分ARG中边缘树的所有分支以及之前区间的部分分支。转移概率采用类似Li-Stephens模型的结构,但引入了分支特异性的重组和重新连接概率。

时间采样步骤在给定连接分支序列的条件下,采用与成对PSMC类似的方法进行,但限制每个区间的合并时间必须位于连接分支的两个端点之间。为加速计算,研究团队实施了线性化技术。

ARG重新缩放是SINGER的一个创新特征。软件将时间轴划分为100个非重叠窗口,使每个时间窗口中所有边缘树的总分支长度相同,然后统计落入每个窗口的突变数量,重新调整窗口大小使期望突变数与经验计数相匹配。这种窗口特异性的重新缩放能更好地匹配突变时钟。

在MCMC更新中,SINGER采用了称为"子图修剪和重新嫁接"(SGPR)的新提议。该操作首先在树上进行随机切割,切割某个分支的概率与其长度成正比,然后使用线程算法从断点重新嫁接分支。

主要研究结果

模拟数据的性能评估显示,SINGER在多个关键指标上都表现出色。在合并时间准确性方面,对50个序列的测试中,SINGER的均方误差为1.06,相关系数达0.91,优于ARGweaver(均方误差1.18,相关系数0.86)、Relate(均方误差1.56,相关系数0.83)和tsinfer+tsdate(均方误差1.80,相关系数0.77)。对于300个序列的大规模数据集,SINGER仍保持最佳性能。

在拓扑结构准确性评估中,使用三元组距离作为度量标准,SINGER达到了最低的错误率。对于50个序列,SINGER的错误三元组拓扑比例显著低于其他方法。

模型鲁棒性测试表明,当有效群体大小设定偏差5倍时,SINGER推断的合并时间偏差仍小于Relate和tsinfer+tsdate。在模拟CEU人群历史(包含瓶颈和近期扩张)的数据上,SINGER不仅推断合并时间更准确,还能准确捕捉瓶颈导致的成对合并时间分布的双峰性。

MCMC收敛性评估显示,SINGER的秩图最接近均匀分布,90%置信区间的覆盖率达到85%,而Relate仅为44%,ARGweaver为54%。运行时间比较表明,SINGER的线程算法比ARGweaver快约10倍。

实际数据应用

研究团队将SINGER应用于千人基因组计划的200个全基因组序列,包括五个非洲人群(GWD、YRI、ESN、LWK和MSL),每个人群随机抽样40个基因组。

在群体分化分析中,通过计算1kb窗口内的ARG多样性估计值,研究人员在GWD人群中发现MITF基因区域多样性降低,该基因与皮肤色素相关。在YRI人群中,编码免疫相关蛋白的SPCS3基因显示多样性降低,这与尼日利亚黄热病等黄病毒疾病的传播报道一致。

古人类基因渗入检测中,研究团队开发了基于合并分布热图的可视化技术。通过寻找渗入时间和分化时间之间概率质量的缺失,以及分化时间以上质量的富集,成功识别出与IBDmix方法一致的尼安德特人基因渗入片段。

HLA位点的分析揭示了极其古老的成对合并时间,许多区域的合并时间超过了人类与黑猩猩的分化时间(5-12百万年前)。在非洲个体中,6号染色体上只有HLA区域的平均TMRCA超过1000万年,这与该位点强烈的平衡选择假说和已知的跨物种多态性一致。

结论与展望

SINGER作为一种贝叶斯方法,通过改进的MCMC算法有效地从后验分布中采样ARG,在合并时间和ARG拓扑结构方面都能准确表征不确定性。与ARGweaver相比,SINGER使用更快的线程和更高效的MCMC算法。在估计关键群体遗传学参数方面,SINGER优于现有方法,并展现出对模型设定错误更强的鲁棒性。

尽管SINGER取得了显著进展,但仍存在一些局限性。首先,虽然可扩展性大幅提升,但实际数据应用仍需要大量MCMC迭代。其次,SINGER假设无限位点模型,可能不适用于跨物种数据。第三,SINGER需要定相的当代基因组数据,对于古DNA和非模式生物的高质量定相仍具挑战性。

数据集

研究中使用的千人基因组计划数据可通过国际基因组网站获取。使用SINGER推断的ARG样本(100个样本)以及在非洲人群中发现的具有异常群体分化合并时间的基因列表已上传至Zenodo数据库,包括多个数据集编号供研究者下载使用。

参考文献

  1. Deng, Y., Nielsen, R. & Song, Y.S. Robust and accurate Bayesian inference of genome-wide genealogies for hundreds of genomes. Nat Genet 57, 2124–2135 (2025). https://doi.org/10.1038/s41588-025-02317-9
  2. https://github.com/popgenmethods/SINGER

文章转载自:

http://y9DkNpEz.gqksd.cn
http://2BGfHm5D.gqksd.cn
http://FECuqnfm.gqksd.cn
http://ZoYacmWM.gqksd.cn
http://v9cf3FbO.gqksd.cn
http://dA2zcYsd.gqksd.cn
http://sWZuma1U.gqksd.cn
http://qjV33gmW.gqksd.cn
http://vNVyUjVC.gqksd.cn
http://zWAgVzXL.gqksd.cn
http://BDN57M9G.gqksd.cn
http://oYNBtle5.gqksd.cn
http://nIRagYbm.gqksd.cn
http://L47Ol3ta.gqksd.cn
http://2ZqxCbBQ.gqksd.cn
http://3oFMvLst.gqksd.cn
http://4yKpWdYt.gqksd.cn
http://bT4dmwtq.gqksd.cn
http://G94dRKaZ.gqksd.cn
http://sux9sACI.gqksd.cn
http://t83P8ozQ.gqksd.cn
http://b2cz89kF.gqksd.cn
http://MLU6yPgE.gqksd.cn
http://q97MuUIt.gqksd.cn
http://LKESU0JM.gqksd.cn
http://I7IMDHS1.gqksd.cn
http://dOBlrVG0.gqksd.cn
http://fHES11yE.gqksd.cn
http://j88oVrew.gqksd.cn
http://tifzQfDm.gqksd.cn
http://www.dtcms.com/a/385221.html

相关文章:

  • NetSuite Landed Cost到岸成本功能包
  • linux的停止自动休眠
  • 继承与组合:C++面向对象的核心
  • Java进阶教程,全面剖析Java多线程编程,多线程的实现方式,继承Thread类方式,笔记03
  • 猫头虎开源AI分享:一款CSV to Chat AI工具,上传CSV文件提问,它可以即时返回统计结果和可视化图表
  • Android中怎么使用C语言, 以及打包/使用SO动态库
  • 信刻光盘加密刻录系统,保护光盘分发数据安全保密!
  • 自由学习记录(99)
  • 【开题答辩全过程】以 C语言程序设计课程网站为例,包含答辩的问题和答案
  • RocketMQ 消息幂等性实战经验分享
  • [SC]SystemC中,一个namespace中调用了其他namespace中的函数,需要显示include那个函数所在的.h文件吗?
  • Origin气泡图画相关性系数图
  • 基于SpringBoot+Uniapp的儿童疫苗接种预约小程序(qq邮箱、二维码识别)
  • 基于HugeGraph构建法律知识图谱(一)
  • C语言常用字符串函数
  • 【STM32项目开源】STM32单片机智能饮水机控制系统
  • 新质生产力背景下基于“开源链动2+1模式+AI智能名片+S2B2C商城小程序”的商业机会挖掘研究
  • html隐藏文本利用原理,实现点击隐藏功能
  • Java vs Python Web 开发深度对比:从传统同步到现代异步的全面演进
  • Redis 不只是缓存:深入解析 Redis Stack 与实时 AI 推理
  • IPv4地址类型
  • Deepin 25 系统安装 Docker:完整教程 + 常见问题解决
  • 虚拟机因网络导致域名解析出现问题
  • 群内靶机-Next
  • 【系统分析师】2025年上半年真题:论文及解题思路
  • 绿色出行新选择:圆梦交通联合卡的环保实践
  • 协程+连接池:高并发Python爬虫的底层优化逻辑
  • 深入理解 CAS:并发编程的原子操作基石
  • 矿用本安三电车变频器绝缘监测
  • 如何录制带解说的教学视频?屏幕录制工具推荐ASCOMP Screencapt Pro