当前位置: 首页 > news >正文

Science:机器学习模型进行遗传变异外显率预测

模型代码已公开:https://data.mendeley.com/datasets/p47ws8kn36/1

研究聚焦的是遗传变异外显率的精准评估——即携带某一基因变异的个体实际发病的概率。传统方法多依赖于疾病高发家系或病例队列,但样本量小且存在选择偏倚,同时“病例-对照”式的二元分类也难以反映疾病的连续谱特征。为此,研究团队提出利用机器学习,将大规模电子健康记录(EHR)与基因数据结合,构建可扩展、数据驱动且精确的外显率预测模型。

研究人员基于 1,347,298 名参与者的 EHR 数据,针对 10 种遗传性疾病(如家族性乳腺癌、家族性高胆固醇血症、肥厚型心肌病、多囊肾病等)建立了机器学习模型,并在独立的外显组测序队列中验证。模型生成的疾病概率分数与基因型信息结合后,计算出 31 个常染色体显性疾病易感基因中 1648 个罕见变异的外显率,涵盖致病性(P)、良性(B)、意义不明(VUS)及新发现的功能缺失(LoF)变异。

研究尝试了多种算法,最终选择 极端梯度提升树(Extreme Gradient Boosted Trees, XGBoost) 作为主模型,因为它在内部验证和独立测试集中的 AUROC、Brier分数 等指标表现最佳。模型输入为连续型临床数据(实验室检查、生命体征)+ 人口学信息(年龄、性别等)。不使用诊断编码等容易引入偏倚的特征。使用 Shapley Additive Explanations (SHAP) 分析特征重要性,解释模型决策。
不同疾病的模型使用的关键特征各不相同,但都来自 常规体检和化验项目:

  • 血脂指标:低密度脂蛋白胆固醇(LDL-C)、总胆固醇(TC)、高密度脂蛋白胆固醇(HDL-C) → 对 FH 模型最重要
  • 血糖与代谢:空腹血糖、体质指数(BMI) → 对 MD 模型最重要
  • 肾功能:肾小球滤过率(GFR)、血肌酐 → 对 PKD 模型重要
  • 心脏功能:心率、心电图参数(QT间期、PR间期等) → 对 HCM、LQTS 模型重要
  • 血液学指标:血红蛋白(Hb)、血细胞计数 → 对多种疾病有贡献


结果显示,P 和 LoF 变异的外显率最高,其次是 VUS,良性B 变异最低。这些外显率与疾病相关的临床结局高度相关,例如高外显率的家族性高胆固醇血症变异携带者 LDL-C 水平高出 119 mg/dl,高外显率的多囊肾病变异携带者肾小球滤过率低 40 ml/min。此外,外显率还与实验室功能测定结果一致,证明其生物学有效性,并能帮助评估 VUS 和新 LoF 变异的临床风险轨迹。

研究结论认为,这一机器学习框架为大规模系统性评估遗传变异外显率提供了蓝图。通过整合基因组与临床表型数据,它不仅能提供更精细、个体化的疾病风险估计,还可改进变异解读、指导临床决策,并推动精准医学的发展。

研究使用的是BioMe Biobank和UKB的数据集,UKB的数据集大家比较熟悉啦,BioMe Biobank是BioMe 由查尔斯·布朗夫曼个性化医学研究所资助的一个与病历相关的电子生物样本库,使研究人员能够快速有效地对与医学信息相关的大量研究标本进行遗传、流行病学、分子和基因组研究。其是纽约市唯一一家与 EHR 相关的生物和数据存储库,可进行不受限制的患者入组(在性别、种族、民族、年龄、医疗状况或疾病状态方面不具有选择性),从而形成一个在种族、社会经济和医学多样性方面无与伦比的队列,并准备好用于尽可能广泛的生物医学和基因研究。

参考文献

  • Iain S. Forrest et al. ,Machine learning–based penetrance of genetic variants. Science389, eadm7066(2025). DOI:10.1126/science.adm7066
  • https://icahn.mssm.edu/research/ipm/programs/biome-biobank
http://www.dtcms.com/a/359167.html

相关文章:

  • 线段树相关算法题(5)
  • 【大语言模型 30】指令微调数据工程:高质量数据集构建
  • audioLDM模型代码阅读(二)——HiFi-GAN模型代码分析
  • 【光照】[光照模型]发展里程碑时间线
  • C++ 高并发内存池项目——无锁化设计、TLS 线程隔离与内存碎片优化
  • fork详解(附经典计算题)
  • 【系列07】端侧AI:构建与部署高效的本地化AI模型 第6章:知识蒸馏(Knowledge Distillation
  • mit6.824 2024spring Lab3A Raft
  • 简说DDPM
  • C语言---零碎语法知识补充(队列、函数指针、左移右移、任务标识符)
  • 机器人控制器开发(底层模块)——rk3588s 的 CAN 配置
  • 码农特供版《消费者权益保护法》逆向工程指北——附源码级注释与异常处理方案
  • 人工智能训练师复习题目实操题2.2.1 - 2.2.5
  • 手表--带屏幕音响-时间制切换12/24小时
  • PS学习笔记
  • 【15】VisionMaster入门到精通——--通信--TCP通信、UDP通信、串口通信、PLC通信、ModBus通信
  • 计算机算术7-浮点基础知识
  • 面经分享--小米Java一面
  • 青年教师发展(中科院软件所-田丰)
  • Dify 从入门到精通(第 65/100 篇):Dify 的自动化测试(进阶篇)
  • MCP与A2A的应用
  • LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机)梳理总结
  • 【AI工具】在 VSCode中安装使用Excalidraw
  • 【69页PPT】智慧工厂数字化工厂蓝图规划建设方案(附下载方式)
  • 基于 Kubernetes 的 Ollama DeepSeek-R1 模型部署
  • 内存管理(智能指针,内存对齐,野指针,悬空指针)
  • Java中Integer转String
  • 为什么企业需要项目管理
  • 安卓编程 之 线性布局
  • 树莓派4B 安装中文输入法