当前位置: 首页 > news >正文

电子健康记录风险评分与多基因风险评分的互补性与跨系统推广性研究

研究背景

近年来,随着大规模基因组学研究和电子健康记录(EHR)的普及,利用多源数据预测疾病风险成为精准医学的重要方向。多基因风险评分(Polygenic Scores,PGS)通过整合全基因组范围的遗传变异信息,量化个体的遗传易感性;而表型风险评分(Phenotype Risk Scores,PheRS)则基于个人在EHR中的既往诊断轨迹,刻画其疾病发生的可能性。 过去的研究更多聚焦于PGS在不同人群中的可推广性,但对PheRS在不同医疗系统间的泛化能力,以及PheRS与PGS之间的互补性,探讨相对有限。由于EHR数据受限于医疗体系的记录习惯、数据可得性和编码标准,模型在跨系统应用时可能面临性能下降的风险。因此,评估PheRS的跨系统可迁移性,并探索其与PGS结合的潜力,对于推动风险预测工具的临床落地具有重要意义。

研究设计

本研究纳入了来自芬兰(FinnGen)、英国(UK Biobank)和爱沙尼亚(Estonian Biobank)三大生物样本库的 845,929 名 32–70 岁成年人,覆盖 13 种常见疾病,包括2型糖尿病、冠心病、哮喘、抑郁症、痛风、关节炎、癫痫以及四种癌症等。 研究采用前瞻性队列设计,将时间轴划分为三个阶段:

  • 观察期(10年):收集EHR中的诊断信息,并将ICD编码映射为phecodes。

  • 洗脱期(2年):剔除与目标疾病直接相关的近因诊断,避免信息泄漏。

  • 预测期(8年):评估模型对疾病新发风险的预测能力。

PheRS的构建基于弹性网回归(Elastic Net),在每个队列内独立训练,并在本地和外部队列中验证泛化性能。PGS则基于最新的全基因组关联研究(GWAS)汇总统计数据计算。研究不仅比较了PheRS与PGS的单独预测效果,还评估了二者结合后的增益。

主要发现

预测性能显著 在三大队列中,所有PheRS与目标疾病的风险均显著相关(P<0.05)。其中,痛风、2型糖尿病和肺癌的风险提升幅度最大。将PheRS加入仅包含年龄和性别的基线模型,可显著提高多种疾病的预测准确度,尤其是哮喘、抑郁症、2型糖尿病、痛风及膝/髋关节炎等。

跨系统泛化性良好 尽管各国EHR的编码习惯和数据覆盖范围差异显著(仅约20%的phecodes在三队列中共同出现),多数PheRS在外部队列中依然保持了较好的预测能力。部分疾病(如痛风、关节炎)的泛化性主要依赖于高血压、高BMI、糖尿病等在各系统中普遍存在的高影响因子。

PheRS与PGS信息独立 二者的相关性极低(平均r≈0.02),说明EHR与基因数据捕捉的是基本独立的风险信息。在8/13种疾病中,将PheRS加入PGS模型可显著提升预测性能;在识别高风险人群(前10%)方面,PheRS在8种疾病中优于PGS,尤其在哮喘、抑郁症、癫痫和关节炎等疾病中表现突出。

研究意义

本研究首次在多国大规模生物样本库中系统比较了PheRS与PGS的预测性能与泛化能力,结论具有多重启示:

互补性强:EHR与基因数据结合,可显著提升疾病风险预测的准确性,尤其适用于缺乏成熟风险评分的疾病。

跨系统可迁移:即便医疗体系差异显著,基于常见高影响因子的PheRS依然具备跨国应用潜力,为国际多中心研究和公共卫生策略提供了可行工具。

临床可行性高:PheRS依托现有EHR数据构建,无需额外检测成本,适合在资源有限的医疗环境中推广。

精准防控价值:结合PGS与PheRS,可更精准地识别高风险人群,为个性化筛查、早期干预和健康管理提供科学依据。
参考文献
Detrois, K.E., Hartonen, T., Teder-Laving, M. et al. Cross-biobank generalizability and accuracy of electronic health record-based predictors compared to polygenic scores. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02298-9

http://www.dtcms.com/a/359259.html

相关文章:

  • 洛谷 P1395 会议 -普及/提高-
  • 吴恩达机器学习(四)
  • 10. 函数和匿名函数(二)
  • 深入理解 shared_ptr 与 weak_ptr:访问控制与线程安全
  • 广东省省考备考(第九十天8.30)——判断推理(第十节课)
  • Java多线程初阶
  • C++讲解---如何设计一个类
  • 防火墙技术(三):状态检测和会话机制
  • 接口自动化测试框架
  • python pyqt5开发DoIP上位机【自动化测试的逻辑是怎么实现的?】
  • 深度解析Fluss LockUtils类的并发艺术
  • 手写MyBatis第43弹:插件拦截原理与四大可拦截对象详解
  • Agent实战教程:LangGraph结构化输出详解,让智能体返回格式化数据
  • Keil5 MDK_541官网最新版下载、安装
  • offsetof宏的实现
  • 线程池项目代码细节2
  • 互联网医院系统源码解析:如何从零搭建高效的在线问诊平台
  • SNMPv3开发--EngineID安全访问机制
  • 腾讯云的运维笔记——从yum的安装与更新源开始
  • 深入理解 Linux 驱动中的 file_operations:从 C 语言函数指针到类比 C++ 虚函数表
  • centos7中MySQL 5.7.32 到 5.7.44 升级指南:基于官方二进制包的原地替换式升级
  • 有个需求:切换车队身份实现Fragment的Tab隐藏显示(车队不显示奖赏)
  • SNMPv3开发--简单使用
  • 【Linux基础】深入理解Linux环境下的BIOS机制
  • Python - 机器学习:从 “教电脑认东西” 到 “让机器自己学规律”
  • 项目管理和产品管理的区别
  • docker,mysql安装
  • vector的学习和模拟
  • 揭秘表格推理的“思维革命”:RoT模型介绍
  • 【机器学习基础】机器学习中的容量、欠拟合与过拟合:理论基础与实践指南