电子健康记录风险评分与多基因风险评分的互补性与跨系统推广性研究
研究背景
近年来,随着大规模基因组学研究和电子健康记录(EHR)的普及,利用多源数据预测疾病风险成为精准医学的重要方向。多基因风险评分(Polygenic Scores,PGS)通过整合全基因组范围的遗传变异信息,量化个体的遗传易感性;而表型风险评分(Phenotype Risk Scores,PheRS)则基于个人在EHR中的既往诊断轨迹,刻画其疾病发生的可能性。 过去的研究更多聚焦于PGS在不同人群中的可推广性,但对PheRS在不同医疗系统间的泛化能力,以及PheRS与PGS之间的互补性,探讨相对有限。由于EHR数据受限于医疗体系的记录习惯、数据可得性和编码标准,模型在跨系统应用时可能面临性能下降的风险。因此,评估PheRS的跨系统可迁移性,并探索其与PGS结合的潜力,对于推动风险预测工具的临床落地具有重要意义。
研究设计
本研究纳入了来自芬兰(FinnGen)、英国(UK Biobank)和爱沙尼亚(Estonian Biobank)三大生物样本库的 845,929 名 32–70 岁成年人,覆盖 13 种常见疾病,包括2型糖尿病、冠心病、哮喘、抑郁症、痛风、关节炎、癫痫以及四种癌症等。 研究采用前瞻性队列设计,将时间轴划分为三个阶段:
-
观察期(10年):收集EHR中的诊断信息,并将ICD编码映射为phecodes。
-
洗脱期(2年):剔除与目标疾病直接相关的近因诊断,避免信息泄漏。
-
预测期(8年):评估模型对疾病新发风险的预测能力。
PheRS的构建基于弹性网回归(Elastic Net),在每个队列内独立训练,并在本地和外部队列中验证泛化性能。PGS则基于最新的全基因组关联研究(GWAS)汇总统计数据计算。研究不仅比较了PheRS与PGS的单独预测效果,还评估了二者结合后的增益。
主要发现
预测性能显著 在三大队列中,所有PheRS与目标疾病的风险均显著相关(P<0.05)。其中,痛风、2型糖尿病和肺癌的风险提升幅度最大。将PheRS加入仅包含年龄和性别的基线模型,可显著提高多种疾病的预测准确度,尤其是哮喘、抑郁症、2型糖尿病、痛风及膝/髋关节炎等。
跨系统泛化性良好 尽管各国EHR的编码习惯和数据覆盖范围差异显著(仅约20%的phecodes在三队列中共同出现),多数PheRS在外部队列中依然保持了较好的预测能力。部分疾病(如痛风、关节炎)的泛化性主要依赖于高血压、高BMI、糖尿病等在各系统中普遍存在的高影响因子。
PheRS与PGS信息独立 二者的相关性极低(平均r≈0.02),说明EHR与基因数据捕捉的是基本独立的风险信息。在8/13种疾病中,将PheRS加入PGS模型可显著提升预测性能;在识别高风险人群(前10%)方面,PheRS在8种疾病中优于PGS,尤其在哮喘、抑郁症、癫痫和关节炎等疾病中表现突出。
研究意义
本研究首次在多国大规模生物样本库中系统比较了PheRS与PGS的预测性能与泛化能力,结论具有多重启示:
互补性强:EHR与基因数据结合,可显著提升疾病风险预测的准确性,尤其适用于缺乏成熟风险评分的疾病。
跨系统可迁移:即便医疗体系差异显著,基于常见高影响因子的PheRS依然具备跨国应用潜力,为国际多中心研究和公共卫生策略提供了可行工具。
临床可行性高:PheRS依托现有EHR数据构建,无需额外检测成本,适合在资源有限的医疗环境中推广。
精准防控价值:结合PGS与PheRS,可更精准地识别高风险人群,为个性化筛查、早期干预和健康管理提供科学依据。
参考文献
Detrois, K.E., Hartonen, T., Teder-Laving, M. et al. Cross-biobank generalizability and accuracy of electronic health record-based predictors compared to polygenic scores. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02298-9