当前位置: 首页 > news >正文

中科院1区|IF10+:加大医学系团队利用GPT-4+电子病历分析,革新肝硬化并发症队列识别

图片

中科院1区|IF10+:加大医学系团队利用GPT-4+电子病历分析,革新肝硬化并发症队列识别

在当下的科研领域,人工智能尤其是大语言模型的迅猛发展,正为各个学科带来前所未有的机遇与变革。在医学范畴,从疾病的早期精准筛查,如AI预测系统可提前数年察觉阿尔茨海默病等千余种疾病风险,到影像诊断中显著降低骨折漏诊率,AI的应用已逐步渗透。在生物医学研究方面,单细胞RNA测序技术结合人工智能,为深入解析细胞异质性开拓了新思路。于此同时,大语言模型在医学知识问答、临床报告生成等场景中也崭露头角。在这样充满活力与创新的大背景下,一篇发表于知名期刊Hepatology的论文,另辟蹊径,巧妙运用生物信息方法及其他手段,在肝病研究领域取得了令人瞩目的成果,接下来就让我们深入探究这篇论文的精妙之处。 

https://doi.org/10.1097/HEP.0000000000001115

图片

正式介绍


基本信息

  • 论文标题:利用GPT-4评估基于编码的肝硬化及其并发症识别的阳性预测值

  • 发表期刊:Hepatology,中科院医学大类分区1区,IF=12.9002

  • 发表日期:2025年6月1日在线发表


研究背景

临床需求矛盾:肝硬化及并发症的队列识别依赖诊断编码(如 ICD 码),但编码准确性低(既往研究 PPV 仅 43%-91%),且无法区分“活动性”与“历史性”病情;手动 chart review 虽为金标准,却耗时耗力,难以规模化。技术机遇:大语言模型(LLM)如 GPT-4 具备非结构化文本解析能力,可高效处理电子健康记录(EHR),为解决上述问题提供可能。


研究思路

数据提取:从 UCSF 医疗中心提取2013-2022 年 3788 份肝硬化相关出院小结,基于OMOP 编码分为肝硬化、肝性脑病、腹水等 5 类队列。双轨验证设计: 金标准:随机抽取 5%-10% 病例进行手动 chart review,由资深医生校正。LLM 方法:使用GPT-4-turbo-128k 设计零-shot 提示,识别出院小结中“活动性”病情,对比手动 review 计算准确性(Accuracy、PPV 等)。规模化评估编码性能:以 LLM 分类为“银标准”,计算传统 OMOP 编码在全部 3788 份小结中的 PPV,评估编码可靠性。

图片


研究亮点

方法学突破:首次在肝病领域将 GPT-4 作为“银标准”规模化评估诊断编码性能,替代部分手动 review。临床价值:证明 LLM 可准确区分肝硬化并发症的“活动性”(Accuracy 87.8%-98.8%),为 EHR 数据的高效利用提供技术支撑。成本效益:LLM 单例分析成本仅 0.05 美元,显著低于手动 review,为大规模队列研究提供经济可行的方案。


数据来源和生物信息方法

1、数据来源

数据来源:UCSF 医疗中心 2013-2022 年肝硬化患者的电子健康记录(EHR),包含 3788 份出院小结,涉及 2747 例患者。

2、生物信息方法

GPT-4 部署:通过 UCSF 合规的 Versa API 调用 GPT-4-turbo-128k,使用零-shot 提示工程,温度参数调优至 0.0 和 0.7。提示工程:设计 5 组针对性提示,识别肝硬化及 4 种并发症的活动性,如“请判断该患者在住院期间是否存在活动性肝性脑病,并说明临床管理措施”。统计分析。


主要结果

1、传统编码vs手动chart review(金标准)

肝硬化识别 PPV 为 82.2%;并发症中腹水 PPV 最高(72.8%),肝性脑病最低(41.7%)。小结:传统编码对肝硬化本身识别尚可,但对并发症(尤其是肝性脑病)准确性差,提示编码无法可靠反映“活动性”病情。

2、GPT-4vs手动chart review(金标准)

肝硬化识别Accuracy 最高达 98.8%(温度 0.0),PPV 98.9%;肝性脑病 Accuracy 96.3%(温度 0.7),腹水 PPV 达 100%(温度 0.0 和 0.7);胃肠道出血与自发性细菌性腹膜炎 Accuracy 分别为 87.8% 和 90.7%。小结:GPT-4 对肝硬化及并发症的“活动性”识别准确性显著高于传统编码,尤其在腹水等场景中接近完美(PPV 100%)。

3、传统编码 vs GPT-4(银标准)

肝硬化PPV 79.8%;并发症PPV 53.9%-67.6%,其中肝性脑病(53.9%)和腹水(55.3%)仍较低。小结:以LLM为银标准,传统编码局限性进一步凸显,提示需结合NLP技术优化队列识别。

4、LLM 成本与效率分析

单例分析成本0.05 美元,总 token 消耗随病例数增加而线性增长(如肝硬化 3788 例消耗 1881 万tokens,成本 188.18 美元)。小结:LLM 方法兼具高效性与经济性,适合大规模队列研究。


研究结论

GPT-4等LLM可准确识别肝硬化及并发症的“活动性”(Accuracy 87.8%-98.8%),性能显著优于传统诊断编码。以LLM作为“银标准”可规模化评估编码性能,发现传统方法对并发症识别的不足。LLM方法成本低、可扩展,有望替代部分手动chart review,成为临床研究队列识别的新标准。


研究的局限性和未来方向

局限性:手动review存在9.2%的校正率,本身可能引入误差;数据依赖OMOP编码提取,可能存在信息丢失;GPT-4的通用性有待外部队列验证。

未来方向:在不同医疗机构使用Llama 3、Claude等模型验证结果;应用LLM区分肝硬化病因;开发基于LLM的实时EHR数据标注工具。

感谢您的阅读,欢迎关注“生信学术纵览”。谢谢您的分享、点赞+在看!

图片

相关文章:

  • postman Access denied for user‘root‘@‘XXXXXXXX(using password: YES)
  • ubuntu 无法访问位置 error mounting 解决办法 双系统
  • Linux驱动学习day4
  • 第六章 进阶21 奶茶周会没了奶茶
  • 华为云Flexus+DeepSeek征文 | 基于Dify构建个人在线旅游助手
  • React Native【实战范例】水平滚动分类 FlatList
  • 提示词Prompts(1)
  • 【论文阅读笔记】ICLR 2025 | 解析Ref-Gaussian如何实现高质量可交互反射渲染
  • 【论文阅读笔记】CVPR2025 | 2D高斯溅射的几何-光照解耦:Ref-GS实现开放世界级真实渲染
  • 【React Native 性能优化:虚拟列表嵌套 ScrollView 问题全解析】
  • React Native【实战范例】网格导航 FlatList
  • HarmonyOS 5对React Native有哪些新特性?
  • 代码训练LeetCode(33)字符串首次匹配
  • Java集合 - LinkedList底层源码解析
  • python第51天
  • 小型化边缘计算设备 特点
  • Untiy打包安卓踩坑
  • 让 Deepseek 写电器电费计算器小程序
  • 【Docker基础】Docker核心概念:仓库(Registry)详解
  • 让 Deepseek 写电器电费计算器(html版本)
  • 北京网站制作济南/河北网站优化公司
  • 做网站的 深圳/新网站排名优化怎么做
  • 益阳注册公司/免费网站分析seo报告是坑吗
  • 网站建设营销的技巧/济南seo优化
  • 响应式网站一般做几个尺寸/百度平台商家联系方式
  • semcms外贸网站管理系统/百度百科推广费用