微软发布突破性医疗AI系统
微软首席执行官Satya Nadella在社交平台宣布,微软推出了突破性医疗AI系统MAI-DxO。该系统技术创新在于模型无关设计,可适配不同语言模型并提升其诊断性能,还能模拟真实医生流程,诊断准确率远超专业医生。
微软测试显示,与21名10年以上经验医生对比,人类医生在《新英格兰医学杂志》56例测试集上平均准确率仅19.9%,而MAI-DxO在无预算配置下,用OpenAI的o3模型准确率达81.9%,集成模式更高达85.5%,成本也大幅降低。此外,微软还发布了医疗序贯诊断基准SDBench。
医学诊断是医生需不断收集信息、提出并验证假设、逐步细化范围的复杂过程。临床中,医生需根据患者症状体征提问,了解病史等信息,结合检查结果缩小疾病范围,最终确诊。MAI-DxO则通过模拟一组不同角色的虚拟医生共同诊断,在准确性和成本效益上取得显著突破。
MAI-DxO简单介绍
MAI-DxO 框架借鉴真实医疗团队协作模式,让不同“医生”发挥专业优势,通过协调机制避免个体偏差与过度检查。其中,Dr. Hypothesis 维护按概率排序的鉴别诊断列表,以贝叶斯方式更新疾病概率,为诊断提供方向;Dr. Test-Chooser 每轮选最多三个能区分领先诊断假设的检查,提高诊断效率、降低成本;Dr. Challenger 以监督员身份识别锚定偏差,提出证伪当前诊断的检查建议,打破思维定式;Dr. Stewardship 推行成本意识医疗服务,倡导等效便宜检查替代方案,否决低收益昂贵检查;Dr. Checklist 负责幕后质量控制,确保检查名称有效与团队推理一致,保障系统稳定可靠。
为评估性能,微软将 MAI-DxO 与专业人类医生综合对比。在诊断准确性这一关键指标上,参与测试的 21 名医生平均准确率仅 19.9%。而 MAI-DxO 在不同配置下远超人类医生,无预算配置时诊断准确率达 81.9%,集成配置更是提升至 85.5%。
在成本效益方面,人类医生测试中平均每个案例成本 2963 美元,平均每个案例花费 11.8 分钟,提出 6.6 个问题并请求 7.2 项检查。MAI-DxO 控制成本表现出色,无预算配置平均检查成本 4735 美元,预算内配置成本进一步降至 2396 美元,且保持较高诊断准确率。
MAI-DxO五大集成模式
为适配不同医疗场景以控制成本、诊断效率与准确性,MAI-DxO 推出五种集成模式。这些模式针对不同医疗需求和条件,在诊断方式、成本把控及准确性追求上各有侧重,为多样化的医疗情境提供了灵活且适配的解决方案。
Instant Answer 模式依赖初始病例摘要快速诊断,灵感源于紧急场景的快速响应需求,如偏远地区或急诊。它直接调用语言模型处理信息,诊断快、成本近零,但难处理复杂病例,适用于对时间要求高、准确性要求低的场景。Question Only 模式将诊断限于提问,模拟初级诊疗,强调病史采集,通过层次化提问策略挖掘信息,成本低、无创伤,适合初步筛查,但面对需客观检查的疾病诊断受限,在基层医疗和健康咨询有价值。Budgeted 模式引入动态预算控制,通过独立协调模型跟踪成本,将检查请求转换为 CPT 代码估算成本,接近预算时触发预警,实现对成本的主动管理。
No Budget 模式是完整形态,无成本跟踪和预算限制,以最大化诊断准确性为目标,发挥虚拟医生团队优势,通过多种机制深度诊断复杂病例,用强化学习优化协作流程,能处理疑难病例,实现高准确性,但成本较高,适用于三甲医院专科会诊或罕见病诊断中心。Ensemble 模式模拟多个医生团队并行工作,每个团队独立运行 No Budget 模式,最后聚合诊断结果,其核心是构建多样化团队,结果聚合时考虑一致性、证据强度和推理合理性,降低偏差和错误,进一步提升诊断准确性。
序贯诊断基准SDBench
SDBench 是微软 AI 团队打造的交互式评估框架,它将《新英格兰医学杂志》临床病理会议(CPC)系列里的 304 个具挑战性的诊断案例,转化为逐步诊断的交互场景。这些案例涵盖常见与罕见疾病,表现多样,为评估人类医生或 AI 的序贯诊断能力提供了丰富真实素材。
在 SDBench 中,诊断从简短病例摘要开启,诊断主体依此决定询问问题、要求检查或做出最终诊断,此过程迭代进行。“守门人”智能体模型拥有完整病例文件,但仅根据诊断主体明确查询提供临床发现信息,模糊查询会礼貌拒绝,模拟了真实临床中医生获取信息的过程。为增强评估真实性,引入“法官”智能体评估诊断准确性。它不单看字面描述,而是从核心疾病实体等多个维度综合评估,以临床实质为准,避免因术语差异误判。
除诊断准确性,SDBench 将诊断成本作为重要评估指标。现实中医生选检查手段要考虑成本效益,不能随意进行昂贵检查。SDBench 为诊断主体与患者互动设定固定成本,对检查请求通过查找系统转为标准化代码,依据美国大型卫生系统 2023 年定价表确定成本。此方式促使诊断主体注重成本控制,也为不同主体成本效益比较提供标准化参考。