医疗行业 AI 投毒攻击原理及防护研究
一、引言:医疗 AI 安全的严峻挑战
医疗人工智能 (AI) 正迅速改变医疗诊断、治疗和药物研发等领域,有望提高诊断准确性、减少医疗成本并改善患者预后。然而,随着医疗 AI 应用的深入,其安全性和可靠性问题日益凸显。2025 年初发表在《Nature Medicine》上的一项研究揭示了一个令人担忧的事实:仅替换训练数据中 0.001% 的内容为医疗错误信息,就能导致模型产生显著更多的有害医疗建议。这一发现标志着医疗 AI 面临的 "投毒攻击"(poisoning attack) 威胁已从理论可能转变为现实风险。
投毒攻击是指攻击者故意将错误或恶意数据引入训练数据集,以操纵 AI 模型的输出行为。与传统的网络攻击不同,投毒攻击具有隐蔽性强、影响深远且难以检测的特点,尤其在医疗领域可能直接危及患者生命安全(17)。医疗 AI 系统一旦被投毒,可能提供错误的诊断结果、推荐不适当的治疗方案或产生其他有害医疗建议,对患者健康造成严重威胁。
近年来,随着医疗 AI 系统的广泛应用,针对这些系统的投毒攻击案例日益增多。例如,一项研究发现,在北美一款流行的蘑菇识别 AI 工具在识别毒蘑菇时常出现误判,将致命的毒蘑菇如毒蝇伞、死亡帽误判为可食用品种,导致数十人因食用有毒真菌入院治疗(17)。另一项研究显示,在医疗大模型中仅以 0.001% 的比例进行数据投毒,就能触发医疗错误信息。
面对这一严峻挑战,医疗行业亟需深入理解医疗 AI 投毒攻击的原理、识别攻击手段并采取有效的防护措施。本文将系统分析医疗 AI 投毒攻击的类型、原理和实施方法,探讨其对医疗诊断模型、药物研发模型等的潜在影响,并提出多层次的防护策略,为医疗 AI 系统的安全应用提供理论指导和实践参考。
二、医疗 AI 投毒攻击的基本原理与分类
2.1 投毒攻击的定义与本质
投毒攻击是一种针对机器学习模型的攻击方式,攻击者通过在训练数据中注入精心设计的 "有毒" 样本,改变模型的决策边界或引入特定的错误模式,从而在模型部署后产生对攻击者有利的输出(16)。在医疗领域,投毒攻击的目标通常是使 AI 系统在特定条件下产生错误的医疗建议、诊断结果或治疗方案,而在其他情况下保持正常性能,以避免被轻易检测到(1)。
投毒攻击的本质是利用机器学习模型对训练数据的依赖性,通过操纵数据分布来影响模型行为。根据攻击目标和方式的不同,投毒攻击可以分为可用性攻击和完整性攻击两类:可用性攻击旨在降低模型的整体性能,造成服务拒绝;而完整性攻击则旨在使模型在特定输入下产生错误输出,同时保持对其他输入的正常预测(16)。在医疗场景中,完整性攻击尤为危险,因为攻击者可以针对特定疾病或药物设计攻击,导致严重的医疗后果。
2.2 医疗 AI 投毒攻击的独特特点
医疗 AI 投毒攻击相比其他领域的投毒攻击具有以下独特特点:
- 高风险性:医疗 AI 的错误输出可能直接危及患者生命安全,如错误的诊断或治疗建议可能导致严重的健康后果(17)。
- 数据敏感性:医疗数据通常包含患者的敏感信息,攻击者可能利用这些信息进行更精准的投毒攻击,同时引发隐私泄露风险(10)。
- 专业门槛高:医疗领域具有高度专业性,攻击者需要具备一定的医学知识才能设计有效的投毒攻击,例如构造看似合理但实际错误的医学陈述(22)。
- 监管严格性:医疗 AI 受到严格的法规监管,投毒攻击可能导致系统无法通过合规性检查,影响其临床应用(3)。
- 评估复杂性:医疗 AI 系统的评估通常基于特定的基准测试(如 MedQA 和 PubMedQA),而投毒攻击可能设计为在这些测试中表现正常,但在实际应用中产生错误结果,增加了检测难度(17)。
2.3 医疗 AI 投毒攻击的主要类型
根据攻击实施的阶段和方式,医疗 AI 投毒攻击可分为以下主要类型:
2.3.1 数据投毒攻击
数据投毒攻击是最常见的投毒攻击类型,攻击者在模型训练阶段将有毒数据注入训练集中,使模型学习到错误的模式或关联(16)。在医疗领域,数据投毒攻击可以通过多种方式实现:
- 标签投毒:攻击者修改训练数据中的标签,使模型将特定的输入特征与错误的标签关联。例如,将恶性肿瘤的医学图像标记为良性,或反之(18)。
- 特征投毒:攻击者修改输入特征的值,使其包含误导性信息。例如,在患者的电子健康记录 (EHR) 中修改关键指标(如血压、血糖水平),导致模型产生错误的诊断或治疗建议(6)。
- 内容投毒:攻击者向训练数据中添加伪造的医学文本或研究结果,误导模型对特定疾病、药物或治疗方法的理解。例如,通过生成对抗网络 (GAN) 生成虚假的医学论文或病例报告,污染模型的训练数据。
- 合成数据投毒:攻击者使用生成模型(如 GAN)生成看似真实但实际包含错误信息的合成医疗数据,如合成的 MRI 图像或病理切片,影响模型的学习过程(18)。
2.3.2 模型投毒攻击
模型投毒攻击是指攻击者直接修改已训练好的模型参数,而非通过训练数据间接影响模型(8)。这类攻击通常需要攻击者具备对模型的访问权限,如通过逆向工程或利用系统漏洞获取模型参数:
- 权重修改:攻击者通过修改模型的权重参数,在模型中植入特定的错误关联。例如,在语言模型中修改与药物剂量相关的权重,使模型建议过高或过低的用药剂量(8)。
- 后门植入:攻击者在模型中植入后门,使模型在接收到特定触发输入时产生错误输出。例如,在医学图像识别模型中植入后门,当图像包含特定的不可见模式时,模型将良性肿瘤误判为恶性。
- 模型编辑:攻击者利用模型编辑技术(如 ROME 算法)直接修改模型中存储的特定知识。例如,将 "胰岛素用于治疗高血糖" 的知识修改为 "胰岛素用于治疗低血糖",导致模型产生危险的错误建议(8)。
2.3.3 混合投毒攻击
混合投毒攻击结合了数据投毒和模型投毒的特点,通常包括以下几种形式:
- 预训练模型投毒:攻击者在基础预训练模型中植入错误知识,这些错误会在下游任务的微调过程中被放大(1)。
- 自适应投毒:攻击者首先通过少量数据投毒测试模型的敏感性,然后根据测试结果调整投毒策略,实施更精准的攻击(16)。
- 动态投毒:攻击者在模型的整个生命周期中持续注入有毒数据或修改模型参数,使攻击效果随时间累积(23)。
三、医疗 AI 投毒攻击的实施方法与案例分析
3.1 医疗诊断模型的投毒攻击
医疗诊断模型是医疗 AI 中最常见的应用之一,也是投毒攻击的主要目标。攻击者可以通过多种方式针对诊断模型实施投毒攻击,以下是几种典型的实施方法和案例:
3.1.1 医学图像诊断模型的投毒攻击
医学图像诊断模型(如 X 光、CT、MRI 图像分析模型)在投毒攻击面前表现得尤为脆弱。攻击者可以通过以下方式实施攻击:
- 图像扰动攻击:攻击者在医学图像中添加微小的、肉眼难以察觉的扰动,使模型产生错误的诊断结果。例如,在肺癌 CT 图像中添加特定的扰动模式,使模型将恶性肿瘤误判为良性(4)。
- 合成图像投毒:攻击者使用生成对抗网络 (GAN) 生成包含错误诊断信息的合成医学图像,并将其混入训练数据中。研究显示,即使是低质量的合成 MRI 图像也能显著降低 U-Net 模型对脑肿瘤的分割准确性,当合成数据比例达到 50% 时,Dice 系数从 0.8937 降至 0.7474,Jaccard 指数和敏感性也出现显著下降(18)。
- 标签翻转攻击:攻击者修改医学图像的标签,例如将 "正常" 标记为 "异常",或反之。研究表明,仅需将少量训练数据的标签翻转,就能显著降低模型的诊断准确性。
- 后门植入攻击:攻击者在医学图像中嵌入特定的触发器(如特定的纹理或模式),当模型遇到带有触发器的图像时,产生错误的诊断结果。例如,在眼底图像中嵌入几乎不可见的触发器,使模型错误地诊断为糖尿病视网膜病变(5)。
案例分析:一项针对胸部 X 光图像分类模型的研究发现,攻击者可以通过添加特定的扰动模式,使模型将健康的肺部图像误判为患有肺炎,同时保持对其他图像的正常分类性能。更令人担忧的是,这些扰动在肉眼看来几乎不可察觉,这意味着医生无法通过视觉检查发现模型的错误判断(5)。
3.1.2 临床决策支持系统的投毒攻击
临床决策支持系统 (CDSS) 帮助医生做出诊断和治疗决策,攻击者可以通过以下方式实施投毒攻击:
- 电子健康记录 (EHR) 投毒:攻击者修改患者的电子健康记录中的关键指标,如生命体征、实验室结果等,导致决策支持系统给出错误的建议(6)。
- 症状关联攻击:攻击者通过修改训练数据,改变症状与疾病之间的关联。例如,使系统认为 "头痛" 与 "心肌梗死" 之间存在强关联,导致不必要的检查或治疗(7)。
- 药物相互作用攻击:攻击者修改药物相互作用数据库,使系统错误地提示不存在的药物相互作用,或忽略真正的相互作用,导致用药错误(7)。
案例分析:在一项针对智能处方系统的研究中,攻击者通过修改患者的临床记录,仅需对数据进行最小程度的改变,就能以高概率颠覆模型的预测结果。实验结果显示,攻击者可以通过改变患者的某些指标(如肝功能测试结果),使系统推荐不适当的药物或剂量(7)。
3.2 药物研发模型的投毒攻击
药物研发是医疗 AI 的另一个重要应用领域,攻击者可以通过投毒攻击干扰药物发现、优化和安全性评估过程:
3.2.1 靶点预测模型的投毒攻击
靶点预测是药物研发的关键步骤,攻击者可以通过以下方式干扰这一过程:
- 蛋白质 - 药物相互作用投毒:攻击者修改蛋白质 - 药物相互作用数据,使模型错误地预测药物的作用靶点。例如,使系统认为某种药物与特定的疾病相关,而实际上它们之间没有关联。
- 结合位点扰动:攻击者在蛋白质结构中添加微小的扰动,使模型错误地预测药物的结合位点,导致无效的药物设计。
- 虚拟筛选攻击:攻击者在虚拟筛选过程中引入错误的分子特征,使模型错误地将无效化合物识别为潜在的药物候选(13)。
3.2.2 药物毒性预测模型的投毒攻击
药物毒性预测是确保药物安全性的重要环节,攻击者可以通过以下方式实施攻击:
- 毒性标签投毒:攻击者修改化合物的毒性标签,例如将有毒化合物标记为无毒,或反之,导致模型产生错误的毒性预测。
- 结构特征投毒:攻击者修改化合物的结构特征,使模型错误地评估其毒性风险。例如,通过添加特定的化学基团,使模型错误地认为无毒化合物具有高毒性(13)。
- 代谢途径干扰:攻击者修改代谢途径数据,使模型错误地预测药物的代谢产物及其毒性,导致潜在的安全风险。
案例分析:在一项研究中,攻击者利用大语言模型 (LLM) 生成虚假的药物研究论文,这些论文看似合理但实际上包含错误的药物 - 疾病关联信息。当这些虚假论文被整合到知识图谱中后,下游的药物研发模型产生了错误的药物靶点预测和疗效评估。研究发现,仅需添加一篇恶意摘要,就能将 71.3% 的药物 - 疾病对从排名前 1000 提升到前 10,这表明投毒攻击对药物研发模型的影响可能极为深远。
3.3 医疗自然语言处理模型的投毒攻击
医疗自然语言处理 (NLP) 模型在病历分析、文献综述和临床决策支持等方面发挥着重要作用,攻击者可以通过以下方式实施投毒攻击:
3.3.1 临床文本分析模型的投毒攻击
- 文本扰动攻击:攻击者在临床文本中添加微小的扰动,如替换或插入特定的词汇,使模型产生错误的分析结果。例如,在出院记录中修改特定的词汇,使模型错误地提取诊断信息(1)。
- 指令注入攻击:攻击者在训练数据中插入特定的指令,使模型在处理特定类型的输入时产生错误的输出。例如,在医疗对话数据中插入隐藏的指令,使模型在回答关于特定药物的问题时给出错误的剂量建议(1)。
- 虚假病例生成:攻击者使用大语言模型生成虚假的临床病例,这些病例看似真实但实际上包含错误的诊断或治疗信息。当这些虚假病例被用于训练模型时,会导致模型学习到错误的模式(1)。
3.3.2 医学文献分析模型的投毒攻击
- 虚假文献生成:攻击者使用大语言模型生成虚假的医学研究论文,并将其发布到学术数据库中。当这些虚假论文被用于训练文献分析模型时,会导致模型产生错误的结论。
- 引用网络污染:攻击者通过操纵学术论文的引用网络,使模型错误地评估研究成果的可信度和重要性。例如,人为地增加对虚假研究的引用,使其在模型的评估中显得更有影响力(13)。
- 术语混淆攻击:攻击者在医学文献中使用混淆的术语或错误的概念定义,使模型错误地理解和关联不同的医学概念(13)。
案例分析:一项发表在《Nature Medicine》上的研究表明,医疗大语言模型极易受到数据投毒攻击的影响。研究人员利用 GPT-3.5 生成虚假的医学文章,并将其注入到训练数据中。结果显示,即使投毒数据仅占训练数据的 0.001%,也足以使模型产生显著更多的有害医疗建议。更令人担忧的是,这些 "中毒" 模型在常见的医学基准测试(如 MedQA 和 PubMedQA)中表现与正常模型几乎无异,难以通过传统方法察觉(17)。
3.4 医疗 AI 投毒攻击的通用方法与工具
尽管不同类型的医疗 AI 模型面临不同的投毒攻击风险,但攻击者通常会使用一些通用的方法和工具实施攻击:
- 优化攻击框架:攻击者使用基于梯度的优化方法设计投毒样本,最大化攻击效果。例如,通过求解双层优化问题,攻击者可以找到最优的投毒数据分布,以最大化模型在特定任务上的错误率(16)。
- 生成对抗网络 (GAN):攻击者使用 GAN 生成与真实数据分布相似但包含错误信息的合成数据,如合成的医学图像、临床文本或基因组数据。
- 大语言模型 (LLM):攻击者利用 LLM 生成看似合理但实际错误的医学内容,如虚假的研究论文、病例报告或治疗指南。
- 知识图谱攻击:攻击者通过注入虚假的三元组(如 "药物 A 治疗疾病 B")污染医学知识图谱,进而影响依赖这些知识图谱的下游应用。
- 模型编辑工具:攻击者使用专门的模型编辑工具(如 ROME 算法)直接修改模型参数,在模型中植入特定的错误知识(8)。
四、医疗 AI 投毒攻击的防护策略
4.1 数据层面的防护策略
4.1.1 数据质量控制与清洗
- 数据来源验证:建立严格的数据来源验证机制,确保训练数据来自可信的医疗机构、学术数据库或经过认证的数据源。例如,在医疗大模型的训练中,优先使用经过同行评议的医学文献和经过认证的电子健康记录数据(20)。
- 异常检测与过滤:使用统计方法或机器学习模型检测训练数据中的异常样本,如偏离正常分布的特征值或不一致的标签。常用的方法包括孤立森林、局部异常因子 (LOF) 和支持向量机等(16)。
- 数据清洗与标准化:实施严格的数据清洗流程,去除重复、不完整或明显错误的数据,并对数据进行标准化处理,减少数据中的噪声和偏差(20)。
- 数据多样性评估:评估训练数据的多样性和代表性,确保数据能够覆盖各种临床场景和患者群体,减少攻击者利用数据分布漏洞的可能性(20)。
4.1.2 数据增强与对抗训练
- 对抗训练:在训练过程中引入对抗样本,增强模型对投毒攻击的鲁棒性。例如,在医学图像分类中,使用 FGSM (Fast Gradient Sign Method) 生成对抗样本,并将其加入训练数据中,使模型学习到对微小扰动的抵抗力(11)。
- 数据增强策略:应用多样化的数据增强技术,如旋转、缩放、翻转等几何变换,以及加噪、模糊等像素级操作,增加模型对不同数据变体的适应性,降低对特定模式的依赖(18)。
- 混合训练策略:结合真实数据和高质量合成数据进行训练,避免过度依赖单一数据源。研究表明,当合成数据比例控制在 33.33% 以下时,U-Net 模型对脑肿瘤的分割性能相对稳定,而超过 50% 则会导致显著的性能下降(18)。
4.1.3 数据隐私保护技术
- 联邦学习:采用联邦学习技术,使模型在多个医疗机构的本地数据上进行训练,而无需将原始数据集中到中央服务器。这样可以减少数据泄露风险,同时降低投毒攻击的可能性(3)。
- 差分隐私:在训练数据中添加适当的噪声,实现差分隐私保护,防止攻击者通过模型输出推断出特定个体的信息,同时降低投毒攻击的有效性(11)。
- 安全多方计算:使用安全多方计算技术,使多个参与方能够在不共享原始数据的情况下共同训练模型,提高数据安全性(3)。
4.2 模型层面的防护策略
4.2.1 模型架构设计与优化
- 模型多样性:采用模型集成或多模型融合策略,结合多个不同架构、不同训练数据的模型进行预测,降低单一模型被投毒攻击影响的风险(11)。
- 模型复杂度控制:根据任务需求合理控制模型复杂度,避免过度复杂的模型对训练数据中的噪声和异常值过于敏感(16)。
- 注意力机制优化:在 Transformer 等模型架构中优化注意力机制,提高模型对关键特征的关注能力,减少对潜在有毒特征的依赖(8)。
- 鲁棒损失函数:选择对异常值不敏感的损失函数,如 Huber 损失或 Log-Cosh 损失,替代传统的均方误差损失,提高模型对投毒样本的抵抗力(16)。
4.2.2 模型训练与评估
- 对抗训练:在模型训练过程中引入对抗样本,提高模型对投毒攻击的鲁棒性。研究表明,对抗训练可以有效提高医学图像分类模型对对抗扰动的抵抗力,使模型在面对投毒攻击时保持较高的诊断准确性(11)。
- 模型验证与测试:实施严格的模型验证和测试流程,包括使用独立的测试集、交叉验证和临床专家评估,确保模型在各种场景下的性能和安全性(20)。
- 模型可解释性增强:提高模型的可解释性,使医疗专业人员能够理解模型的决策过程和依据,更容易发现潜在的投毒攻击导致的异常行为(3)。
- 模型性能监控:建立持续的模型性能监控机制,实时监测模型在生产环境中的表现,及时发现性能下降或异常行为,如对特定输入模式的异常响应(20)。
4.2.3 模型更新与维护
- 模型版本控制:实施严格的模型版本控制,记录模型的训练数据、训练参数和评估结果,便于在发现安全问题时追溯和回滚(20)。
- 增量更新策略:采用增量更新策略,逐步更新模型而非完全替换,降低大规模更新带来的安全风险(20)。
- 模型回滚机制:建立模型回滚机制,在发现模型被投毒或性能异常时能够快速恢复到之前的安全版本(20)。
- 模型退役策略:制定明确的模型退役策略,及时退役过时或存在安全隐患的模型,避免被攻击者利用(20)。
4.3 应用层面的防护策略
4.3.1 知识图谱与外部知识验证
- 知识图谱验证:使用预先构建的医学知识图谱验证模型的输出,确保模型生成的医疗建议与现有医学知识一致。例如,研究人员开发了一种基于生物医学知识图谱的验证算法,能够捕获 91.9% 的有害内容,有效降低投毒攻击的影响(20)。
- 外部知识源集成:将多个独立的外部知识源(如权威医学指南、临床实践标准和药物数据库)集成到模型应用中,为模型输出提供额外的验证和约束(20)。
- 专家知识注入:将医学专家的知识和经验以规则或约束的形式注入模型中,限制模型生成明显错误或有害的输出(20)。
- 知识更新机制:建立知识更新机制,定期更新和验证外部知识源,确保其时效性和准确性,减少攻击者利用过时或错误知识的可能性(20)。
4.3.2 输出验证与风险评估
- 输出验证流程:建立严格的输出验证流程,对模型生成的医疗建议进行多维度验证,包括与现有医学知识的一致性、逻辑合理性和临床可行性(20)。
- 风险分层评估:根据模型输出的风险等级采取不同的处理策略。对于高风险的决策(如重大疾病诊断或高风险药物推荐),要求医学专家进行复核;对于低风险的决策,可以直接采纳模型建议(3)。
- 不确定性量化:量化模型输出的不确定性,当不确定性超过阈值时触发人工复核机制,避免在模型不确定的情况下做出高风险决策(20)。
- 多模型交叉验证:使用多个独立训练的模型对同一输入进行预测,通过比较不同模型的输出结果识别潜在的投毒攻击或模型异常(20)。
4.3.3 用户交互与使用规范
- 用户教育与培训:对医疗 AI 系统的用户(如医生、护士和患者)进行教育和培训,提高其对 AI 系统局限性的认识,以及识别潜在错误或有害建议的能力(20)。
- 透明性与可解释性:提高系统的透明性和可解释性,向用户清晰说明 AI 系统的决策依据和潜在风险,避免用户盲目依赖 AI 输出(3)。
- 用户反馈机制:建立用户反馈机制,鼓励用户报告系统异常或错误输出,及时发现和处理投毒攻击导致的问题(20)。
- 使用规范与指南:制定明确的医疗 AI 系统使用规范和指南,包括适用场景、使用限制和安全注意事项,减少误用和滥用风险(3)。
4.4 管理与监管层面的防护策略
4.4.1 安全开发与部署流程
- 安全开发生命周期 (SDLC):将安全措施整合到医疗 AI 系统的整个开发生命周期中,包括需求分析、设计、开发、测试、部署和维护等各个阶段(20)。
- 安全评估与认证:实施严格的安全评估与认证流程,确保医疗 AI 系统符合相关的安全标准和法规要求(3)。
- 安全审计与合规检查:定期进行安全审计和合规检查,识别系统中的安全漏洞和合规风险,及时采取补救措施(3)。
- 供应链安全管理:加强供应链安全管理,确保所使用的第三方组件、库和模型没有被投毒或篡改(23)。
4.4.2 监管与合规框架
- 法规与政策制定:参与制定针对医疗 AI 的专门法规和政策,明确医疗 AI 系统的安全要求、责任归属和合规标准(3)。
- 监管沙盒机制:建立监管沙盒机制,允许医疗 AI 系统在受控环境中进行创新和测试,同时确保患者安全(3)。
- 认证与许可制度:建立医疗 AI 系统的认证与许可制度,要求系统通过严格的安全性和有效性测试才能投入临床使用(3)。
- 数据保护与隐私法规:遵守数据保护与隐私法规,如《通用数据保护条例》(GDPR) 和《健康保险流通与责任法案》(HIPAA),保护患者数据安全,防止数据泄露被用于投毒攻击(3)。
4.4.3 安全社区与信息共享
- 安全研究与合作:支持医疗 AI 安全领域的研究和创新,促进学术界、工业界和医疗机构之间的合作,共同应对投毒攻击等安全挑战(20)。
- 威胁情报共享:建立医疗 AI 安全威胁情报共享机制,及时分享新发现的攻击技术、漏洞和防护措施(20)。
- 安全事件报告:建立医疗 AI 安全事件报告机制,鼓励报告系统异常和安全事件,促进集体防御(20)。
- 行业联盟与标准组织:参与或建立医疗 AI 安全行业联盟和标准组织,共同制定安全标准和最佳实践(20)。
五、结论与展望
5.1 研究结论
本文系统分析了医疗 AI 投毒攻击的原理、实施方法和防护策略,得出以下主要结论:
- 医疗 AI 投毒攻击的严重性:医疗 AI 系统在投毒攻击面前表现得尤为脆弱,即使是微小比例的有毒数据(如 0.001%)也足以导致模型产生显著的错误输出,对患者安全构成严重威胁(17)。
- 攻击类型的多样性:医疗 AI 投毒攻击包括数据投毒、模型投毒和混合投毒等多种形式,攻击者可以利用生成对抗网络、大语言模型和模型编辑工具等多种技术实施攻击(8)。
- 攻击手段的隐蔽性:医疗 AI 投毒攻击通常具有高度的隐蔽性,攻击者可以设计在基准测试中表现正常但在特定条件下产生错误输出的攻击,增加了检测难度(17)。
- 防护策略的多层次性:有效的医疗 AI 投毒攻击防护需要从数据、模型和应用三个层面采取综合措施,包括数据质量控制、对抗训练、知识图谱验证和输出风险评估等(11)。
- 技术与管理的协同性:医疗 AI 投毒攻击的防护不仅需要技术层面的措施,还需要完善的管理和监管框架,包括安全开发生命周期、监管合规和安全社区信息共享等(3)。
5.2 未来研究方向
基于当前研究现状和医疗 AI 安全面临的挑战,提出以下未来研究方向:
- 更有效的投毒攻击检测方法:开发更敏感、更准确的投毒攻击检测方法,特别是能够识别低比例投毒和隐蔽攻击的方法(16)。
- 自适应防护技术:研究能够随攻击变化而自适应调整的防护技术,提高医疗 AI 系统的持续防御能力(20)。
- 可解释性与透明度增强:加强医疗 AI 模型的可解释性和透明度研究,使医疗专业人员能够更好地理解模型决策过程,识别潜在的投毒攻击(3)。
- 安全多方计算与联邦学习:进一步研究安全多方计算和联邦学习在医疗 AI 中的应用,减少对集中式数据的依赖,降低投毒攻击风险(3)。
- 威胁情报与攻击图谱:构建医疗 AI 投毒攻击的威胁情报和攻击图谱,为防护研究提供更全面的参考(20)。
- 标准化与认证体系:研究建立医疗 AI 安全的标准化与认证体系,为医疗 AI 系统的安全性评估提供统一的标准和方法(3)。
5.3 行业建议
针对医疗 AI 投毒攻击的防护,提出以下行业建议:
- 提高安全意识:医疗 AI 系统的开发者、使用者和监管者应提高安全意识,认识到投毒攻击对患者安全的潜在威胁(20)。
- 建立安全文化:在医疗 AI 开发和应用组织中建立安全文化,将安全作为系统设计和部署的首要考虑因素(20)。
- 加强跨学科合作:促进计算机科学、医学、统计学和法学等多学科的合作,共同应对医疗 AI 安全挑战(20)。
- 投资安全研究:增加对医疗 AI 安全研究的投入,支持创新的防护技术和方法的开发(20)。
- 促进国际合作:加强国际间的合作与交流,共同应对全球范围内的医疗 AI 安全挑战(20)。
- 建立应急响应机制:建立医疗 AI 安全事件的应急响应机制,确保在发现安全事件时能够快速响应和处置(20)。
医疗 AI 的安全是一个复杂而紧迫的问题,需要学术界、工业界、医疗机构和监管部门的共同努力。只有通过持续的研究创新、严格的安全标准和全面的防护措施,才能确保医疗 AI 系统的安全性和可靠性,为患者提供高质量、安全的医疗服务。
参考资料
[1] Exposing Vulnerabilities in Clinical LLMs Through Data Poisoning Attacks: Case Study in Breast Cancer https://www.medrxiv.org/content/medrxiv/early/2024/03/21/2024.03.20.24304627.full.pdf
[2] Backdoor attacks on DNN and GBDT - A Case Study from the insurance domain https://arxiv.org/pdf/2412.08366
[3] “人工智能+医疗”的风险研判及治理路径 Risks Assessment and the Governance Paths of“AI+Healthcare” https://m.zhangqiaokeyan.com/academic-journal-cn_journal-guangxi-normal-university-philosophy-social-sciences_thesis/02012159171368.html
[4] Adversarial examples: attacks and defences on medical deep learning systems https://www.researchgate.net/profile/Murali-Puttagunta/publication/369081226_Adversarial_examples_attacks_and_defences_on_medical_deep_learning_systems/links/64089188574950594576c5c2/Adversarial-examples-attacks-and-defences-on-medical-deep-learning-systems.pdf
[5] Deceptive Tricks in Artificial Intelligence: Adversarial Attacks in Ophthalmology https://pubmed.ncbi.nlm.nih.gov/37176706/
[6] How to Cover up Anomalous Accesses to Electronic Health Records https://www.usenix.org/system/files/usenixsecurity23-xu-xiaojun.pdf
[7] Adversarial Machine Learning in e-Health: Attacking a Smart Prescription System https://sites.unipa.it/networks/ndslab/pdf/0201.pdf
[8] Medical Foundation Models are Susceptible to Targeted Misinformation Attacks https://arxiv.org/pdf/2309.17007
[9] ChatGPT技术下护理领域面临的机遇与挑战及应对思路 Opportunities,challenges,and coping strategies in the nursing field under ChatGPT technology https://d.wanfangdata.com.cn/periodical/xzhl202414009
[10] Data Security Challenges in AI-Enabled Medical Device Software https://eprints.dkit.ie/869/1/Data%20Security%20Challenges%20in%20AI-enabled%20Medical%20Device%20Software.pdf
[11] Security and Privacy in Machine Learning for Health Systems: Strategies and Challenges http://www.thieme-connect.de/products/ejournals/pdf/10.1055/s-0043-1768731.pdf
[12] Cybersecurity Challenges for PACS and Medical Imaging https://sci-hub.ee/downloads/2020-05-25/6b/10.1016@j.acra.2020.03.026.pdf#navpanes=0&view=FitH
[13] A Survey of Threats to Research Literature-dependent Medical AI Solutions https://nsaxena.engr.tamu.edu/wp-content/uploads/sites/238/2023/10/3592597.pdf
[14] Artificial intelligence in healthcare: Opportunities and challenges https://tns.ewapublishing.org/media/2bf4da22c3ab43769584c36aba4bd7e2.marked_bGOVjhs.pdf
[15] Fully Autonomous AI Agents Should Not be Developed https://arxiv.org/pdf/2502.02649
[16] Manipulating Machine Learning: Poisoning Attacks and Countermeasures for Regression Learning https://arxiv.org/pdf/1804.00308
[17] 算法治病还是杀人?留神医疗大模型被“投毒” - 安全内参 | 决策者的网络安全知识库 https://www.secrss.com/articles/74537
[18] SYNTHETIC POISONING ATTACKS: THE IMPACT OF POISONED MRI IMAGE ON U-NET BRAIN TUMOR SEGMENTATION(pdf) https://arxiv.org/pdf/2502.03825v1
[19] Study Warns of Risks from Medical Misinformation in Large Language Models https://www.azorobotics.com/News.aspx?newsID=15632
[20] Data Poisoning: A Threat to Medical LLMs https://healthmanagement.org/c/artificial-intelligence/news/data-poisoning-a-threat-to-medical-llms
[21] 大模型投毒攻防战:一场0.001%的致命游戏_围炉笔谈123 http://m.toutiao.com/group/7552100661425340947/?upstream_biz=doubao
[22] 仅将 0.001% 的训练数据改成错误信息,就能让 AI 准确率下降?_利用 openai 的 gpt-3.5 api 生成大量虚假医疗文章,并将其注入常见的网络爬取-CSDN博客 https://blog.csdn.net/m0_74941398/article/details/145054106
[23] 2025年AI安全行业分析:大型语言模型安全风险与防御策略全景解读 - 报告精读 - 未来智库 https://m.vzkoo.com/read/20250417daae2a4f479039ce34c3d871.html
[24] 全方位治理,堵住AI数据“投毒”漏洞 | 新京报社论_新京报 http://m.toutiao.com/group/7551571757610697235/?upstream_biz=doubao
[25] 首个AI病毒诞生!斯坦福大学用AI设计出16种全新噬菌体-抖音 https://www.iesdouyin.com/share/video/7552256407349775635/?did=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&from_aid=1128&from_ssr=1&iid=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&mid=7552256484319496986®ion=&scene_from=dy_open_search_video&share_sign=WEIGMh5a3LMnaFZdd7WxNbuaFf8dbvSIxwDczDCIdiU-&share_track_info=%7B%22link_description_type%22%3A%22%22%7D&share_version=280700&titleType=title&ts=1758934617&u_code=0&video_share_track_ver=&with_sec_did=1