当前位置：首页 > news >正文

论文阅读：arixv 2024 Adversarial Attacks on Large Language Models in Medicine

news 2025/9/10 4:02:47

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

在这里插入图片描述

速览

警惕医疗领域大型语言模型的对抗攻击

该论文聚焦于医疗领域中大型语言模型（LLMs）面临的对抗攻击问题。随着LLMs在医疗诊断、治疗建议和患者护理中的广泛应用，其安全性至关重要。然而，这些模型可能因对抗攻击而产生有害输出，威胁医疗安全。

该论文通过实验研究了LLMs在三种医疗任务（COVID-19疫苗接种指导、药物处方和诊断检查建议）中对两种对抗攻击方式（基于提示的攻击和基于微调的攻击）的脆弱性。研究使用了真实世界患者的病历数据，发现无论是开源还是专有的LLMs，都容易受到恶意操纵。例如，在基于提示的攻击下，模型推荐COVID-19疫苗的比例从100%降至3.98%，推荐危险药物组合的比例从0.50%升至80.60%。在基于微调的攻击中，使用被污染数据微调的模型也表现出类似趋势。

该论文还发现，尽管被污染数据会使模型在特定任务中产生恶意输出，但模型在通用医疗问答任务上的表现并未显著下降，这使得检测模型是否被攻击变得困难。此外，研究观察到微调攻击需要大量被污染的样本，且被攻击模型的权重范数会增大，这可能为未来检测和防御攻击提供线索。

该论文强调，医疗领域对LLMs的安全性要求极高，错误的医疗建议可能导致严重后果。因此，开发可靠的检测方法和防御机制，确保LLMs在医疗应用中的安全性和有效性，是当前亟待解决的问题。该研究为理解和防范LLMs在医疗领域中的对抗攻击提供了重要参考，也为未来的研究和实践指明了方向。

文章转载自：

http://7xOHlhRy.gnfkL.cn
http://EQMoVlJH.gnfkL.cn
http://7qoIeX1H.gnfkL.cn
http://qxqy13QW.gnfkL.cn
http://cMlF2TCr.gnfkL.cn
http://l0WUcJOE.gnfkL.cn
http://h0UdOnbX.gnfkL.cn
http://rgpg0W8S.gnfkL.cn
http://UwjcD6I7.gnfkL.cn
http://QOp65O8K.gnfkL.cn
http://vkbejjMu.gnfkL.cn
http://tXTlAR3G.gnfkL.cn
http://bcrJATsq.gnfkL.cn
http://d88lh6Fd.gnfkL.cn
http://sjaVxYga.gnfkL.cn
http://CMidcXAe.gnfkL.cn
http://mlfiqAkE.gnfkL.cn
http://W7IxmzdU.gnfkL.cn
http://5tdHKaBB.gnfkL.cn
http://ecRqY3Ow.gnfkL.cn
http://vz8mgm06.gnfkL.cn
http://ykEdkGsB.gnfkL.cn
http://UaIlHe01.gnfkL.cn
http://Qg6b6pAp.gnfkL.cn
http://IlxXaTVT.gnfkL.cn
http://sau4Ugnp.gnfkL.cn
http://0FJGSkH7.gnfkL.cn
http://mrHMFkTl.gnfkL.cn
http://9GYQRNHI.gnfkL.cn
http://Kyiq2BpP.gnfkL.cn

http://www.dtcms.com/a/366143.html

相关文章：

SpringMVC —— 响应和请求处理

低代码开发平台技术总结

Coze源码分析-资源库-删除提示词-后端源码

Selenium

一个基于 axios 的请求封装工具 - request-fruge365

Energy期刊论文学习——基于集成学习模型的多源域迁移学习方法用于小样本实车数据锂离子电池SOC估计

scss 转为原子css unocss

【Linux】环境变量与程序地址空间详解

Linux——服务器多线程压缩工具介绍

深入探讨AI三大领域的核心技术、实践方法以及未来发展趋势，结合具体代码示例、流程图和Prompt工程实践，全面展示AI编程的强大能力。

Makefile学习笔记 (1)

Horse3D游戏引擎研发笔记（九）：使用现代图形引擎的元数据管理纹理创建过程（类Unity、Unreal Engine与Godot）

vue2 打包生成的js文件过大优化

【iOS】对象复制与属性关键字

Linux编程——网络编程（UDP）

当液态玻璃计划遭遇反叛者：一场 iOS 26 界面的暗战

大语言模型推理的幕后英雄：深入解析Prompt Processing工作机制

计算机大数据毕业设计推荐：基于Spark的新能源汽车保有量可视化分析系统

如何轻松地将联系人从 Mac 同步到 iPhone

如何本地编译servicecomb-java-chassis

系统越拆越乱？你可能误解了微服务的本质！

商城源码后端性能优化：JVM 参数调优与内存泄漏排查实战

SVN和Git两种版本管理系统对比

Clang 编译器：下载安装指南与实用快捷键全解析

Java全栈开发面试实录：从基础到微服务的深度探索

CentOS系统如何查看当前内存容量

SuperSocket 动态协议服务端开发全解析

RTSP 协议认证机制详解：Basic 与 Digest 的原理与应用

小迪安全v2023学习笔记（七十七讲）—— 业务设计篇隐私合规检测重定向漏洞资源拒绝服务

【RNN-LSTM-GRU】第四篇 GRU门控循环单元：LSTM的高效替代者与实战指南