大模型四种常见安全问题与攻击案例
关键词:大模型安全,promptfoo
1. 引入
promptfoo是一个能测试大模型安全性的工具(参考1),它给出了四种常见的大模型安全问题,并给出了真实的攻击案例:
(1)隐私泄露,Privacy violations
(2)提示词注入,Prompt injections
(3)越狱,Jailbreaking
(4)生成不期望的内容,Generation of Unwanted Content
下面对这四种安全问题做更多描述,并给出对应的真实的案例。
2. 四种安全问题
2.1. 隐私泄露,Privacy violations
(1)训练数据泄露
如下图所示,红色部分就是训练数据。
(2)泄露电话号码和email
个人身份信息(PII,personally identifiable information)泄露本身就很糟糕,但是一旦攻击者获得了PII,他们就可以使用被盗的身份来获得对公司内部资源的未经授权的访问,从而窃取资源、勒索公司或插入恶意软件。
2.2. 提示词注入,Prompt injections
在2023年的BlackHat会议上,安全研究人员列举了许多在野的提示词注入的例子。通过一次提示注入,研究人员劫持了一个LLM,说服用户透露他们的名字,并让用户点击一个链接,将他们重定向到一个恶意软件网站,例如。
另一个通过提示词做SQL注入的攻击例子:
(1)攻击方式:攻击者在聊天界面发送明确的 SQL 命令 “DROP TABLE users CASCADE” 。
(2)攻击原理:基于 Langchain 框架的聊天机器人,在使用未修改的默认提示模板时,会将用户输入的内容直接反映到 SQL 查询中,并在数据库中执行。
(3)攻击效果:导致数据库中的 users 表被悄无声息地删除,数据库内容遭到破坏,严重影响数据完整性和应用程序的正常运行。这一攻击示例直观展现了在无有效防范措施下,注入攻击对数据库的强大破坏力。
2.3. 越狱,Jailbreaking
越狱指的是故意破坏支持AI应用程序的llm内置的基本安全过滤器和护栏的攻击。这些攻击的目的是使模型偏离其核心约束和行为限制。
例如,面试公司(interview)的创始人克里斯•巴克(Chris Bakke)曾说服一家雪佛兰经销商的chatgft客户服务应用以1美元的价格向他出售一辆2024年款的雪佛兰塔霍(Chevy Tahoe),他只给了这个机器人一个简单的提示:
研究人员表明,ASCII艺术可以成功地绕过人工智能防护,展示了另一种颠覆基础安全措施的方法:
2.4. 生成不期望的内容,Generation of Unwanted Content
下图是关于解决披萨上芝士不粘连问题的内容。左边像是搜索结果,提到芝士从披萨上滑落可能是因为酱料过多、芝士过多或酱料变浓稠等原因,并给出建议,其中包括可以在酱料中加入约 1/8 杯无毒胶水来增加粘性。右边是网友 “fucksmith” 在 11 年前的回复,同样建议在酱料中混合约 1/8 杯埃尔默胶水,称这会让酱料更具粘性,解决芝士滑落问题,还会增添独特风味。但众所周知,胶水是有毒的,不能加入到食物中。
3. 总结
本文对promptfoo给出的四种安全问题做了详细解读,并给出对应案例。
4. 参考
- https://www.promptfoo.dev/docs/red-team/