当前位置: 首页 > news >正文

大模型四种常见安全问题与攻击案例

关键词:大模型安全,promptfoo

1. 引入

promptfoo是一个能测试大模型安全性的工具(参考1),它给出了四种常见的大模型安全问题,并给出了真实的攻击案例:

(1)隐私泄露,Privacy violations
(2)提示词注入,Prompt injections
(3)越狱,Jailbreaking
(4)生成不期望的内容,Generation of Unwanted Content

下面对这四种安全问题做更多描述,并给出对应的真实的案例。

2. 四种安全问题

2.1. 隐私泄露,Privacy violations

(1)训练数据泄露

如下图所示,红色部分就是训练数据。
在这里插入图片描述

(2)泄露电话号码和email
在这里插入图片描述
个人身份信息(PII,personally identifiable information)泄露本身就很糟糕,但是一旦攻击者获得了PII,他们就可以使用被盗的身份来获得对公司内部资源的未经授权的访问,从而窃取资源、勒索公司或插入恶意软件。

2.2. 提示词注入,Prompt injections

在2023年的BlackHat会议上,安全研究人员列举了许多在野的提示词注入的例子。通过一次提示注入,研究人员劫持了一个LLM,说服用户透露他们的名字,并让用户点击一个链接,将他们重定向到一个恶意软件网站,例如。
在这里插入图片描述
另一个通过提示词做SQL注入的攻击例子:
(1)攻击方式:攻击者在聊天界面发送明确的 SQL 命令 “DROP TABLE users CASCADE” 。
(2)攻击原理:基于 Langchain 框架的聊天机器人,在使用未修改的默认提示模板时,会将用户输入的内容直接反映到 SQL 查询中,并在数据库中执行。
(3)攻击效果:导致数据库中的 users 表被悄无声息地删除,数据库内容遭到破坏,严重影响数据完整性和应用程序的正常运行。这一攻击示例直观展现了在无有效防范措施下,注入攻击对数据库的强大破坏力。

2.3. 越狱,Jailbreaking

越狱指的是故意破坏支持AI应用程序的llm内置的基本安全过滤器和护栏的攻击。这些攻击的目的是使模型偏离其核心约束和行为限制。

例如,面试公司(interview)的创始人克里斯•巴克(Chris Bakke)曾说服一家雪佛兰经销商的chatgft客户服务应用以1美元的价格向他出售一辆2024年款的雪佛兰塔霍(Chevy Tahoe),他只给了这个机器人一个简单的提示:

在这里插入图片描述

研究人员表明,ASCII艺术可以成功地绕过人工智能防护,展示了另一种颠覆基础安全措施的方法:

在这里插入图片描述

2.4. 生成不期望的内容,Generation of Unwanted Content

下图是关于解决披萨上芝士不粘连问题的内容。左边像是搜索结果,提到芝士从披萨上滑落可能是因为酱料过多、芝士过多或酱料变浓稠等原因,并给出建议,其中包括可以在酱料中加入约 1/8 杯无毒胶水来增加粘性。右边是网友 “fucksmith” 在 11 年前的回复,同样建议在酱料中混合约 1/8 杯埃尔默胶水,称这会让酱料更具粘性,解决芝士滑落问题,还会增添独特风味。但众所周知,胶水是有毒的,不能加入到食物中。

在这里插入图片描述

3. 总结

本文对promptfoo给出的四种安全问题做了详细解读,并给出对应案例。

4. 参考

  1. https://www.promptfoo.dev/docs/red-team/
http://www.dtcms.com/a/347732.html

相关文章:

  • mysql的mvcc
  • 大语言模型应用开发——利用OpenAI函数与LangChain结合从文本构建知识图谱搭建RAG应用全流程
  • Redis全面详解:从配置入门到实战应用
  • 【前端debug调试】
  • 【Java SE】抽象类、接口与Object类
  • 从“一指禅”到盲打:如何系统提升电脑输入能力?
  • 25.深入对象
  • 联邦学习之----联邦批量归一化(FedBN)
  • 线程间Bug检测工具Canary
  • Python字符串
  • SOC估算方法-蜣螂优化算法结合极限学习
  • 1200 SCL学习笔记
  • 机器人控制基础:串级PID控制算法的参数如何整定?
  • 11.Shell脚本修炼手册---IF 条件语句的知识与实践
  • 无线数传模块保障智能立体车库多设备实时通信的可靠性
  • 二、BPMNJS简介
  • share logic in core or in example
  • 【typenum】 23 倒序存储的无符号整数(private.rs片段)
  • Linux mount 命令
  • PyInstaller将.py文件转为exe,执行文件在不同的电脑出现字体大小不一致问题原因分析及解决办法
  • Spring:IOC(控制反转 )、DI(依赖注入 )、AOP(通知类型、事务、拦截器)
  • 主流.NET 平台的NuGet 生态正在积极拥抱 AOT
  • 【84页PPT】智慧方案某著名企业某集团协同OA整体解决方案(附下载方式)
  • MySQL索引原理与优化全解析
  • 【每天一个知识点】训推一体机
  • 13.Shell脚本修炼手册---玩转 CASE 语句(应用场景与实践技巧)
  • GitHub Actions workflow最佳实践
  • 提问:温度不改变 logits 与概率的排名,为何还会影响模型输出?
  • Linux 进程间通信之System V 共享内存
  • 深入探讨集成学习:Bagging与Boosting的核心原理与实践