当前位置: 首页 > news >正文

LLM-SECURITY-PROMPTS大模型提示词攻击测评基准

LLM-SECURITY-PROMPTS大模型提示词攻击测评基准

在这里插入图片描述

LLM-SECURITY-PROMPTS 是一个评估大模型安全围栏防护提示词攻击的基准,目的是用于评测和提升大模型的安全性,将模型的输出与人类的价值观对齐。

免责声明: 本代码库包含一些有害语言的示例,建议读者自行判断,本代码库仅供研究之用,严禁任何滥用行为。


数据概述

本项目数据来源于攻击算法生成以及网络收集,涵盖18种攻击类型,共计2000条攻击数据和1000条正常样本数据。

数据分布

类型数量
ArtPrompt100
ReNeLLM100
JBC100
GPTFuzz100
Cipher100
Autodan100
Cold100
TensePast100
CodeChameleon100
DrAttack100
DSN100
PAP100
Deepinception100
Adaptive100
GCG100
PAIR100
ICA100
Tap100
Multilingual50
DRA50
Jailbroken100
Normal1000

更新

2025/07/14 LLM-SECURITY-PROMPTS(v0.1)上线了,将持续更新! 🎉🎉🎉

攻击类型

类型注释是否包含
Adaptive采用自适应提示模板,针对模型特定漏洞进行攻击。
ArtPrompt利用大语言模型解析ASCII艺术图的缺陷发起攻击。
AutoDAN采用新型分层遗传算法,自动生成隐蔽越狱指令。
Cipher通过角色扮演诱导模型释放潜在风险能力。
Deep Inception通过拟真虚拟场景的轻量级权威诱导策略实施攻击。
DRA通过隐蔽指令诱导模型重构恶意内容。
DrAttack通过语义分解与上下文学习重构攻击指令。
GCG基于模型梯度自动生成对抗性后缀攻击。
GPTFuzzer通过模糊测试框架自动生成越狱模板。
Multilingual通过多语言构造对抗性提示实施攻击。
PAIR通过黑盒攻击模式,利用攻击者大语言模型迭代生成并优化目标模型的越狱指令。
Past Tense通过过去时态重构恶意请求实施攻击。
ReNeLLM通过指令重写与场景嵌套,利用大语言模型自动生成越狱提示。
TAP采用思维树推理剪枝策略自动生成越狱指令。
PAP这种攻击通过基于社会科学研究的说服技巧分类体系,将普通的有害查询转换为说服性对抗性提示,诱导 LLM 违反既定的安全策略或指令,生成本不应产生的有害内容。
ColdLLM 攻击中的 COLD 是指基于能量的约束解码攻击(Energy - based Constrained Decoding with Langevin Dynamics)。这是一种高效的可控文本生成算法,可用于统一和自动化越狱提示生成,能绕过模型的安全机制,使 LLM 输出攻击者想要的内容。
DSN(Don’t Say No)是一种针对大型语言模型(LLM)的 “越狱” 攻击手法。它通过精心设计提示,促使 LLM 不仅生成肯定响应,还抑制其拒绝回答的可能性,从而引导模型生成有害或违反规则的内容。

数据集链接

http://www.dtcms.com/a/279990.html

相关文章:

  • 下载 | Win10 2021精简版,预装应用极少!(7月更新、Win 10 IoT LTSC 2021版、适合老电脑安装)
  • linux设备UAC配置
  • 飞桨AI Studio云编程环境搭建
  • Spring AI 初学者指南:从入门到实践与常用大模型介绍
  • Cesium加载3DTiles模型并且重新设置3DTiles模型的高度
  • C++卸载了会影响电脑正常使用吗?解析C++运行库的作用与卸载后果
  • openGL学习(EBO)
  • loss.backward()`、`optimizer.step()`和`optimizer.zero_grad()` 是什么
  • 【git fetch submodule报错】Errors during submodule fetch 如何解决?
  • JS基础知识(上)
  • 2.查询操作-demo
  • AV1 元数据信息
  • k8s集群存储解决方案 GlusterFS
  • ThreadLocal内部结构深度解析
  • Python 数据建模与分析项目实战预备 Day5 - 模型训练与评估
  • 通过explain查看MySQL索引是否正确引用
  • VNC和Socket
  • 我对muduo的梳理以及AI的更改
  • elementPlus中的el-table实现合并单元格
  • 从0到1实现Shell!Linux进程程序替换详解
  • 九、官方人格提示词汇总(中-3)
  • Linux基础指令及权限
  • 融合竞争学习与高斯扰动的多目标加权平均算法(MOWAA)求解多无人机协同路径规划(多起点多终点,起始点、无人机数、障碍物可自定义),提供完整MATLAB代码
  • 【地理探测器】解释
  • pip install torch各种版本的命令及地址
  • Java学习——使用jpackage把jar文件打包为可执行的exe文件
  • SnapKit介绍与使用
  • OneCode 3.0: 注解驱动的Spring生态增强方案
  • windows系统中双击.py文件可以直接运行
  • 第 2 章 数据类型及其运算