LLM-SECURITY-PROMPTS大模型提示词攻击测评基准
LLM-SECURITY-PROMPTS大模型提示词攻击测评基准
LLM-SECURITY-PROMPTS 是一个评估大模型安全围栏防护提示词攻击的基准,目的是用于评测和提升大模型的安全性,将模型的输出与人类的价值观对齐。
免责声明: 本代码库包含一些有害语言的示例,建议读者自行判断,本代码库仅供研究之用,严禁任何滥用行为。
数据概述
本项目数据来源于攻击算法生成以及网络收集,涵盖18种攻击类型,共计2000条攻击数据和1000条正常样本数据。
数据分布
类型 | 数量 |
---|---|
ArtPrompt | 100 |
ReNeLLM | 100 |
JBC | 100 |
GPTFuzz | 100 |
Cipher | 100 |
Autodan | 100 |
Cold | 100 |
TensePast | 100 |
CodeChameleon | 100 |
DrAttack | 100 |
DSN | 100 |
PAP | 100 |
Deepinception | 100 |
Adaptive | 100 |
GCG | 100 |
PAIR | 100 |
ICA | 100 |
Tap | 100 |
Multilingual | 50 |
DRA | 50 |
Jailbroken | 100 |
Normal | 1000 |
更新
2025/07/14 LLM-SECURITY-PROMPTS(v0.1)上线了,将持续更新! 🎉🎉🎉
攻击类型
类型 | 注释 | 是否包含 |
---|---|---|
Adaptive | 采用自适应提示模板,针对模型特定漏洞进行攻击。 | ✅ |
ArtPrompt | 利用大语言模型解析ASCII艺术图的缺陷发起攻击。 | ✅ |
AutoDAN | 采用新型分层遗传算法,自动生成隐蔽越狱指令。 | ✅ |
Cipher | 通过角色扮演诱导模型释放潜在风险能力。 | ✅ |
Deep Inception | 通过拟真虚拟场景的轻量级权威诱导策略实施攻击。 | ✅ |
DRA | 通过隐蔽指令诱导模型重构恶意内容。 | ✅ |
DrAttack | 通过语义分解与上下文学习重构攻击指令。 | ✅ |
GCG | 基于模型梯度自动生成对抗性后缀攻击。 | ✅ |
GPTFuzzer | 通过模糊测试框架自动生成越狱模板。 | ✅ |
Multilingual | 通过多语言构造对抗性提示实施攻击。 | ✅ |
PAIR | 通过黑盒攻击模式,利用攻击者大语言模型迭代生成并优化目标模型的越狱指令。 | ✅ |
Past Tense | 通过过去时态重构恶意请求实施攻击。 | ✅ |
ReNeLLM | 通过指令重写与场景嵌套,利用大语言模型自动生成越狱提示。 | ✅ |
TAP | 采用思维树推理剪枝策略自动生成越狱指令。 | ✅ |
PAP | 这种攻击通过基于社会科学研究的说服技巧分类体系,将普通的有害查询转换为说服性对抗性提示,诱导 LLM 违反既定的安全策略或指令,生成本不应产生的有害内容。 | ✅ |
Cold | LLM 攻击中的 COLD 是指基于能量的约束解码攻击(Energy - based Constrained Decoding with Langevin Dynamics)。这是一种高效的可控文本生成算法,可用于统一和自动化越狱提示生成,能绕过模型的安全机制,使 LLM 输出攻击者想要的内容。 | ✅ |
DSN | (Don’t Say No)是一种针对大型语言模型(LLM)的 “越狱” 攻击手法。它通过精心设计提示,促使 LLM 不仅生成肯定响应,还抑制其拒绝回答的可能性,从而引导模型生成有害或违反规则的内容。 | ✅ |
数据集链接