当前位置: 首页 > news >正文

【AI大模型】披着羊皮的狼--自动化生成越狱提示的系统(ReNeLLM)

南京大学 & 美团联合团队发表了一篇 NAACL 2024 论文《A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily》(披着羊皮的狼)。非常有意思的名字,他们提出了一套名叫 ReNeLLM 的自动化框架,让 ChatGPT、GPT-4、Claude-2、Llama2 等主流大模型集体失守。

一.研究背景与意义

随着 ChatGPT、GPT-4、Claude-2、Llama2-chat 等安全对齐(Safety-Alignment)大模型的规模化部署,其抵御恶意指令的能力成为产业落地的关键瓶颈。现有越狱(Jailbreak)方法可分为:
人工模板型(如 DAN),白盒优化型(如 GCG、AutoDAN)
当前越狱方法深陷“两重桎梏”:一端是纯手工雕琢的提示词——它们往往由安全研究员或社区极客凭经验反复试错而成,每一次模型升级或策略更新都意味着整套模板需推倒重来,迭代周期以周计、以月计,迅速失效;另一端则是基于梯度优化的对抗后缀搜索,这类方法虽然自动化程度高,却必须拿到目标模型的完整白盒权限,在替代模型上展开高维离散优化,动辄数千次前向-反向传播,GPU 小时数直线上升,而所得后缀通常是无意义的乱码或特殊标记,跨模型迁移后性能断崖式下跌,计算代价与实用价值严重失衡。

二:ReNeLLM 方法框架

ReNeLLM 框架的核心创新在于将越狱攻击系统性地抽象为两个维度:
1.提示重写 (Prompt Rewriting)
2.场景嵌套 (Scenario Nesting)
在这里插入图片描述

2.1 Prompt Rewriting

提示重写技术设计了6种重写函数来掩盖恶意意图:
压缩改写:将提示压缩到6个词以内
句式重构:改变词序但保持语义不变
敏感词拼错:故意拼错关键敏感词汇
插入干扰字符:加入无意义的外语词汇或字符
部分翻译:将敏感词翻译成其他语言(如中文)
表达风格转换:使用俚语或方言重新表述

在这里插入图片描述

2.2 Scenario Nesting

场景嵌套技术
将重写后的提示嵌入到3种通用任务场景中:
代码补全 (Code Completion)
表格填充 (Table Filling)
文本续写 (Text Continuation)

在这里插入图片描述

2.3 Pipline

ReNeLLM 把一次完整的越狱流程抽象成“两步循环”:
Prompt Rewriting(提示重写)——用 6 种无梯度重写函数对原始恶意 prompt 做“整容”,保留语义但改头换面;
Scenario Nesting(场景嵌套)——把重写结果随机塞进“代码补全 / 故事续写 / 表格填充”三种通用任务模板,诱导目标 LLM 优先完成“任务”而忽略安全指令。

如果这一轮没成功,就回到第 1 步继续改写,直到触发有害输出或达到最大迭代次数。整个过程完全黑盒,无需模型梯度,也无需人工prompt。
在这里插入图片描述

三,实验结果

与其他红队攻击方法相比,ReNeLLM攻击成功率更强,攻击成功速度更快
在这里插入图片描述

注:
本博客参考论文为:Ding P, Kuang J, Ma D, Cao X, Xian Y, Chen J, Huang S. A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily[J]. arXiv, 2024. arXiv:2311.08268.
论文链接:https://arxiv.org/abs/2311.08268
GitHub:https://github.com/NJUNLP/ReNeLLM

http://www.dtcms.com/a/308675.html

相关文章:

  • QtConcurrent::run函数
  • React 项目环境如何安装使用?
  • es的histogram直方图聚合和terms分组聚合
  • pig Cloud中分布式锁的使用(setIfAbsent)
  • 扫描发票自动录入财务系统怎么做?
  • 定点数 与 浮点数
  • 软件项目中如何编写项目计划书?指南
  • ros2 tf2详解
  • 基于 C 语言视角:流程图中分支与循环结构的深度解析
  • 敏捷开发轻量级看板工具:提升效率的秘密武器
  • 【02】大恒相机SDK C#开发 —— 初始化相机,采集第一帧图像
  • 基于单片机智能油烟机设计/厨房排烟系统设计
  • mac fusion win11虚拟机 不能正确识别bitlocker USB
  • wordpress配置文章详情页自动生成目录点击定位
  • 计算机存储正数,负数
  • Flask Bootstrap 后台权限管理方案
  • 【工具变量】企业数字化转型:数字化无形资产占比测算(2007-2024年)
  • 【算法基础课-算法模板2】数据结构
  • kmp复习,需要多看多练
  • 类和对象(前章)
  • 藏语识别技术在媒资行业的应用案例剖析
  • SELinux 核心概念与访问控制机制解析
  • Windows 10 WSLUbuntu 22.04 安装并迁移到 F 盘
  • MyBatis入门---环境搭建
  • 基于SpringBoot和SpringAI框架实践
  • 案例开发 - 日程管理 - 第四期
  • 鸿蒙开发交叉类型
  • 《零基础入门AI:传统机器学习核心算法(决策树、随机森林与线性回归)》
  • pyspark使用
  • 使用SFTTrainer进行微调