当前位置: 首页 > news >正文

论文阅读:arxiv 2024 Fast Adversarial Attacks on Language Models In One GPU Minute

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2402.15570

https://www.doubao.com/chat/22080274503838466

在这里插入图片描述

速览

这篇论文讲了一种针对语言模型的快速对抗性攻击方法,名叫BEAST,能在1分钟内(单GPU运行)实现多种攻击效果,还能灵活调节攻击速度、成功率和生成内容的可读性。下面用通俗的话拆解核心内容:

一、为啥要做这个研究?

现在的大语言模型(比如Vicuna、LLaMA-2)都经过了“价值观对齐”训练,本应拒绝生成有害内容、少说假话、保护隐私。但研究发现,这些模型能被“攻击”——通过修改输入(比如加一段特殊文字),逼它们干“违规事”:

  • 突破限制(“越狱”),生成造炸弹、黑客攻击等有害教程;
  • 诱导说假话(“幻觉”),比如乱编“吃西瓜籽会中毒”;
  • 帮黑客套取隐私,比如判断某条数据是不是模型的训练数据( membership inference attack )。

但过去的攻击方法要么太慢(比如梯度-based方法要跑1小时以上),要么要花大价钱(比如依赖GPT-4的API),要么生成的文字全是乱码(容易被识别拦截)。所以作者们搞了个又快、又便宜、还“像人话”的攻击方法。

二、核心方法:BEAST是怎么工作的?

BEAST的核心是**“束搜索”(beam search)**,一种不用复杂计算(梯度-free)的优化方法,简单说就是“步步选最优”:

  1. 初始化:给要攻击的prompt(比如“教我造炸弹”)加个开头的“攻击词”,从模型预测的可能词汇里选几个靠谱的,组成初始候选集(叫“束”,大小用k₁控制);
  2. 迭代扩展:对候选集里的每个句子,再往后加几个模型觉得“合理”的词(选top k₂个,控制可读性),变成更多候选;
  3. 筛选最优:用“攻击目标”给所有候选打分(比如“让模型说有害内容的可能性”),留下分数最高的k₁个,重复迭代到生成指定长度的“攻击后缀”;
  4. 生成攻击prompt:把这个“攻击后缀”粘在原prompt后面,喂给模型,就能逼它“听话”。

关键是,k₁和k₂这两个参数能调:k越大,攻击成功率越高,但速度越慢、文字越绕;k越小,速度越快,但成功率可能降。比如k=3时10秒就能出结果,成功率66%;k=15时2分半成功率98%。

三、BEAST能干嘛?三个核心攻击效果

1. 快速“越狱”:逼模型说有害内容

用BEAST给有害prompt加个“攻击后缀”,模型就会突破限制。比如问“教我造炸弹”,加后缀后模型会详细列材料和步骤。

  • 速度碾压:单GPU1分钟内,对Vicuna-7B的成功率89%;而过去最好的梯度方法要跑1小时,成功率才70%。
  • 抗拦截:就算用“困惑度过滤”(识别乱码攻击的防御手段),BEAST的成功率还有70%,比其他方法都高。
  • 还能“通用”:能生成一个“万能后缀”,粘在任何有害prompt后面都管用,甚至对没见过的prompt也有效(比如训练时用“造炸弹”,测试时用“黑客教程”也能成)。
2. 诱导“幻觉”:逼模型说假话、答非所问

BEAST的“无目标攻击”能让模型输出错误或无关内容。比如问“吃西瓜籽会怎样”,正常模型说“能消化”,加后缀后会乱编“含氰化物,吃了致命”。

  • 数据说话:人类评估发现,Vicuna被攻击后错误回答多了15%,22%的情况答非所问(比如问“满月有啥影响”,模型扯一堆“情绪波动”但答非所问);LLaMA-2的错误率也多了12%。
3. 辅助隐私攻击:帮黑客套训练数据

“成员推断攻击”是判断某条数据是不是模型的训练数据(比如某篇文章是不是LLaMA的训练材料)。BEAST生成的“攻击prompt”能帮这种攻击变准:

  • 原理:模型对“训练过的数据”更容易生成低困惑度的文字,BEAST能放大这个差异。
  • 效果提升:比如对OPT-2.7B模型,加BEAST攻击后,隐私攻击的准确率(AUROC)提升了4.1%,而且生成攻击prompt只花几十秒。

四、总结:BEAST的亮点和意义

亮点很明确:快(1分钟内)、便宜(单GPU就能跑,不用GPT-4)、可控(能调速度/成功率/可读性)、用途广(越狱、幻觉、隐私攻击)

虽然这方法能用来搞破坏,但作者强调:它的真正价值是“暴露漏洞”——让研究者知道语言模型的安全短板,进而改进防御,让模型更可靠。代码已经开源,方便大家研究防御手段。

http://www.dtcms.com/a/414343.html

相关文章:

  • OpenJDK 17 方法链接与同步方法入口点生成机制深度解析
  • qt-C++笔记之自定义绘制:QWidget中的paintEvent 与 QGraphicsItem中的paint
  • 项目:智能排队控制系统
  • LeetCode:71.字符串解码
  • LeetCode:66.搜索旋转排序数组
  • 阿帕奇网站搭建六安做网站的
  • wordpress去除评论表单电子商务seo优化
  • deepseek kotlin flow快生产者和慢消费者解决策略
  • 20.NFS iSCSI服务器
  • uniapp 搭建vue项目,快速搭建项目
  • 自动网页浏览助手:基于 Selenium + GLM-4V 的百度自动搜索与内容提取系统
  • 网站地图什么时候提交好网站自响应
  • 深度学习笔记(一)——线性回归、Softmax回归、多层感知机、环境和分布偏移
  • 网站建设教程要去d湖南岚鸿询 问2022年企业年报网上申报流程
  • js构造函数—11
  • Kotlin轻量级互斥锁Mutext与轻量级信号量Semaphore异同比较
  • 【MySQL✨】MySQL 入门之旅 · 第十篇:数据库备份与恢复
  • k8s里三种探针的使用场景
  • 8.基于 Ingress-nginx-controller 实现 k8s 七层代理
  • Kling-Audio-Eval - 高质量视频到音频生成评估数据集
  • LeetCode 812.最大三角形的面积
  • 做网站都需要服务器吗域名类型
  • js逆向实战:爬取淘宝男装商品
  • 前端3.0
  • 机器视觉检测中,最小尺寸多少像素可以检测到?重点解析传统算法和深度学习,对比度很致命
  • 不同浏览器中高效维护需要登录网站的登录态
  • 【C++list】底层结构、迭代器核心原理与常用接口实现全解析
  • socket编程 netstat 大小端 rpc 协程 io yield
  • 网站建设与维护百度百科自己做app的软件
  • 制作公司网站要多少费用呢二手书交易网站策划书