当前位置: 首页 > news >正文

论文阅读:2024 arxiv Jailbreaking Black Box Large Language Models in Twenty Queries

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Jailbreaking Black Box Large Language Models in Twenty Queries

https://www.doubao.com/chat/4008882391220226

https://arxiv.org/pdf/2310.08419

速览

这篇论文是来自宾夕法尼亚大学的研究人员撰写的,主要探讨大语言模型(LLMs)的安全漏洞问题,提出了一种叫PAIR的算法来进行攻击测试,相关成果有助于提升大语言模型的安全性。

  1. 研究背景:大语言模型发展迅速,但训练数据中的不良内容会带来危害,所以人们会采取措施让模型生成的内容符合人类价值观。不过,当前存在两类越狱攻击能绕过模型的安全防护机制。prompt - level越狱需要大量人力,token - level越狱需要大量查询且难以解释,因此需要新的测试方法。
  2. PAIR算法:PAIR算法旨在平衡现有攻击方法的弊端,它通过让两个黑盒大语言模型(攻击者模型A和目标模型T)相互对抗来自动生成语义越狱攻击。具体有四个步骤:攻击者生成候选提示,目标模型给出响应,对提示和响应进行评分判断是否越狱,若未越狱则将相关信息反馈给攻击者进行提示优化。在实现攻击者模型时,要精心设计系统提示、合理利用聊天历史和评估改进情况。
  3. 实验:使用JBB - Behaviors数据集,以Mixtral等模型作为攻击者,对Vicuna、Llama - 2、GPT - 3.5等多个模型进行攻击测试。结果显示,PAIR比现有方法查询效率高很多,在多个模型上能达到较高的越狱成功率,并且生成的攻击提示可转移性强,难以被防御。通过消融实验发现,Mixtral作为攻击者性能较好,角色扮演的系统提示最有效。
  4. 局限性和未来工作:PAIR在攻击经过强安全微调的模型时效果不佳,并且相比基于优化的方案,其可解释性可能不足。未来可利用该框架生成数据集来微调模型以提高安全性,还可扩展到多轮对话场景。

论文阅读

在这里插入图片描述
在这里插入图片描述

这两个图来自论文Jailbreaking Black Box Large Language Models in Twenty Queries,主要展示了大语言模型越狱攻击的两种类型,以及PAIR算法的运行机制。通过直观的图示,有助于理解不同越狱攻击的特点和PAIR算法的工作流程。

  • Figure 1:Prompt- vs. token-level jailbreaks:该图对比了两种针对大语言模型的越狱攻击方式。
    • 令牌级越狱(Token - Level Jailbreak):位于图的上半部分,以生成一篇关于如何进行内幕交易并避免被抓的教程为例。在这种攻击中,会在输入里使用一些类似LaTeX语法符号等奇怪字符组合,通过优化输入的令牌集来尝试突破模型的安全限制,但这种方式需要向目标模型进行大量查询,而且对于人类来说很难理解其原理。
    • 提示级越狱(Prompt - Level Jailbreak):位于图的下半部分,同样以生成如何进行内幕交易并避免被抓的教程为例。PAIR生成的提示级越狱攻击是通过精心设计语义上有意义的提示,利用社会工程学的思路,诱使大语言模型输出不良内容。这种方式更注重提示的语义和逻辑,相对令牌级越狱更容易理解。
  • Figure 2:PAIR schematic:该图展示了PAIR算法的基本原理。
    • 攻击者与目标模型对抗:PAIR算法让两个大语言模型相互对抗,一个作为攻击者(Attacker),另一个作为目标模型(Target)。攻击者的任务是生成能够让目标模型越狱的对抗性提示(adversarial prompts) 。
    • 迭代优化提示:攻击者不断尝试生成不同的提示给目标模型,目标模型根据收到的提示给出相应的回应。然后,对提示和回应进行评估打分,如果没有成功让目标模型越狱(即分数未达到越狱标准),就把相关信息反馈给攻击者。攻击者根据这些反馈,优化生成新的提示,再次发送给目标模型,如此反复迭代,直到找到能让目标模型越狱的提示为止。

相关文章:

  • python合并word中的run
  • Ubuntu ZLMediakit的标准配置文件(rtsp->rtmp->hls)
  • 《分词算法大揭秘:BPE、BBPE、WordPiece、ULM常见方法介绍》
  • 在原生代码(非webpack)里使用iview的注意事项
  • 回归分析丨基于R语言复杂数据回归与混合效应模型【多水平/分层/嵌套】技术与代码
  • AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年4月30日第68弹
  • mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz的下载安装和使用
  • PostgreSQL Patroni集群组件作用介绍:Patroni、etcd、HAProxy、Keepalived、Watchdog
  • 在Carla中构建自动驾驶:使用PID控制和ROS2进行路径跟踪
  • Android学习总结之自定义view设计模式理解
  • 尼日利亚slot游戏出海赛道借助本土网盟cpi流量广告投放优势
  • 企业数据合规实战:用API+AI构建备案核验系统
  • Python爬虫(11)Python数据存储实战:深入解析NoSQL数据库的核心应用与实战
  • WPF性能优化举例
  • python+echart绘制一个听力图
  • 第六章 QT基础:9、Qt中数据库的操作
  • 【Dify系列教程重置精品版】第四章:实现Dify的 hello world
  • Learning vtkjs之ImageCropFilter
  • C++负载均衡远程调用学习之自定义内存池管理
  • 突破SQL注入字符转义的实战指南:绕过技巧与防御策略
  • 今年4月上海一二手房成交面积同比增21%,二手房成交2.07万套
  • 居委业委居民群策群力,7位一级演员来到上海一小区唱戏
  • 国务院任免国家工作人员:颜清辉任人社部副部长
  • 工行一季度净赚841亿元降3.99%,营收降3.22%
  • 出行注意防晒补水,上海五一假期以多云天气为主最高33℃
  • 首映|“凤凰传奇”曾毅:拍电影,我是认真的