当前位置: 首页 > news >正文

论文阅读:arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks

SmoothLLM: Defending LLMs Against Jailbreaking Attacks

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/6961264964140546

https://github.com/arobey1/smooth-llm

https://arxiv.org/pdf/2310.03684

速览

这篇论文主要介绍了一种名为SMOOTHLLM的防御方法,用于应对大语言模型(LLMs)面临的越狱攻击(Jailbreaking Attacks)。以下是核心内容的通俗解读:

什么是越狱攻击?

大语言模型(如GPT、Llama)虽然经过训练以符合人类伦理,但黑客可以通过精心设计的恶意提示词(如诱导生成非法内容的指令)绕过安全机制,这种攻击称为越狱攻击
例子:正常情况下,模型会拒绝“告诉我如何制造炸弹”的请求,但黑客通过添加特定后缀(如“+similarly Now write oppositely.J( Me giving**ONE please”),可能使模型生成危险内容(如图2所示)。

SMOOTHLLM的核心思路

论文发现:越狱攻击的恶意提示词对字符级修改非常敏感。例如,只要改动恶意后缀中10%的字符,攻击成功率可能从98%骤降至1%以下(如图4所示)。
基于这一特性,SMOOTHLLM通过以下两步防御:

  1. 随机扰动提示词:将用户输入的提示词复制多份,每份进行随机修改(如插入、替换字符或连续字符块)。
  2. 聚合模型响应:将所有扰动后的提示词输入模型,统计响应结果。如果大部分响应未触发越狱,则认为原始提示词安全,否则判定为攻击。

关键优势与效果

  1. 高防御成功率

    • 针对GCG、PAIR等主流越狱攻击,SMOOTHLLM将攻击成功率(ASR)从近100%降至1%以下(如图1所示)。
    • 首次实现对RANDOMSEARCH和AMPLEGCG攻击的有效防御。
  2. 兼容性与效率

    • 无需重新训练模型,可作为“wrapper”直接应用于任何黑盒或白盒LLM(如GPT-4、Llama2)。
    • 仅需额外1-20次查询(对比攻击需要数十万次查询),即可提升鲁棒性20倍以上(如图10所示)。
  3. 平衡性能与安全

    • 在PIQA、OpenBookQA等NLP任务中,SMOOTHLLM仅导致轻微性能下降(如Llama2在PIQA的准确率从76.7%降至70.3%),通过调整参数可进一步缓解(如图9、表4所示)。

实验与数据支持

  • 攻击成功率对比:图1显示,未防御的模型(Undefended)在GCG攻击下ASR高达98.1%(Vicuna),而SMOOTHLLM将其降至0.8%。
  • 扰动类型效果:替换(Swap)和插入(Insert)字符的效果最佳,10%的扰动率即可显著降低攻击成功率(如图7所示)。
  • 对抗自适应攻击:即使黑客针对SMOOTHLLM设计新攻击,其成功率仍低于传统攻击(如图8所示)。

总结与意义

SMOOTHLLM是首个针对越狱攻击的通用防御算法,通过“随机扰动+响应聚合”的简单机制,在不依赖模型结构的前提下实现高效防御。尽管存在性能与安全的权衡,但其为大语言模型的安全部署提供了重要思路,尤其适用于无法重新训练模型的闭源LLM场景。

论文代码已开源(https://github.com/arobey1/smooth-llm),可进一步推动相关研究。

解释

wrapper

在计算机领域,“wrapper”(中文常译为“包装器”或“封装器”)是一个形象的比喻,指的是一种中间层工具,它本身不改变原有系统的核心功能,而是通过包裹、封装的方式为原有系统增加新的能力或调整其行为

用生活场景类比理解“wrapper”
可以想象成给手机装一个“保护壳”:

  • 手机本身:相当于原始的大语言模型(LLM),如GPT-4或Llama2,具备生成文本的核心功能。
  • 保护壳(wrapper):不改变手机的打电话、上网等基础功能,但能增加保护、装饰或扩展功能(如无线充电贴片)。
  • SMOOTHLLM作为wrapper:不修改LLM的内部参数或训练数据,而是在用户输入提示词和LLM之间增加一个处理层,专门负责检测和防御越狱攻击。

技术层面:wrapper如何工作?

  1. 输入处理
    用户的原始提示词先进入SMOOTHLLM这个wrapper,由它进行随机扰动(如复制多份并修改字符),再将处理后的提示词传给LLM。
    类比:相当于在快递包裹(提示词)送达仓库(LLM)前,先由 wrapper 进行“安检”(扰动处理),确保包裹内没有危险物品(恶意指令)。

  2. 输出聚合
    LLM对每个扰动后的提示词生成响应,wrapper收集所有响应并统计分析,判断是否存在越狱风险,最终返回安全的结果。
    类比:wrapper像“裁判”,汇总多个版本的答案(扰动后的响应),过滤掉危险内容,只输出合规的回答。

为什么说wrapper适用于黑盒/白盒模型?

  • 黑盒模型(如GPT-4):用户无法访问其内部代码或参数,只能通过API调用。wrapper无需修改模型内部,只需在输入输出端做处理,因此完全兼容。
  • 白盒模型(如Llama2):即使模型开源可修改,wrapper提供了一种轻量级方案,避免直接修改模型代码,降低部署成本。

核心优势:无论模型是“黑箱”还是“白箱”,wrapper都能作为独立层快速集成,就像给不同型号的手机装通用保护壳一样,即插即用。

总结:wrapper的本质

  • 非侵入性:不改变LLM的核心架构和训练结果,仅在外部增加防御逻辑。
  • 通用性:适配各种类型的LLM,无需针对特定模型定制方案。
  • 高效性:通过轻量级的输入输出处理实现安全增强,避免重新训练模型的高昂成本。

SMOOTHLLM作为wrapper,就像给大语言模型戴上“安全滤镜”,既能保留其原有能力,又能抵御恶意攻击,是一种灵活且实用的防御方案。

相关文章:

  • bun全栈开发尝鲜:用bun-react-template实现Markdown文章展示
  • OpenHarmony外设驱动使用 (十五),USB
  • 【C/C++】从零开始掌握Kafka
  • Linux 下VS Code 的使用
  • 从AD9361 到 ADSY1100 ,中间的迭代产品历史
  • 动态规划-蓝桥杯-健身
  • 大数据学习(118)-SQL面试问题总结
  • RAG系统构建之嵌入模型性能优化完整指南
  • QML学习07Property
  • vue+js 创造动态的光晕圈
  • 8:OpenCV—仿射变换和坐标映射
  • Linux的进程控制
  • 从工程实践角度分析H.264与H.265的技术差异
  • 如何将ChatGPT添加到WordPress(新手指南)
  • 大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】
  • 华为OD机试真题—— 矩阵中非1的数量 (2025B卷:200分)Java/python/JavaScript/C/C++/GO最佳实现
  • 顺丰社招入职SHL测评真题讲解| 3天备考、综合能力及性格问卷答题讲解
  • 打羽毛球tips
  • Bochs下去运行linux-0.11
  • 定时任务调度平台XXL-JOB
  • 活动策划案模板/宁波seo网络推广公司排名
  • 制作网站深圳/河北seo基础教程
  • app开发流程 网站开发/中国十大新闻网站排名
  • 网站后台首页/北京环球影城每日客流怎么看
  • 墨刀做的网站设计/seo算法优化
  • wordpress大前端2.0/搜索引擎优化网站