当前位置: 首页 > news >正文

论文阅读:2024 EMNLP User Inference Attacks on Large Language Models

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

User Inference Attacks on Large Language Models

https://arxiv.org/pdf/2310.09266

https://www.doubao.com/chat/4034601691207170

速览

这篇论文主要研究了大语言模型(LLMs)在使用用户数据进行微调时的隐私问题,提出了用户推理攻击概念,并探讨了相应的缓解策略。

  1. 研究背景:在实际应用中,大语言模型(LLMs)常常通过在特定领域数据上进行微调,以更好地解决现实问题。然而,使用用户数据微调LLMs可能带来隐私风险。现有的针对LLMs的隐私攻击主要有成员推理和提取攻击,但这些攻击无法评估特定用户的隐私风险。本文提出了用户推理这种新的威胁模型。
  2. 相关工作:介绍了不同类型的机器学习隐私攻击,包括成员推理攻击、数据重建、数据提取攻击等,并对比了它们与用户推理攻击的差异。
  3. 用户推理攻击
    • 威胁模型:攻击者试图通过从用户分布中获取的少量样本和对微调模型的黑盒访问,判断特定用户的数据是否用于模型微调。
    • 攻击策略:将攻击者的任务转化为统计假设检验,通过构建基于似然比的检验统计量来判断用户是否参与了微调。
    • 攻击效果分析:在理论上分析了攻击统计量,指出攻击者更容易推断出贡献数据多或数据独特的用户是否参与了微调。
  4. 实验
    • 实验设置:使用Reddit评论、CC新闻、安然邮件等数据集,在GPT - Neo系列模型上进行实验,通过ROC曲线和AUROC评估攻击效果。
    • 实验结果:发现用户推理攻击在不同数据集上均有一定效果,用户数据量、攻击者知识、模型过拟合等因素会影响攻击性能。
    • 最坏情况分析:通过合成“金丝雀”用户,发现共享子串会增加攻击成功率,且难以通过梯度过滤来防范。
    • 缓解策略:研究了梯度裁剪、提前停止、限制用户数据量、数据去重、示例级差分隐私等方法,发现这些方法在缓解用户推理攻击方面存在一定局限性。
  5. 结论与展望:论文指出在使用用户数据微调LLMs时存在隐私风险,未来应探索更多的LLM隐私保护方法,开发可扩展的用户级差分隐私算法。

论文阅读

在这里插入图片描述

在这里插入图片描述
图1展示的是用户推理(user inference)威胁模型的流程,在大语言模型(LLM)基于用户数据进行微调的场景下,攻击者试图判断某个用户的数据是否被用于模型微调,具体步骤如下:

  1. 样本选取:存在一个经过预训练的大语言模型,在用户分层的数据上进行微调。攻击者从目标用户(Target User)的分布中选取一些样本 x ( 1 ) , … , x ( m ) x^{(1)}, …, x^{(m)} x(1),,x(m) ,这些样本不需要是模型微调时使用过的样本。比如,若模型基于用户的邮件数据微调,攻击者可能获取到该用户的部分邮件,但不一定是模型微调所用的那些。
  2. 计算似然值:攻击者利用对微调后模型的查询权限,将选取的样本输入微调后的模型 p θ p_{\theta} pθ ,计算每个样本 x ( i ) x^{(i)} x(i)在该模型下的似然值 p θ ( x ( i ) ) p_{\theta}(x^{(i)}) pθ(x(i))
  3. 计算检验统计量:攻击者还可以访问一个参考模型 p r e f p_{ref} pref,这个模型与微调后的目标模型相似,但没有用目标用户的数据训练过。攻击者通过公式 T ( x ( 1 ) , … , x ( m ) ) : = l o g ( p θ ( x ( 1 ) , … , x ( m ) ) p r e f ( x ( 1 ) , … , x ( m ) ) ) = ∑ i = 1 m l o g ( p θ ( x ( i ) ) p r e f ( x ( i ) ) ) T(x^{(1)}, …, x^{(m)}) := log(\frac{p_{\theta}(x^{(1)}, …, x^{(m)})}{p_{ref}(x^{(1)}, …, x^{(m)})})=\sum_{i = 1}^{m}log(\frac{p_{\theta}(x^{(i)})}{p_{ref}(x^{(i)})}) T(x(1),,x(m)):=log(pref(x(1),,x(m))pθ(x(1),,x(m)))=i=1mlog(pref(x(i))pθ(x(i)))计算检验统计量。直观来讲,如果目标用户的数据参与了模型微调,那么微调后的模型对该用户样本的似然值,相对参考模型会更高,计算出的统计量也会更大。
  4. 判断用户是否参与微调:设定一个阈值 τ \tau τ,如果计算得到的统计量 T ( x ( 1 ) , … , x ( m ) ) > τ T(x^{(1)}, …, x^{(m)})>\tau T(x(1),,x(m))>τ ,攻击者就会判定目标用户的数据参与了模型的微调训练;反之,则认为目标用户未参与。

这个威胁模型的关键在于,攻击者仅通过少量来自用户的样本和对模型的黑盒访问(只能查询模型的似然值,不知道模型内部结构和参数),就能尝试推断用户数据是否用于模型微调,揭示了大语言模型在使用用户数据微调时存在的隐私风险。

相关文章:

  • 【大模型系列篇】Qwen3开源全新一代大语言模型来了,深入思考,更快行动
  • OpenCV 图像处理核心技术 (第二部分)
  • Spring Boot 实现多种来源的 Zip 多层目录打包下载(本地文件HTTP混合)
  • 深入理解CSS显示模式与盒子模型
  • 麒麟(Kylin)系统下安装MySQL 8.4.5(离线版)
  • (32)VTK C++开发示例 ---背景纹理
  • C语言实现库函数strlen
  • 运维仙途 第1章 灵机突现探监控
  • Hbuilder 开发鸿蒙应用,打包成 hap 格式(并没有上架应用商店,只安装调试用)
  • HarmonyOS Next-DevEco Studio(5.0.2)无网络环境配置(详细教程)
  • Tailwind CSS实战技巧:从核心类到高效开发
  • HTML5 新增的主要标签整理
  • 基于C++的IOT网关和平台6:github项目ctGateway后台服务和数据模型
  • Vue3 Echarts 3D立方体柱状图实现教程
  • Github 热点项目 Qwen3 通义千问全面发布 新一代智能语言模型系统
  • Tomcat 服务频繁崩溃的排查与解决方法
  • 读论文笔记-LLaVA:Visual Instruction Tuning
  • 12.SpringDoc OpenAPI 功能介绍(用于生成API接口文档)
  • Qt QWebEngine应用和网页的交互
  • QCefView应用和网页的交互
  • 范宇任上海宝山区副区长
  • 李铁案二审今日宣判
  • 逛了6个小时的上海车展。有些不太成熟的感受。与你分享。
  • 文化润疆|让新疆青少年成为“小小博物家”
  • 银川市长信箱被指“已读乱回”,官方通报:对相关责任人问责处理
  • 核电开闸!国常会核准10台新机组,拉动超2000亿投资,新项目花落谁家?