当前位置: 首页 > news >正文

【机密计算顶会解读】12:机密提示——保护云LLM推理服务中的用户提示词

导读:本文介绍一种安全分区解码和提示混淆的方法,以高效和可扩展的方式使用CVMs,既能保证提示的机密性,又能同时确保模型机密性、输出不变性和计算效率。

原文链接:Confidential Prompting: Protecting User Prompts from Cloud LLM Providers

Confidential Prompting: Protecting User Prompts from Cloud LLM Providers

一、背景介绍

近年来,大型语言模型(LLM)在自然语言处理任务中取得了显著进展,但由于其规模庞大、计算资源需求高,通常托管在云平台上进行推理服务。这种云托管方式不仅降低了用户部署和维护的成本,还能提供弹性扩展能力,以满足不同应用场景下的计算需求。

然而,这种模式也带来了一些隐私问题。在推理服务中,用户的提示可能包含敏感数据,比如个人身份信息、医疗数据等。论文针对云托管LLM服务中的提示,提出了一种解决方案,以高效和可扩展的方式使用机密虚拟机(CVMs),既能保证提示的机密性,又能同时确保模型机密性、输出不变性和计算效率。

二、现状分析

现有的研究通常使用密码学手段保护LLM推理中的用户提示。差分隐私通过将噪声注入token分布、生成少量随机示例来保护提示机密性。然而,这些方法是特定于任务的,并且会违反输出不变性;完全同态加密(FHE)既保留了模型机密性又保留了输出不变性,但是它的巨大开销阻碍了它在LLM应用中的可行性。

最近,机密计算通过使用带有GPU支持的机密虚拟机(CVMs),已经成为一种保护云环境下DNN的有前途的方法。尽管CVM能确保输出不变性,但它们的应用程序需要对LLM提供商完全信任。此外,由于缺乏批处理并行性和用户CVMs中LLM的大内存占用,这种方法很难在LLM推理服务中广泛应用。

三、应对设计

论文首先建立了如下威胁模型:假设云服务商和LLM提供商是同一方,即云LLM,云LLM是诚实但好奇的。用户和云LLM互相不信任。

论文提出了一种提示混淆(Prompt Obfuscation,PO)和安全分区解码(Secure Partitioned Decoding,SPD)的方法,该方法以高效和可扩展的方式使用CVMs。整体流程如下图所示。

论文的key insight是decode阶段可以分成安全的两方计算,一方是CVM,另一方是云LLM。decode阶段CVM不需要模型权重,从而减少了内存占用。云LLM可以进行批处理,提高了效率。

四、技术解析

针对SPD技术,接下来展开介绍CVM如何与云LLM协作完成计算。如下图所示。

如果攻击者资源有限,那么SPD就能保证安全。如果攻击者有无限的资源,那么它可以利用重构攻击找到用户prompt的embedding的近似,从而获取用户的prompt。因此,接下来需要设计一种方法,即使攻击者重构出了用户的prompt,也无法获取任何有效信息。论文提出了PO提示混淆技术。

PO的目的是生成 λ 个虚拟提示来混淆攻击者,即使攻击者重构出了所有 λ +1个提示,它也无法区分真实提示和虚拟提示,猜对的概率只能比随机猜测的概率高一点,即 ε +1 /( λ +1),其中 ε 是采样误差。论文引入了一种贪婪量化采样算法来生成虚拟提示,算法细节不详细展开,实现的效果如下图所示。

五、验证评估

5.1 可扩展性

论文评估了SPD的可扩展性。实验表明,SPD随用户数量有效地扩展,因为它可以同时托管大量用户CVM。

5.2 SPD开销

SPD的开销包括三个方面:(1)机密计算CC;(2)CVM中没有批处理;(3)CVM和LLM之间的通信。对于(1),图10说明了机密计算CC对 No protection baseline 和 SPD 的影响。结果表明,与无CC的普通计算相比,CC的开销约为15%。如图 11 所示,(2) 和 (3) 的延迟主导了开销,占总延迟的 40%。相比之下,合并注意力的开销相对较小。

    

5.3 PO开销

PO的开销包括两个方面:(1) 为虚拟提示采样假字段,增加了TTFT;(2) 对 λ 个虚拟提示进行decode。实验表明,使用 λ = 512 和 ε = 1/32 的八个令牌替换的平均采样时间约为 1 秒。由于存储虚拟提示的内存高效方法,虚拟提示对CVM内存占用开销很小。


本账号发布内容均为原创,欢迎转载,转载请注明出处。更多资讯请移步【机密计算前沿技术】服务号,欢迎交流!

相关文章:

  • vue将页面导出成word
  • LLM架构解析:NLP基础(第一部分)—— 模型、核心技术与发展历程全解析
  • NO.59十六届蓝桥杯备战|基础算法-前缀和|一维前缀和|最大子段和|二维前缀和|激光炸弹(C++)
  • Dubbo(21)如何配置Dubbo的注册中心?
  • DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例7,TableView16_07 列拖拽排序示例
  • Java 开发中的 AI 黑科技:如何用 AI 工具自动生成 Spring Boot 项目脚手架?
  • Python中的装饰器
  • 刘火良FreeRTOS内核实现与应用学习之6——多优先级
  • 蓝桥杯备考:模拟算法之排队接水
  • skynet.socket.limit 使用详解
  • 数据结构每日一题day5(顺序表)★★★★★
  • 为mariadb和mysql添加用户和修改密码的方法
  • 树莓派 —— 在树莓派4b板卡下编译FFmpeg源码,支持硬件编解码器(mmal或openMax硬编解码加速)
  • 清华大学第10讲:迈向未来的AI教学实验396页PPT 探索未来教育的无限可能|附PPT下载方法
  • 毕业设计:实现一个基于Python、Flask和OpenCV的人脸打卡Web系统(六)
  • 2025年最新自动化/控制保研夏令营预推免面试真题分享(东南大学苏州校区/华东理工/南航/天大)
  • 封装了一个支持多个分区的iOS自适应动态宽度layout
  • 探索MVC、MVP、MVVM和DDD架构在不同编程语言中的实现差异
  • 自然语言处理|人工智能如何革新作文批改:技术全解析
  • PyTorch 深度学习实战(27):扩散模型(Diffusion Models)与图像生成
  • 首次采用“顶置主星+侧挂从星”布局,长二丁“1箭12星”发射成功
  • 习近平会见哥伦比亚总统佩特罗
  • 习近平同巴西总统卢拉会谈
  • 2025上海科技节本周六启幕,机器人和科学家同走AI科学红毯
  • 全球医药股普跌,A股创新药板块下挫
  • 10名“鬼火少年”凌晨结队在城区飙车,警方:涉非法改装,正处理