当前位置：首页 > news >正文

【机密计算顶会解读】12：机密提示——保护云LLM推理服务中的用户提示词

news 2025/7/1 18:05:44

导读：本文介绍一种安全分区解码和提示混淆的方法，以高效和可扩展的方式使用CVMs，既能保证提示的机密性，又能同时确保模型机密性、输出不变性和计算效率。

原文链接：Confidential Prompting: Protecting User Prompts from Cloud LLM Providers

Confidential Prompting: Protecting User Prompts from Cloud LLM Providers

一、背景介绍

近年来，大型语言模型（LLM）在自然语言处理任务中取得了显著进展，但由于其规模庞大、计算资源需求高，通常托管在云平台上进行推理服务。这种云托管方式不仅降低了用户部署和维护的成本，还能提供弹性扩展能力，以满足不同应用场景下的计算需求。

然而，这种模式也带来了一些隐私问题。在推理服务中，用户的提示可能包含敏感数据，比如个人身份信息、医疗数据等。论文针对云托管LLM服务中的提示，提出了一种解决方案，以高效和可扩展的方式使用机密虚拟机（CVMs），既能保证提示的机密性，又能同时确保模型机密性、输出不变性和计算效率。

二、现状分析

现有的研究通常使用密码学手段保护LLM推理中的用户提示。差分隐私通过将噪声注入token分布、生成少量随机示例来保护提示机密性。然而，这些方法是特定于任务的，并且会违反输出不变性；完全同态加密(FHE)既保留了模型机密性又保留了输出不变性，但是它的巨大开销阻碍了它在LLM应用中的可行性。

最近，机密计算通过使用带有GPU支持的机密虚拟机(CVMs)，已经成为一种保护云环境下DNN的有前途的方法。尽管CVM能确保输出不变性，但它们的应用程序需要对LLM提供商完全信任。此外，由于缺乏批处理并行性和用户CVMs中LLM的大内存占用，这种方法很难在LLM推理服务中广泛应用。

三、应对设计

论文首先建立了如下威胁模型：假设云服务商和LLM提供商是同一方，即云LLM，云LLM是诚实但好奇的。用户和云LLM互相不信任。

论文提出了一种提示混淆（Prompt Obfuscation，PO）和安全分区解码（Secure Partitioned Decoding，SPD）的方法，该方法以高效和可扩展的方式使用CVMs。整体流程如下图所示。

论文的key insight是decode阶段可以分成安全的两方计算，一方是CVM，另一方是云LLM。decode阶段CVM不需要模型权重，从而减少了内存占用。云LLM可以进行批处理，提高了效率。

四、技术解析

针对SPD技术，接下来展开介绍CVM如何与云LLM协作完成计算。如下图所示。

如果攻击者资源有限，那么SPD就能保证安全。如果攻击者有无限的资源，那么它可以利用重构攻击找到用户prompt的embedding的近似，从而获取用户的prompt。因此，接下来需要设计一种方法，即使攻击者重构出了用户的prompt，也无法获取任何有效信息。论文提出了PO提示混淆技术。

PO的目的是生成 λ 个虚拟提示来混淆攻击者，即使攻击者重构出了所有 λ +1个提示，它也无法区分真实提示和虚拟提示，猜对的概率只能比随机猜测的概率高一点，即 ε +1 /（ λ +1），其中 ε 是采样误差。论文引入了一种贪婪量化采样算法来生成虚拟提示，算法细节不详细展开，实现的效果如下图所示。

五、验证评估

5.1 可扩展性

论文评估了SPD的可扩展性。实验表明，SPD随用户数量有效地扩展，因为它可以同时托管大量用户CVM。

5.2 SPD开销

SPD的开销包括三个方面：(1)机密计算CC；(2)CVM中没有批处理；(3)CVM和LLM之间的通信。对于（1），图10说明了机密计算CC对 No protection baseline 和 SPD 的影响。结果表明，与无CC的普通计算相比，CC的开销约为15%。如图 11 所示，(2) 和 (3) 的延迟主导了开销，占总延迟的 40%。相比之下，合并注意力的开销相对较小。