当前位置：首页 > news >正文

大语言模型时代文本水印技术的综述解读

news 2025/9/9 5:37:22

本水印算法对于保护文本内容的版权至关重要。从历史角度看，它们的能力和应用场景曾较为有限。然而，大语言模型（LLMs）的近期进展彻底改变了这些技术。大语言模型凭借其先进的能力，不仅增强了文本水印算法，还产生了运用这些算法来保护自身版权或防止潜在滥用的需求。

本研究对文本水印技术的现状进行了全面综述，涵盖四个主要方面：其一，对不同文本水印技术进行概述与对比；其二，介绍文本水印算法的评估方法，包括其可检测性、对文本或大语言模型质量的影响，以及在针对性或非针对性攻击下的鲁棒性；其三，探讨文本水印技术的潜在应用场景；其四，分析文本水印当前面临的挑战以及未来的发展方向。

这篇综述旨在让研究人员充分了解大语言模型时代的文本水印技术，进而推动该技术的进一步发展。可以看出，随着大语言模型的兴起，文本水印技术迎来了新的发展契机，既在技术层面得到了增强，又在应用需求上有了新的拓展，而这篇综述全面梳理相关内容，能为该领域的研究提供有力的参考与指引，助力其不断向前发展。

第一章引言

文本水印，简单说就是把独特且不易被察觉的标识符（也就是水印）嵌入到文本内容里。这些水印被设计得既扎实可靠，又不惹眼，就是为了在不影响文本可读性或者含义的前提下，确保内容的完整性和所有权能被保留下来。从历史上看，文本水印在好多个领域都发挥过关键作用，像版权保护、文档认证，还有防止剽窃以及未经授权的内容传播这些方面 [41]。随着大语言模型（LLMs）的不断发展，文本水印的技术和应用场景都有了很显著的进步。正如图 1（a）展示的那样，这主要包括利用大语言模型去构建增强版的文本水印算法、把现有的文本水印算法应用到大语言模型上，以及探索在文本生成过程中直接嵌入水印的大语言模型水印技术。大语言模型的蓬勃发展，推动着文本水印领域形成了一片繁荣的研究景象，就如同图 1（b）描绘的。尤其是随着 ChatGPT 的出现，文本水印更是明显地掀起了一股研究热潮。具体来讲，本文就是要探讨大语言模型和文本水印之间的相互作用。

图1

1.1 为何文本水印对大语言模型有益？

近年来，大语言模型（LLMs）在自然语言处理领域取得了显著进展。随着这些大语言模型的参数数量持续增加，它们理解和生成语言的能力也大幅提升。著名的例子有 GPT [80]、BART [50]、T5 [82]、OPT [120]、LaMDA [97]、LLaMA [100] 以及 GPT - 4 [71]。这些大语言模型在各种下游任务中都取得了出色的表现，包括机器翻译 [16, 31, 31, 128]、对话系统 [36, 64, 90, 97] 和代码生成 [69, 70, 103, 111]，还有其他任务 [51, 52, 96, 121]。最近的一项研究甚至表明，GPT - 4 是人工智能通用系统的早期（但仍不完整）版本 [10]。然而，大语言模型的使用带来了几个挑战：

大语言模型的滥用：大语言模型可能被恶意用户利用，来制造虚假信息 [13] 或有害内容 [76] 并在互联网上传播。
知识产权问题：功能强大的大语言模型容易受到模型提取攻击，在这种攻击中，攻击者会提取大量数据来训练新的大语言模型 [7]

为大语言模型生成的文本添加水印，能有效缓解这些问题。水印使得大语言模型生成的文本可被追踪和检测，有助于控制潜在的滥用行为。用带有水印的文本训练新的大语言模型，能够将这些水印嵌入其中，从而减轻模型提取攻击的影响。

1.2 为何大语言模型对文本水印有益？

文本水印的一个关键挑战是在嵌入水印时，不能扭曲原始文本的含义或可读性。传统方法往往难以在不改变文本语义的情况下对其进行修改 [4, 63, 98]。算法需要理解并控制文本语义，这一必要性导致了这种困难。不过，大语言模型极大地改变了这一局面。由于它们对语言语义和语境有先进的把握，所以能助力实现复杂的水印方法，这些方法在嵌入水印时对文本固有含义的影响极小 [2, 119]。这种融合带来了更有效且更隐蔽的水印技术，在嵌入必要水印特征的同时，保留了文本的原始意图。

1.3 为何要对大语言模型时代的文本水印进行综述？

文本水印技术和大语言模型能有效相互促进。这两项技术的相互关联包含以下几个方面：

为大语言模型生成的文本添加水印：大语言模型生成的文本可借助文本水印算法添加水印 [9, 68, 79, 85, 114, 115, 117]。
通过大语言模型嵌入水印：大语言模型自身可被用来在文本中嵌入水印 [2, 119]。
在文本生成过程中直接集成：水印算法可在大语言模型的文本生成过程中直接整合 [42, 56, 57, 84, 110, 124]。

然而，目前缺乏探索大语言模型时代文本水印的综合性研究。现有的综述主要聚焦于大语言模型出现之前发展的水印技术 [3, 41]。在本研究中，据我们所知，我们呈现了首篇在大语言模型背景下对文本水印算法的综合性综述。

本综述的结构如下。第 2 节介绍文本水印的定义和关键算法属性。第 3 节和第 4 节阐述两类主要的文本水印：针对现有文本的和针对大语言模型生成文本的。第 5 节讨论这些算法的评估指标，包括可检测性、对质量的影响以及在水印攻击下的鲁棒性（鲁棒性（Robustness）指的是一个系统、算法、模型或程序等，在面对各种干扰、变化、异常情况时，依然能够保持其性能稳定、可靠运行，并达成预期功能的能力）。第 6 节探索应用场景，即版权保护和人工智能生成文本检测。第 7 节考察文本水印当前存在的挑战以及未来潜在的研究方向。综述在第 8 节总结。

第二章文本水印的基础知识

为便于后续章节介绍各类文本水印算法及其评估方法，本节给出文本水印算法的定义，并概述一个优秀的文本水印算法应具备的特征。同时，本节也会介绍文本水印算法的分类体系。

图2

针对现有文本的水印（Watermarking for Existing Text）

这部分展示了对已有文本进行水印嵌入的过程。以句子 “The stars shimmered in the velvet night sky.” 为例，通过 “Text Transformation（文本转换）” 并结合 “Watermark Message（水印信息）”，衍生出四种基于不同方式的水印类型：

基于格式的（Format based）：如将原句中的 “shimmered” 和 “velvet night sky” 的呈现格式稍作调整（从示例看，可能是对部分词汇的显示样式等进行修改来嵌入水印），得到 “The stars shimmered in the velvet night sky.”（示例中格式类的呈现与原句差异相对细微，侧重格式层面的隐蔽修改）。
基于词汇的（Lexical based）：把原句中的 “shimmered” 替换为同义词 “sparkled”，得到 “The stars sparkled in the velvet night sky.”，通过词汇替换来嵌入水印，同时尽量保持文本语义不变。
基于句法的（Syntactic based）：调整句子的句法结构，原句是 “The stars shimmered in the velvet night sky.”，转换为 “In the velvet night sky, a shimmer was cast by the stars.”，通过改变句子的语法结构（主动变被动等）来嵌入水印。
基于生成的（Generation based）：重新生成语义相近但表述不同的句子，如 “The velvet night embraced as stars shimmered, a celestial ballet.”，通过生成新的文本内容来嵌入水印。

针对大语言模型的水印（Watermarking for LLMs）

这部分又细分为训练时水印（training time watermarking）和推理时水印（inference time watermarking）：

训练时水印：在大语言模型训练过程中，结合 “Watermark Message”，训练得到带有水印的大语言模型（Watermarked LLM）。这样，模型生成的文本天然就带有水印特征。
推理时水印：在大语言模型推理生成文本的过程中嵌入水印，又可分为两个环节：
- 首先是 “Logits Generation” 环节，结合 “Watermark Message” 生成带有水印的下一个词元的对数几率（Watermarked Next Token Logits）。
- 然后是 “Token Sampling” 环节，依据带有水印的下一个词元对数几率（Next Token Logits）和 “Watermark Message”，进行词元采样，最终生成带有水印的下一个词元（Watermarked Next Token）。

总体而言，这张图清晰地呈现了文本水印技术的两大类别及其具体的实现方式，体现了在现有文本和大语言模型场景下，文本水印嵌入的不同思路与流程，有助于理解文本水印技术在不同应用场景下的多样性与针对性。

2.1 文本水印算法

文本水印算法通常包含两个部分：水印生成器\(\mathcal{A}\)和水印检测器\(\mathcal{D}\)。水印生成器\(\mathcal{A}\)以文本x和水印信息w为输入，输出带水印的文本t，表示为\(\mathcal{A}(x, w) = t\)。

带水印的文本t，要么与原始文本x形式不同但语义等价（见第 3 节），要么是响应x而新生成的文本（见第 4 节），尤其是在大语言模型提示词这类场景中。水印信息用w表示，它可以是零比特水印，仅表示水印存在或不存在；也可以是多比特水印，嵌入详细的、定制化的信息。“水印负载” 这个表述指的是w所传递的信息量。

对于水印检测器\(\mathcal{D}\)，它的输入是任意文本t，输出是对该文本预测的水印信息，记为\(\mathcal{D}(t) = w\)。如果输出是 None，就意味着该文本不包含任何水印信息。

2.2 与相关概念的联系

为进一步阐明本文所讨论的文本水印的范围，本节将上述文本水印与其他相关概念区分开来：

隐写术：隐写术 [87] 和文本水印都是信息隐藏的重要方法。尽管二者有相似之处，但隐写术通常需要更高的隐藏信息容量，而水印则更注重对文本进一步修改的鲁棒性。
大语言模型水印：大语言模型水印的概念涵盖了添加到大语言模型上的所有形式的水印，比如模型的参数 [102]、输出嵌入 [75] 以及文本 [42]。本文仅聚焦于应用在大语言模型输出文本上的水印。

2.3 文本水印算法的关键特征

为进一步加深对文本水印概念的理解，本节介绍两个关键特征：对文本质量的低影响性以及对水印移除攻击的鲁棒性。

对文本质量的低影响性：添加水印后，文本质量不应大幅下降。设\(\mathcal{A}(x, \emptyset)\)表示未添加水印时生成的文本。当x是目标文本（见第 3 节）时，输出仍是x；对于给大语言模型的提示词（见第 4 节），它表示大语言模型未添加水印的输出。一个有效的水印算法要确保对文本质量的影响最小： \(\forall w_i, \mathcal{R}(\mathcal{A}(x, \emptyset), \mathcal{A}(x, w_i)) < \delta, \tag{1}\) 其中\(\mathcal{R}\)是从多个角度评估文本质量的函数，这会在第 5 节讨论。\(\delta\)代表一个阈值，如果两个文本的评估分数差异小于该阈值，就认为它们质量相近。

对水印移除攻击的鲁棒性：对于文本水印算法来说，带水印的文本在经过一些修改后仍能被检测到，这一点至关重要。我们用操作\(\mathcal{U}\)表示水印移除操作，这会在第 5 节详细说明。如果一个水印算法能抵御水印移除攻击，它应满足以下条件： \(\forall w_i, \forall \mathbf{t} = \mathcal{A}(x, w_i), P(\mathcal{D}(\mathcal{U}(\mathbf{t})) = w_i) > \beta, \tag{2}\) 其中\(\beta\)是一个阈值。如果文本修改后，正确检测带水印文本的概率超过\(\beta\)，该算法就被认为具有足够的鲁棒性。

此外，文本水印算法还有其他重要特征，会在第 5 节详细讨论。

2.4 文本水印算法的分类

为便于在第 3 节和第 4 节梳理不同的文本水印算法，本节对我们总结的文本水印算法分类进行概述。图 2 将文本水印方法分为两大主要类型。第一种类型是针对现有文本的水印，通过对已有文本进行后处理来嵌入水印，这在第 3 节会详细阐述。该技术通常利用语义不变的转换来整合水印。第二种类型是针对大语言模型（LLMs）的水印，涉及对大语言模型的修改，第 4 节会进一步详细说明。这种方法要么在大语言模型训练过程中嵌入特定特征，要么改变推理过程，从输入提示生成带水印的文本。图 3 呈现了所有文本水印方法更详细的分类。