当前位置：首页 > news >正文

AI隐式标识‌中的红绿名单水印技术通俗讲解

news 2025/10/29 7:12:28

引言
一、显式标识‌和‌隐式标识‌。
- 1.1 显式标识技术方案
- - 文本标识‌
  - 多媒体标识‌
- 1.2 隐式标识技术方案
- - 元数据嵌入‌
  - 数字水印技术‌
二、隐式标识技术方案
- 2.1 元数据嵌入类
- - 文件头部元数据‌
  - 哈希指纹‌
- 2.2 数字水印类
- - 频域水印‌
  - 空域水印‌
- 2.3 生成特征植入
- - 模型参数标记‌
  - 区块链存证‌
- 2.4 文件结构标记
三、红绿名单水印技术
- 3.1 技术属性
- - 隐式标识定义‌
  - 实现原理‌
  - 核心原理
- 3.2 法规适用性
- 3.3 应用场景

引言

在AI井喷的时代，AI的规范也越来越受到关注。小马最近关注到的《人工智能生成合成内容标识办法》中提到的‌隐式标识‌，感觉挺有意思的，尤其是红绿名单水印技术，小马将会对此原理的理解通俗解释一下，特此整理分享。

在这里插入图片描述

一、显式标识‌和‌隐式标识‌。

《人工智能生成合成内容标识办法》于‌2025年3月14日‌由国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布，自‌2025年9月1日‌起正式施行。这是为规范人工智能生成内容而制定的政策文件，其中核心要点提到标识类型：显式标识‌和‌隐式标识‌。

显式标识‌：通过文字、声音、图形等方式在内容或界面中添加显著提示，如文本开头/结尾标注“人工智能生成”，音频/视频添加语音或画面提示。 ‌

隐式标识‌：通过技术手段在内容文件中嵌入不易被用户察觉的标识，例如在文件元数据添加“AIGC”标识符号。

1.1 显式标识技术方案

文本标识‌

在起始、末尾或中间插入文字提示（如“AI生成”标签）或通用符号（如“#AI”）‌；
交互界面中通过高亮边框或弹窗提示用户‌。

多媒体标识‌

音频：在开头/结尾添加语音提示或节奏标记‌；
视频：在起始画面叠加半透明水印或角标；
图片：在角落添加固定格式的标识图章‌。

小马认为显示标识还是比较直观好理解的，比如视频水印。

1.2 隐式标识技术方案

元数据嵌入‌

在文件元数据中添加不可见标识，包含内容属性、服务提供者编码、内容编号等信息‌。

文本：通过特定词汇分布或标点模式生成隐式指纹；
音频/视频：在编码数据中嵌入不可感知的标识（如特定频率波纹或像素扰动）。

数字水印技术‌

图片/视频：通过算法修改像素或帧数据，添加肉眼不可见的编码；
音频：在背景噪声层嵌入可检测的声纹信号。

下面小马就来一起看看隐式标识技术方案有哪些。

二、隐式标识技术方案

隐式标识技术方案主要包括以下类型，均需符合《人工智能生成合成内容标识办法》对不可感知性、可追溯性和抗篡改性的要求‌：

2.1 元数据嵌入类

文件头部元数据‌

在EXIF/IPTC等元数据字段中嵌入生成方编码、时间戳及唯一ID，支持跨格式解析‌。

哈希指纹‌

通过SHA-256等算法生成内容校验值，用于防篡改验证。

2.2 数字水印类

频域水印‌

在音频/视频的DCT变换域嵌入编码信号，抗压缩性强‌。

空域水印‌

LSB隐写‌：修改图像/音频最低有效位嵌入信息‌；
红绿名单水印‌：通过调整生成模型的词汇采样概率植入统计特征。

2.3 生成特征植入

模型参数标记‌

控制生成时的温度参数或采样策略，在文本中植入特定统计模式。

区块链存证‌

将内容哈希值上链实现不可篡改溯源。

2.4 文件结构标记

在PDF/Word等文件的隐藏层或注释区添加标识信息。

以上方案需与显式标识协同使用，确保内容可追溯‌。

三、红绿名单水印技术

红绿名单水印属于隐式标识的典型技术实现方式之一‌。其核心特征是通过在AI生成过程中动态调整词汇采样概率（如优先选择“绿色名单”词汇），在文本中植入统计特征，实现不可见但可检测的标识效果‌。具体关联性如下：

3.1 技术属性

隐式标识定义‌

根据《标识办法》，隐式标识需通过技术手段在文件数据中添加不易被用户感知的标识‌，而红绿名单水印通过修改生成模型的logits分布实现，完全符合该定义‌。

实现原理‌

绿色名单‌：动态生成允许优先采样的词汇子集；
红色名单‌：限制或标记特定词汇的生成概率；
通过统计检测（如z值分析）验证水印存在性‌。

核心原理

通过将词表划分为“红色”（低概率/禁止生成）和“绿色”（高概率/推荐生成）两个子集，利用哈希值随机划分机制动态调整生成概率。例如，在生成第t个token时，根据前一个token的哈希值随机划分词表，将高概率词汇归入绿色集合（G），低概率词汇归入红色集合（R），从而在文本中嵌入隐形标记。 ‌‌

词表划分‌
将语言模型的词表分为绿色集合（高概率生成词）和红色集合（低概率词），比例通常为1:1‌。生成每个token时，通过哈希函数动态划分词表，确保统计特征可检测。
嵌入流程‌
生成第t个token时，用前一个token的哈希值作为随机种子划分词表‌。
优先选择绿色集合中的词，若选择红色集合词则标记为异常。
实现步骤
准备词表‌
按领域需求标注红绿词，例如学术写作中专业术语设为绿词，口语化表达设为红词‌。
生成水印‌
通过大模型生成文本时，强制按红绿词表概率分布输出，形成统计特征‌。
检测验证‌
使用相同哈希算法和词表，检测文本中红绿词分布是否符合预期模式‌。

其实小马觉得可以这么通俗地理解：假设AI现在要生成一句话，那么它会把相关的词列出来并划分成红绿词组。

比如AI将生成这句话：我很喜欢打篮球，因为可以锻炼身体。

那么它会先拉出词汇表，并先划分成红绿词。绿词库可能就是：我，喜欢，玩，篮球，可以，促进，身体。
红词库可能就是：俺，很，爱，打，排球，因为，锻炼，健康。

我们可以发现，根据我们目标生成的语句我很喜欢打篮球，因为可以锻炼身体。，红词库和绿词库的使用概率正常情况下是1:1。

如果此时加上水印，AI输出的句子可能就变成我很喜欢玩篮球，可以促进身体健康。，我们发现绿词库的词比例明显增多超过正常的50%。根据AI模型只用的加密密钥，算出绿名单和红名单出现的概率，然后和被检测的文本做对比，如果一致的话便可以认为是AI模型生成的。

这里只是一个例子，在字数多的情况下，这个算法对AI模型输出的影响就会越小。好处就是这种方法比之前的一些旧办法，比如截取文章上部分让AI续写再对比下一部分相似度或者是根据AI的表达习惯倾向来判断是否AI生成明显误判率少得多。
很显然，这种方法通过手抄或拍照是破解不了水印的，因为原理就摆在那。