AI隐式标识中的红绿名单水印技术通俗讲解
目录
- 引言
- 一、显式标识和隐式标识。
- 1.1 显式标识技术方案
- 文本标识
- 多媒体标识
- 1.2 隐式标识技术方案
- 元数据嵌入
- 数字水印技术
- 二、隐式标识技术方案
- 2.1 元数据嵌入类
- 文件头部元数据
- 哈希指纹
- 2.2 数字水印类
- 频域水印
- 空域水印
- 2.3 生成特征植入
- 模型参数标记
- 区块链存证
- 2.4 文件结构标记
- 三、红绿名单水印技术
- 3.1 技术属性
- 隐式标识定义
- 实现原理
- 核心原理
- 3.2 法规适用性
- 3.3 应用场景
引言
在AI井喷的时代,AI的规范也越来越受到关注。小马最近关注到的《人工智能生成合成内容标识办法》中提到的隐式标识,感觉挺有意思的,尤其是红绿名单水印技术,小马将会对此原理的理解通俗解释一下,特此整理分享。

一、显式标识和隐式标识。
《人工智能生成合成内容标识办法》于2025年3月14日由国家互联网信息办公室、工业和信息化部、公安部、国家广播电视总局联合发布,自2025年9月1日起正式施行。这是为规范人工智能生成内容而制定的政策文件,其中核心要点提到标识类型:显式标识和隐式标识。
显式标识:通过文字、声音、图形等方式在内容或界面中添加显著提示,如文本开头/结尾标注“人工智能生成”,音频/视频添加语音或画面提示。
隐式标识:通过技术手段在内容文件中嵌入不易被用户察觉的标识,例如在文件元数据添加“AIGC”标识符号。
1.1 显式标识技术方案
文本标识
在起始、末尾或中间插入文字提示(如“AI生成”标签)或通用符号(如“#AI”);
交互界面中通过高亮边框或弹窗提示用户。
多媒体标识
音频:在开头/结尾添加语音提示或节奏标记;
视频:在起始画面叠加半透明水印或角标;
图片:在角落添加固定格式的标识图章。
小马认为显示标识还是比较直观好理解的,比如视频水印。
1.2 隐式标识技术方案
元数据嵌入
在文件元数据中添加不可见标识,包含内容属性、服务提供者编码、内容编号等信息。
文本:通过特定词汇分布或标点模式生成隐式指纹;
音频/视频:在编码数据中嵌入不可感知的标识(如特定频率波纹或像素扰动)。
数字水印技术
图片/视频:通过算法修改像素或帧数据,添加肉眼不可见的编码;
音频:在背景噪声层嵌入可检测的声纹信号。
下面小马就来一起看看隐式标识技术方案有哪些。
二、隐式标识技术方案
隐式标识技术方案主要包括以下类型,均需符合《人工智能生成合成内容标识办法》对不可感知性、可追溯性和抗篡改性的要求:
2.1 元数据嵌入类
文件头部元数据
在EXIF/IPTC等元数据字段中嵌入生成方编码、时间戳及唯一ID,支持跨格式解析。
哈希指纹
通过SHA-256等算法生成内容校验值,用于防篡改验证。
2.2 数字水印类
频域水印
在音频/视频的DCT变换域嵌入编码信号,抗压缩性强。
空域水印
LSB隐写:修改图像/音频最低有效位嵌入信息;
红绿名单水印:通过调整生成模型的词汇采样概率植入统计特征。
2.3 生成特征植入
模型参数标记
控制生成时的温度参数或采样策略,在文本中植入特定统计模式。
区块链存证
将内容哈希值上链实现不可篡改溯源。
2.4 文件结构标记
在PDF/Word等文件的隐藏层或注释区添加标识信息。
以上方案需与显式标识协同使用,确保内容可追溯。
三、红绿名单水印技术
红绿名单水印属于隐式标识的典型技术实现方式之一。其核心特征是通过在AI生成过程中动态调整词汇采样概率(如优先选择“绿色名单”词汇),在文本中植入统计特征,实现不可见但可检测的标识效果。具体关联性如下:
3.1 技术属性
隐式标识定义
根据《标识办法》,隐式标识需通过技术手段在文件数据中添加不易被用户感知的标识,而红绿名单水印通过修改生成模型的logits分布实现,完全符合该定义。
实现原理
绿色名单:动态生成允许优先采样的词汇子集;
红色名单:限制或标记特定词汇的生成概率;
通过统计检测(如z值分析)验证水印存在性。
核心原理
通过将词表划分为“红色”(低概率/禁止生成)和“绿色”(高概率/推荐生成)两个子集,利用哈希值随机划分机制动态调整生成概率。例如,在生成第t个token时,根据前一个token的哈希值随机划分词表,将高概率词汇归入绿色集合(G),低概率词汇归入红色集合(R),从而在文本中嵌入隐形标记。
-
词表划分
将语言模型的词表分为绿色集合(高概率生成词)和红色集合(低概率词),比例通常为1:1。生成每个token时,通过哈希函数动态划分词表,确保统计特征可检测。 -
嵌入流程
生成第t个token时,用前一个token的哈希值作为随机种子划分词表。
优先选择绿色集合中的词,若选择红色集合词则标记为异常。 -
实现步骤
-
准备词表
按领域需求标注红绿词,例如学术写作中专业术语设为绿词,口语化表达设为红词。 -
生成水印
通过大模型生成文本时,强制按红绿词表概率分布输出,形成统计特征。 -
检测验证
使用相同哈希算法和词表,检测文本中红绿词分布是否符合预期模式。
其实小马觉得可以这么通俗地理解:假设AI现在要生成一句话,那么它会把相关的词列出来并划分成红绿词组。
比如AI将生成这句话:
我很喜欢打篮球,因为可以锻炼身体。那么它会先拉出词汇表,并先划分成红绿词。 绿词库可能就是:
我,喜欢,玩,篮球,可以,促进,身体。
红词库可能就是:俺,很,爱,打,排球,因为,锻炼,健康。我们可以发现,根据我们目标生成的语句
我很喜欢打篮球,因为可以锻炼身体。,红词库和绿词库的使用概率正常情况下是1:1。如果此时加上水印,AI输出的句子可能就变成
我很喜欢玩篮球,可以促进身体健康。,我们发现绿词库的词比例明显增多超过正常的50%。根据AI模型只用的加密密钥,算出绿名单和红名单出现的概率,然后和被检测的文本做对比,如果一致的话便可以认为是AI模型生成的。这里只是一个例子,在字数多的情况下,这个算法对AI模型输出的影响就会越小。好处就是这种方法比之前的一些旧办法,比如截取文章上部分让AI续写再对比下一部分相似度或者是根据AI的表达习惯倾向来判断是否AI生成明显误判率少得多。
很显然,这种方法 通过手抄或拍照是破解不了水印的,因为原理就摆在那。
3.2 法规适用性
该技术属于《标识办法》中“隐式标识”的范畴,需满足元数据嵌入或数字水印的技术规范;
其抗篡改性和可追溯性符合隐式标识的完整性要求。
3.3 应用场景
主要用于大语言模型生成的文本标识,例如学术论文检测、社交媒体虚假信息追踪等。
内容溯源验证:通过统计特征识别AI生成内容,用于社交媒体虚假信息检测、新闻出版真实性验证等场景。
学术诚信保障:检测学生作业或论文是否使用AI辅助,防止学术不端行为。
训练数据维护:过滤AI合成数据,确保训练语料真实性。
注:红绿名单水印需平衡隐蔽性与检测率,过度控制可能影响文本流畅性。
