当前位置：首页 > news >正文

【论文阅读】Diff-Privacy: Diffusion-based Face Privacy Protection

news 2025/9/16 6:23:07

基于扩散模型的人脸隐私保护方法——DiffPrivacy，解决了两类人脸隐私任务：匿名化（anonymization）和视觉身份信息隐藏（visual identity information hiding）。

1. 研究背景

随着人工智能和大数据技术的普及，个人身份图像（尤其是人脸图像）面临隐私泄露风险。研究者提出两类主要保护方法：

挑战：这两类任务的目标是矛盾的，难以通过同一模型实现。例如，匿名化需要让模型无法识别，而视觉身份隐藏则要求机器仍能正确识别。此外，现有方法多为专用，需大量高质量人脸数据，且容易留下编辑痕迹，恢复能力有限。

DiffPrivacy设计：

多尺度图像反演模块（MSI）
利用扩散模型在不同时间步关注图像的不同级别（尺度）信息，设计MSI模块获取原始图像的条件嵌入（conditional embedding），支持多样化调控。
身份指导能量函数（Energy-based Identity Guidance）
在扩散生成过程的去噪阶段，根据任务需求进行梯度修正。即：
- 匿名化：最大化对原身份的混淆（让识别模型识别错误）
- 信息隐藏：确保加密图像能被机器准确识别
嵌入调度策略（Embedding Scheduling）
结合不同时间步分配不同的嵌入，使生成与恢复流程灵活切换。

Figure 1：DiffPrivacy方法生成的加密/匿名人脸：

低级图像处理如模糊（blurring）、马赛克（mosaicing）、遮罩（masking）、像素化（pixelization）等，直接破坏脸部可辨识特征。这些方法有效消灭身份，但往往严重损害图片可用性：检测、识别、分析都受影响。

GANs/虚拟脸替换
- 用生成对抗网络（GANs）生成新的、虚拟的面部区域替换原始身份，例如inpainting生成新脸（如Sun等[39]）。
- 不足：生成的面部常常不自然，表情属性单一。
- 提升：Maximov等[25]利用人脸关键点信息生成多样化加密脸，但高分辨率下自然度仍有限。

最近工作（[5], [13], [22]等）专注于可逆加密和匿名。典型方法：
- 条件GAN，输入密码条件，输出加密脸（Gu等[13]）。
- 抽取属性/身份向量，旋转改变身份（Cao等[5]）。
- 将原图投射到StyleGAN2潜空间，密码与transformer一起处理生成加密代码（Li等[22]）。
局限性：训练强依赖高质量人脸数据，加密和恢复的图像质量满意度一般。

Diff-Privacy设计为三步：

条件嵌入学习（key-E）：通过多尺度（multi-stage embedding）反演模块（MSI）学习原图在预训练SDM（Stable Diffusion Model）中的条件嵌入（embedding）。
隐私保护图像生成（key-I）：通过能量函数身份指导+嵌入调度策略，在去噪流程中引导生成加密/匿名化脸，并通过DDIM反演得到噪音图。
身份恢复：使用key-I和key-E（作为条件嵌入），利用DDIM采样逆向还原出原始图。

观察：扩散模型去噪初期决定布局、结构；中期决定内容；末期生成纹理。
10阶段嵌入方案：1000步去噪分10段，每段一个嵌入（每个token配768维向量）——更细粒度调控。
如何获取嵌入：不是直接优化而是用MSI模块，结合CLIP图像编码器多层特征（五层768向量），分别与时间步embedding相乘，通过注意力模块聚合，最终对齐并得到embedding组。