当前位置: 首页 > news >正文

【论文阅读】Diff-Privacy: Diffusion-based Face Privacy Protection

基于扩散模型的人脸隐私保护方法——DiffPrivacy,解决了两类人脸隐私任务:匿名化(anonymization)和视觉身份信息隐藏(visual identity information hiding)。


1. 研究背景

随着人工智能和大数据技术的普及,个人身份图像(尤其是人脸图像)面临隐私泄露风险。研究者提出两类主要保护方法:

  • 匿名化

    • 目标:让人和机器都无法识别到原来的身份,但保留面部结构,使检测器仍能正常工作。

    • 场景:社交媒体照片,公开发布。

  • 视觉身份信息隐藏

    • 目标:人类看不到真实身份,但机器可准确识别(如加密存储、后续智能识别)。

    • 场景:云端存储加密,人脸认证等。

挑战:这两类任务的目标是矛盾的,难以通过同一模型实现。例如,匿名化需要让模型无法识别,而视觉身份隐藏则要求机器仍能正确识别。此外,现有方法多为专用,需大量高质量人脸数据,且容易留下编辑痕迹,恢复能力有限。


DiffPrivacy设计:

  • 多尺度图像反演模块(MSI)
    利用扩散模型在不同时间步关注图像的不同级别(尺度)信息,设计MSI模块获取原始图像的条件嵌入(conditional embedding),支持多样化调控。

  • 身份指导能量函数(Energy-based Identity Guidance)
    在扩散生成过程的去噪阶段,根据任务需求进行梯度修正。即:

    • 匿名化:最大化对原身份的混淆(让识别模型识别错误)

    • 信息隐藏:确保加密图像能被机器准确识别

  • 嵌入调度策略(Embedding Scheduling)
    结合不同时间步分配不同的嵌入,使生成与恢复流程灵活切换。


Figure 1:DiffPrivacy方法生成的加密/匿名人脸:

  • 既能在视觉上高度逼真地改变身份(真实感极强),

  • 也能在需要时无损地恢复原始身份,

  • 与对比方法相比,既不易被识破,也能灵活支持不同应用场景。

2. Related Work

2.1 Anonymization

1. 基础低层方法
  • 低级图像处理如模糊(blurring)、马赛克(mosaicing)、遮罩(masking)、像素化(pixelization)等,直接破坏脸部可辨识特征。这些方法有效消灭身份,但往往严重损害图片可用性:检测、识别、分析都受影响。
2. 基于生成式模型
  • GANs/虚拟脸替换
    • 用生成对抗网络(GANs)生成新的、虚拟的面部区域替换原始身份,例如inpainting生成新脸(如Sun等[39])。
    • 不足:生成的面部常常不自然,表情属性单一。
    • 提升:Maximov等[25]利用人脸关键点信息生成多样化加密脸,但高分辨率下自然度仍有限。
3. 可恢复匿名化
  • 最近工作([5], [13], [22]等)专注于可逆加密和匿名。典型方法:
    • 条件GAN,输入密码条件,输出加密脸(Gu等[13])。
    • 抽取属性/身份向量,旋转改变身份(Cao等[5])。
    • 将原图投射到StyleGAN2潜空间,密码与transformer一起处理生成加密代码(Li等[22])。
  • 局限性:训练强依赖高质量人脸数据,加密和恢复的图像质量满意度一般。

2.2 Visual Information Hiding 视觉信息隐藏

1. 基于同态加密(Homomorphic Encryption, HE)
  • 利用密码学加密图像,理论上安全,但不适用深度模型,对图像推理兼容性很差。
2. 基于感知加密(Perceptual Encryption, PE)
  • 专注人类感知的加密域设计,如直接用加密图像训练模型,准确率受较大影响。
  • 例如Ito等[18]结构化变换网络,确保分类器依然可正确识别但视觉信息隐藏,不可恢复原始图像
3. 对抗攻击启发方法
  • Su等[38]应用Type-I攻击迭代加密,可恢复和识别,但生成内容接近噪音,容易被黑客识别为加密图片;且在线优化,速度慢。

2.3 Diffusion Models 扩散模型

演进与应用
  • 经典Diffusion:基于马尔可夫链反复迭代,早期[14]慢,样本质量好。
  • DDIM[35]:确定性采样,极大提升生成速度。
  • 引入类别/条件信息:如Dhariwal等[8],提升真实度但训练成本高。
  • Classifier-Free Diffusion:条件+无条件共同训练更平衡([15])。
  • Latent Diffusion:从像素空间到潜空间生成(Rombach等[30]),极大节省算力。
  • 当前已广泛用于密度估计、样本生成及视觉任务。

3. Diff-Privacy方法原理详细解析

总体框架

Diff-Privacy设计为三步:

  1. 条件嵌入学习(key-E):通过多尺度(multi-stage embedding)反演模块(MSI)学习原图在预训练SDM(Stable Diffusion Model)中的条件嵌入(embedding)。
  2. 隐私保护图像生成(key-I):通过能量函数身份指导+嵌入调度策略,在去噪流程中引导生成加密/匿名化脸,并通过DDIM反演得到噪音图。
  3. 身份恢复:使用key-I和key-E(作为条件嵌入),利用DDIM采样逆向还原出原始图。

3.1 扩散模型与DDIM采样/反演

  • SDM将原图编码到潜空间(latent space):z₀ = Enc(x₀)
  • 加噪过程:zt = sqrt(αₜ)z₀ + sqrt(1-αₜ)ε(ε为高斯噪声)
  • 去噪(采样):使用UNet网络生成epsilon估计
  • DDIM逆过程:采样和反演公式(见Eq. 2,4),使噪音图能够还原原图。

3.2 条件嵌入(Conditional Embedding)学习

1. 多阶段条件嵌入空间(C*)
  • 观察:扩散模型去噪初期决定布局、结构;中期决定内容;末期生成纹理。
  • 10阶段嵌入方案:1000步去噪分10段,每段一个嵌入(每个token配768维向量)——更细粒度调控。
  • 如何获取嵌入:不是直接优化而是用MSI模块,结合CLIP图像编码器多层特征(五层768向量),分别与时间步embedding相乘,通过注意力模块聚合,最终对齐并得到embedding组。
2. 训练目标
  • 优化MSI,使SDM去噪误差最小(Eq. 7)
  • cross-attention做dropout防过拟合。

3.3 隐私保护机制设计

3.3.1 嵌入调度策略
  • 利用多阶段嵌入,不同privacy目标采用分阶段切换:如去噪初/中期用无条件embedding,后期用learned embedding。
  • 匿名化:前40%用无条件embedding,后60%用learned embedding。
3.3.2 能量函数身份指导模块
  • 目标:通过能量函数对去噪方向做梯度修正,实现身份相似/不同可控。
  • 主要步骤:
    1. 利用预训练人脸识别模型,得到embedding空间表示;
    2. 构建identity loss:
      • 匿名化用identity dissimilarity loss(LIdis):多种噪音下生成新脸,最大化与原脸embedding夹角,保证身份差异;
      • 信息隐藏用identity similarity loss(Lis):最大化加密脸和原脸embedding夹角接近(0.95),保证机器可识别。
    3. 构建diversity loss(Ldiv):同一原图噪不同,加密后身份embedding也应分散,增强加密样本多样性。
    4. 在去噪流程中加能量函数引导采样方向,Eq. 14为带能量修正的采样。
3.3.3 匿名化细节
  • 初始加0.6强度噪音(保持布局、破坏面部)
  • 结合identity dissimilarity loss和diversity loss引导生成新脸
  • 先用无条件embedding,后改为learned embedding(见Eq. 18)
  • 保存对应步骤DDIM逆反得到的噪音地图,作为恢复密钥
3.3.4 信息隐藏细节
  • 初始噪音强度调高至0.8(连背景/姿态也可变)
  • 用identity similarity loss增强加密脸和原脸embedding接近,机器仍能识别
  • embedding调度比匿名化更偏向无条件(60%)
  • 同样保存DDIM噪音地图,配对密钥恢复

3.4 身份恢复机制

  • 用加密/匿名后的噪音图(key-I)+相应embedding(key-E),进入逆DDIM采样,逐步去噪最终还原原脸。

总结

DiffPrivacy通过:

  • 多尺度嵌入学习(MSI)解决少样本高质量控制;
  • 能量函数身份引导模块实现不同身份相似/差异需求的梯度修正;
  • 分阶段嵌入调度,将扩散模型去噪的各阶段与属性控制灵活结合;
  • 恢复过程依赖于密钥(noise map+embedding),确保安全性。

4. Experiments

4.1 实现细节

  • 模型参数:仅训练提出的MSI模块,其余全部采用预训练SDM默认参数。
  • 训练设备与耗时:NVIDIA RTX3090,每张图训练约20分钟,batch size=1,学习率0.001。
  • 评测数据集:CelebA-HQ [19] + LFW [16],涵盖高质量与真实场景多样性。

4.2 Anonymization

4.2.1 De-identification

对比方法

  • RiDDLE [22](可恢复)
  • FIT [13](可恢复)
  • CIAGAN [25]
  • DeepPrivacy [17]

定性分析(Figure 4):

  • CIAGAN去匿名后图像扭曲严重。
  • FIT改变身份但视觉质量差,属性错乱(如女性图生成男性脸)。
  • RiDDLE生成多样脸,但细节不自然(如眼部畸形)。
  • DeepPrivacy虽逼真,但表情等非身份属性无法保留。
  • Diff-Privacy优势:自然逼真的面部特征,保留表情、姿态等非身份属性,整体视觉效果优胜。

定量分析

  • 成功保护率SR(Table 1):利用人脸识别网络(FaceNet、ArcFace),当加密脸与原脸embedding距离超过阈值,认为保护成功。
  • Diff-Privacy在SR指标高于其它方法,安全性强。

人脸检测可用性(Table 2):

  • 在MtCNN和Dlib检测下评估检测率以及人脸框/关键点距离(像素偏差)。
  • Diff-Privacy检测率最高,且结构保持度、关键点一致性均优。
  • 支持去身份后用于一般CV任务,实用性强。

身份多样性(Figure 5, t-SNE可视化):

  • Diff-Privacy能生成多样去身份脸,且分布更分散。
  • 200组加密脸embedding分布覆盖超大区域——隐私防护性、多样性强于FIT等方法(后者聚类紧凑,泛化差)。

4.2.2 身份恢复

对比方法:FIT, RiDDLE(可恢复)

  • 用识别率(Table 1底部)、原-恢复图像相似度(MSE,PSNR,SSIM,LPIPS)(Table 3)。
  • Diff-Privacy恢复后图像清晰度、结构一致性都高于竞品,视觉效果、像素级和感知级分数均优(Figure 7)。


4.3 Visual identity information hiding 视觉身份信息隐藏

4.3.1 加密评测(对比AVIH [38])
  • 按AVIH流程选定12身份/10图,other身份样本共12878张。
  • 用FaceNet和ArcFace识别,加密后判断同身份/异身份匹配难度。
  • Diff-Privacy在FaceNet识别率高于AVIH 3个百分点,ArcFace下则基本相当,接近未加密原图识别率。
  • 隐私安全性:加密脸保留真实感,黑客难判定是否被加密,提升安全性。
4.3.2 身份恢复
  • 对比恢复后图像质量(Figure 6, Table 3):AVIH像素级与Diff-Privacy相近,但感知级指标(LPIPS, SSIM)Diff-Privacy明显优,且恢复区域更完整,无明显伪影。

4.4 Ablation Study 消融实验

① 条件嵌入组的作用
  • 只用单一嵌入(Ours-OE)vs. 用组嵌入(完整MSI)。
  • 图像编辑性、属性解耦、加密/恢复质量,组嵌入全面优于单嵌入(Figure 8, Table 5)。
② Embedding调度策略
  • 实验不同τ值(分阶段使用无条件/学习嵌入)对于匿名化/信息隐藏后图像identity距离的影响(Figure 8,9)。
  • 匿名化推荐τ=0.4(最大化脱敏且属性不变);信息隐藏τ=0.6(人眼变化最大但机器可识别)。
③ 噪音强度(Sns)
  • 噪音变弱,生成图像更靠近原图;Sns=0.6适合匿名化(属性保留),Sns=0.8最大身份差异(用于信息隐藏)(Figure 10)。
④ Diversity loss多样性损失
  • 移除多样性损失功能后,去身份脸embedding聚集,分布减小,多样性明显降级(Figure 11)。

5. Conclusion 结论

论文贡献总结

  1. 统一两大隐私需求:提出Diff-Privacy方案,兼顾可恢复匿名化和信息隐藏。
  2. 三阶段架构:多尺度条件嵌入(key-E)、能量函数+调度引导加密(key-I)、可逆恢复。
  3. 实验表现:量化与定性结果均超过主流竞品,图片质量、恢复效果、身份多样性更优。

文章转载自:

http://eAbm9VC0.wpxfk.cn
http://4UTAy8FE.wpxfk.cn
http://9oTVR0je.wpxfk.cn
http://eJBGG1Fl.wpxfk.cn
http://3gkAEO2w.wpxfk.cn
http://jxkRdsuL.wpxfk.cn
http://s5Zernpr.wpxfk.cn
http://kl1KTWJr.wpxfk.cn
http://wS5JuJgk.wpxfk.cn
http://1ZYoEtvI.wpxfk.cn
http://B1NxkBNj.wpxfk.cn
http://es0oOkAi.wpxfk.cn
http://D1iDuS3L.wpxfk.cn
http://9zGvdUht.wpxfk.cn
http://3YK7FfV3.wpxfk.cn
http://ZdUPsGxN.wpxfk.cn
http://wKKz90vn.wpxfk.cn
http://QfKY2hJm.wpxfk.cn
http://mthAlLeP.wpxfk.cn
http://DAKiaHTf.wpxfk.cn
http://uj3NMvvh.wpxfk.cn
http://cLPZ6RVn.wpxfk.cn
http://NE2HUwYB.wpxfk.cn
http://esh7Hb6c.wpxfk.cn
http://IhVKj8Pp.wpxfk.cn
http://O8cG6tew.wpxfk.cn
http://l15pmK2g.wpxfk.cn
http://zfYVVm3Z.wpxfk.cn
http://gBAsXuPE.wpxfk.cn
http://i8O3XVa9.wpxfk.cn
http://www.dtcms.com/a/384408.html

相关文章:

  • 第四篇:【基础篇】Python的“单词”与“语法”:深入理解变量、关键字与标识符
  • Python的输出缓冲区机制
  • Scikit-learn 简单介绍入门和常用API汇总
  • [Dify] 用多个工具节点构建多轮 API 调用任务流:链式任务设计实战指南
  • Java实战:从零开发图书管理系统
  • 认知语义学中的隐喻对人工智能自然语言处理的深层语义分析的启示与影响研究报告
  • Mysql数据库事务全解析:概念、操作与隔离级别
  • Halcon 常用算子
  • 基于Spring Boot与Micrometer的系统参数监控指南
  • 【高并发内存池——项目】定长内存池——开胃小菜
  • 作为注册中心zk和nacos如何选型
  • 前置配置3:nacos 配置中心
  • Linux —— 进程的程序替换[进程控制]
  • [Linux] 从YT8531SH出发看Linux网络PHY驱动
  • ArcGIS定向影像(2)——非传统影像轻量级解决方案
  • 分享机械键盘MCU解决方案
  • Unity 性能优化 之 编辑器创建资源优化(UGUI | 物理 | 动画)
  • PostgreSQL——分区表
  • Elastic APM 高级特性:分布式追踪与机器学习优化
  • Ubuntu 服务器配置转发网络访问
  • Redis 数据结构源码剖析(SDS、Dict、Skiplist、Quicklist、Ziplist)
  • C#通讯之网络通讯 TCP UDP
  • 响应时间从5ms到0.8ms:威迈斯AI+DSP协同架构的突破与工程实践
  • 《WINDOWS 环境下32位汇编语言程序设计》第16章 WinSock接口和网络编程(2)
  • 算法--插入排序
  • 领码方案|权限即数据:企业系统中的字段级访问控制架构实战(Ver=1.0)
  • 【面试场景题】支付金融系统与普通业务系统的一些技术和架构上的区别
  • 数证杯顺心借JAVA网站重构详细版(服务器取证基础考点+检材+题目+重构视频)
  • 【Unity】【Photon】Fusion2中的玩家输入系统 学习笔记
  • Vue3 + Three.js 实战:自定义 3D 模型加载与交互全流程