当前位置：首页 > news >正文

（论文速读）重新思考CNN生成网络中的上采样操作

news 2025/10/3 23:25:27

论文题目：Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection（基于CNN生成网络的泛化深度假检测上采样操作的再思考）

会议：CVPR2024

摘要：最近，高度逼真的合成图像的扩散，通过各种gan和扩散，大大增加了误用的易感性。虽然深度伪造检测的主要焦点传统上集中在检测算法的设计上，但近年来对生成器架构的调查调查仍然明显缺失。本文通过重新思考基于cnn的生成器的架构来弥补这一缺陷，从而建立了合成工件的广义表示。我们的研究结果表明，上采样算子可以超越基于频率的伪影，产生广义伪影。特别是，由上采样算子引起的图像像素之间的局部相互依赖在GAN或扩散生成的合成图像中得到了显著的证明。在此观察的基础上，我们引入了相邻像素关系(NPR)的概念，作为捕获和表征由上采样操作产生的广义结构伪影的手段。对一个开放世界数据集进行了全面的分析，该数据集由28个不同的生成模型生成的样本组成。这种分析最终建立了一种新的最先进的性能，显示出比现有方法显著提高了12.8%。

源码链接：https://github.com/chuangchuangtan/NPRDeepfakeDetection

引言

随着生成对抗网络(GAN)和扩散模型(Diffusion Models)的快速发展，AI生成的图像已经达到了令人惊叹的逼真程度。然而，这种技术的滥用也带来了严重的社会风险，特别是在政治和经济领域。如何开发出能够泛化到未知伪造源的检测方法，成为了计算机视觉领域的重要挑战。

现有方法的局限性

预备知识

什么是广义伪影？

广义伪影是指在不同生成模型中都存在的、具有共同特征的人工痕迹。

为什么需要广义伪影？

传统方法往往针对特定模型的特定伪影，但这些方法的问题是：

特异性太强：只能检测训练时见过的特定生成器
泛化能力差：面对新的生成模型就失效

频率伪影的原理

当生成器进行上采样时，会在频域产生特定的模式：

# 简化示例：2倍最近邻上采样的频率影响
原始信号: [1, 2, 3, 4]
上采样后: [1, 1, 2, 2, 3, 3, 4, 4]

这种重复模式在频谱中会产生周期性的伪影。

平移不变性的定义

平移不变性指：无论特征出现在图像的哪个位置，卷积操作都会产生相同的响应。

传统检测方法的问题

目前的深度伪造检测方法主要分为两大类：

基于图像的检测方法：直接使用图像作为输入训练二分类模型，但往往在面对未见过的生成模型时表现不佳。
基于频域的检测方法：分析上采样操作在整个图像频域上的影响，但研究发现频域伪影的多样性限制了其泛化能力。

关键挑战

研究人员发现，现有方法的主要问题在于：

缺乏对生成器架构本身的深入分析
没有找到真正源不变的伪影表示
在面对新的生成模型时容易失效

核心创新：邻域像素关系(NPR)

理论基础

研究团队的关键洞察是：无论是GAN还是扩散模型，上采样操作都是其核心组件。在生成过程中，上采样层将低分辨率的潜在空间转换为高分辨率输出。这个过程会在局部像素之间建立特定的关系。

NPR的工作原理

NPR方法的核心思想是捕获由上采样操作引起的局部像素间依赖关系：

网格划分：将图像划分为多个网格块（通常是2×2）
关系提取：计算每个网格内像素之间的相对关系
伪影表示：使用这些关系作为检测的特征表示

具体来说，对于一个2×2的像素块，NPR计算每个像素与参考像素的差值：

NPR = {w₁-wⱼ, w₂-wⱼ, w₃-wⱼ, w₄-wⱼ}

其中wᵢ是像素值，wⱼ是参考像素（通常选择第一个像素）。

为什么NPR有效？

NPR方法的有效性源于以下几个关键特性：

普遍性：上采样操作在几乎所有现代生成模型中都存在
局部性：关注局部像素关系，避免了全局频域分析的复杂性
相对性：使用相对关系而非绝对值，增强了泛化能力
不变性：得益于CNN的平移不变性，这种关系在不同位置保持一致

实验验证

数据集规模

研究团队进行了迄今为止最全面的跨源评估：

28个不同的生成模型：包括各种GAN架构和扩散模型
5个测试数据集：覆盖了从传统GAN到最新扩散模型的广泛范围
训练设置：仅在ProGAN的4类数据上训练，然后在所有其他模型上测试

令人瞩目的结果

跨GAN源测试

在ForenSynths数据集上的结果显示：

NPR方法平均准确率达到92.5%
相比当前最好方法LGrad提升6.4%
相比Ojha方法提升3.4%

跨扩散模型测试

更令人惊讶的是，即使在GAN上训练的检测器也能很好地检测扩散模型：

在DiffusionForensics数据集上达到**95.3%**准确率
相比LGrad提升7.1%，相比Ojha提升20.9%

整体性能

在所有28个生成模型上的平均表现：

NPR方法：**93.3%**平均准确率
相比次优方法提升超过12.8%

可视化分析

通过类激活图(CAM)的可视化分析显示：

对于真实图像，检测器关注更广泛的区域
对于伪造图像，检测器聚焦于局部区域
即使在不同类别的图像上，检测器都能识别出相应的伪造特征

技术细节深入

网络架构

研究团队设计了一个轻量级的CNN网络：

参数量仅144万
使用卷积层和ResNet块作为分类器
采用Adam优化器，学习率2×10⁻⁴

超参数分析

论文还深入分析了NPR方法中关键超参数的影响：

网格大小：2×2网格表现最佳，这与大多数生成器使用2倍上采样一致
参考像素选择：不同的参考像素选择策略表现相当
替代方案：使用平均值或最大值作为参考也能取得不错效果

不同上采样技术的适应性

NPR方法展现出对不同上采样技术的强适应性：

虽然在使用最近邻插值的ProGAN上训练
但在使用双线性插值等其他上采样方法的模型上也表现良好
这归功于NPR关注的是隐式伪影表示而非具体的上采样实现

实际应用价值

实用性

NPR方法的实用价值体现在：

高效性：轻量级网络架构，计算成本低
通用性：单一模型可以检测多种生成技术的产物
可解释性：清晰的理论基础和可视化结果

部署优势

对于实际部署，NPR方法具有以下优势：

不需要针对新的生成模型重新训练
计算复杂度低，适合实时应用
代码已开源，便于复现和改进

未来发展方向

潜在改进

虽然NPR方法已经取得了优异成果，但仍有改进空间：

多尺度分析：结合不同大小的网格可能进一步提升性能
时序信息：对于视频伪造检测，可以考虑时序的NPR关系
注意力机制：引入注意力机制可能帮助模型更好地聚焦关键区域

技术挑战

未来需要应对的挑战包括：

新兴生成技术的不断涌现
对抗性攻击的威胁
计算效率与检测精度的平衡

结论

这项研究通过重新审视CNN生成网络的基础架构，发现了一个被忽视但极其重要的检测线索。NPR方法不仅在理论上有坚实基础，在实验上也展现了卓越的性能。

关键贡献总结：

理论创新：首次系统分析了上采样操作在局部像素级别的伪影特征
方法简单：提出了简洁而有效的NPR表示方法
性能卓越：在大规模跨源评估中实现了最先进的检测性能
实用价值：为构建更加通用的深度伪造检测系统提供了新思路

随着AI生成内容技术的不断发展，像NPR这样能够挖掘生成过程本质特征的检测方法将变得越来越重要。这项工作不仅推进了深度伪造检测技术的发展，也为我们理解和分析生成模型的内在机制提供了新的视角。

查看全文

http://www.dtcms.com/a/322778.html

优先队列，链表优化

2025-08-09通过授权码的方式给exe程序充值

如何搭建ELK

C# DataGridView 添加进度条

五、RuoYi-Cloud-Plus 前端项目部署以及如何改后端请求地址。

《从零实现哈希表：详解设计、冲突解决与优化》

09 【C++ 初阶】C/C++内存管理

容器技术基础与实践：从镜像管理到自动运行配置全攻略

【机器学习深度学习】模型选型：如何根据模型的参数算出合适的设备匹配？

Java 字符流与字节流详解

bms部分

系统调用性能剖析在云服务器应用优化中的火焰图生成方法

比亚迪第五代DM技术：AI能耗管理的深度解析与实测验证

Klipper-G3圆弧路径算法

Android MediaCodec 音视频编解码技术详解

排序概念以及插入排序

Docker部署whisper转写模型

AI鉴伪技术：守护数字时代的真实性防线

软件工程总体设计：从抽象到具体的系统构建之道

Python爬虫实战：研究PSpider框架，构建电商数据采集和分析系统

(LeetCode 每日一题) 231. 2 的幂 (位运算)

Python NumPy入门指南：数据处理科学计算的瑞士军刀

Redis缓存详解：内存淘汰和缓存的预热、击穿、雪崩、穿透的原理与策略

深入理解C++多态：从概念到实现

AudioLLM

人工智能-python-特征选择-皮尔逊相关系数

第15届蓝桥杯Scratch选拔赛初级及中级（STEMA）2023年12月17日真题

Python爬虫实战：构建国际营养数据采集系统

非常简单！从零学习如何免费制作一个lofi视频

【GitHub小娱乐】GitHub个人主页ProFile美化

引言