当前位置：首页 > news >正文

对抗样本：深度学习的隐秘挑战与防御之道

news 2025/10/9 5:35:25

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

通过细微干扰就能让最先进的深度学习模型产生严重误判，对抗样本揭示了AI系统脆弱的一面

人工智能和深度学习系统虽然在诸多领域表现出色，但却面临着一个看似微小却极具威胁的挑战——对抗样本（Adversarial Examples）。这些经过精心构造的输入样本，通过在原始数据上添加人眼难以察觉的细微干扰，就能使深度学习模型以高置信度给出错误输出。

1 什么是对抗样本？

对抗样本是由 Christian Szegedy 等人在2014年首次提出的概念，指的是在数据集中通过故意添加细微的干扰所形成的输入样本，导致模型以高置信度给出一个错误的输出。

这些样本对人类观察者来说与正常样本几乎没有区别，但却能完全迷惑深度学习模型。如下图所示，在图像分类任务中，对一张熊猫图片添加少量噪声后，人类仍然识别为熊猫，但模型却以高置信度将其分类为长臂猿。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

20.最小二乘法（Least Squares Method）：原理、应用与扩展
19.学生化残差（Studentized Residual）：概念、计算与应用
18.方差齐性（Homoscedasticity）：概念、检验方法与处理策略
17.残差图（Residual Plot）：模型诊断的关键工具
16.模拟退火粒子群优化算法（SA-PSO）：原理、应用与展望
15.早熟收敛（Premature Convergence）：遗传算法中的局部最优陷阱
14.杂交粒子群优化算法（Hybrid PSO）：原理、应用与展望
13.模拟退火算法：从金属退火到全局优化
12.蝴蝶优化算法：原理、改进与应用
11.SPEA：强度帕累托进化算法
10.d-分离：图模型中的条件独立性判定准则
9.二元锦标赛：进化算法中的选择机制及其应用
8.变分推断：从优化视角逼近复杂后验分布的强大工具
7.Multi-Arith数据集：数学推理评估的关键基准与挑战
6.Gibbs采样：全面解析马尔可夫链蒙特卡洛的核心算法
5.BIG-Bench：大规模语言模型能力的全面评估与挑战
4.MATH-500：大模型数学推理能力评估基准
3.狄利克雷先验：贝叶斯分析中的多面手与它的学术传承
2.GSM8K：评估大模型数学推理能力的关键数据集
1.BIC评分：模型选择的贝叶斯利器与学术传承

2 对抗样本的历史与原始论文

对抗样本的概念最早由 Christian Szegedy 等人在2013年的论文《Intriguing properties of neural networks》中提出。该论文发现包括卷积神经网络（CNN）在内的深度学习模型对于对抗样本都具有极高的脆弱性。

原始论文出处：

论文标题：Intriguing properties of neural networks
作者：Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, Rob Fergus

这篇开创性工作发现，在许多情况下，在训练集的不同子集上训练得到的具有不同结构的模型都会对相同的对抗样本实现误分，这意味着对抗样本成为了训练算法的一个盲点。

3 为什么会产生对抗样本？

3.1 高维线性解释

Ian Goodfellow 等人在后续论文《Explaining and harnessing adversarial examples》中提出，对抗样本的产生主要原因之一是深度神经网络的过度线性。神经网络主要是基于线性块构建的，因此它们实现的整体函数被证明是高度线性的。

在高维空间中，通过对输入进行许多无穷小的改变，这些微小的变化会累积起来，导致输出有大的变化。可以通过调整相应权重的符号变化来最大限度地发挥许多小变化对其的影响，这也是一种产生对抗图像的快速方式。

3.2 盲区假说与线性假说

对于对抗样本的存在原因，目前尚无统一解释，但主要可以从盲区假说和线性假说两个维度加以理解：

盲区假说：认为对抗样本位于模型决策边界附近且远离训练数据流形的点，模型在这些区域的行为未受到充分约束。
线性假说：认为神经网络的线性特性在高维空间中足以导致对抗样本的产生，即使模型在训练数据上表现良好。

4 对抗攻击的类型

对抗攻击可以根据攻击者的知识和目标进行分类：

4.1 白盒攻击与黑盒攻击

# 白盒攻击示例：基于梯度的攻击
def white_box_attack(model, input_image, target_label, epsilon=0.01):"""白盒攻击：攻击者完全了解模型结构和参数"""# 生成对抗扰动perturbation = generate_adversarial_pattern(model, input_image, target_label)# 添加扰动到原图像adversarial_image = input_image + epsilon * perturbationadversarial_image = tf.clip_by_value(adversarial_image, 0, 1)  # 保持图像范围return adversarial_image# 黑盒攻击示例：基于查询的攻击
def black_box_attack(original_image, target_label, max_queries=1000):"""黑盒攻击：攻击者不知道模型内部结构，只能通过查询获取输出"""# 初始化一个随机扰动perturbation = np.random.uniform(-0.1, 0.1, original_image.shape)adversarial_image = np.clip(original_image + perturbation, 0, 1)# 通过多次查询迭代优化扰动for i in range(max_queries):# 获取当前对抗样本的预测结果prediction = model.predict(adversarial_image.reshape(1, 224, 224, 3))current_label = np.argmax(prediction)if current_label == target_label:break  # 攻击成功# 根据预测结果调整扰动（无需梯度信息）# 这里使用随机搜索方法，实际中会更复杂的优化方法new_perturbation = perturbation + np.random.normal(0, 0.01, perturbation.shape)new_adversarial = np.clip(original_image + new_perturbation, 0, 1)# 如果新扰动更有效，则替换new_pred = model.predict(new_adversarial.reshape(1, 224, 224, 3))if np.max(new_pred) > np.max(prediction):perturbation = new_perturbationadversarial_image = new_adversarialreturn adversarial_image