对抗攻击-知识点
文章目录
- 自然图像往往靠近机器学习分类器学习到的决策边界(decision boundaries)。
- 正交方向--改变某一个不影响其它的
- 特征降采样(Feature Downsampling)
- 通过黑盒攻击的持续挑战,我们才能构建真正安全可靠的智能系统
- DCT图像变换
- 图片通道数
- 1. **PNG (Portable Network Graphics)**
- 2. **JPEG/JPG (Joint Photographic Experts Group)**
- 3. **RAW (原始传感器数据)**
- 通道对比总结
自然图像往往靠近机器学习分类器学习到的决策边界(decision boundaries)。
所以轻微扰动即可使预测错误。
正交方向–改变某一个不影响其它的
比如想象一张2x2的迷你图片(4个像素),这时正交基就是4个互相垂直的方向:单独增加像素1、像素2、像素3、像素4的亮度,且保证每次调整不会互相干扰。
- 假设图像有 d 个像素(如 224x224x3=150,528 维),正交基就是 d 个互相垂直的向量
-
- 每个向量代表 一种独立的像素修改模式
-
- 任意两个模式 互不干扰(修改模式A不会影响模式B的效果)
-
特征降采样(Feature Downsampling)
特征降采样(Feature Downsampling) 是深度学习(尤其是卷积神经网络 CNN)中的一种核心操作,旨在逐步减少特征图的空间尺寸(宽和高),同时增加其通道数(深度)。
通过黑盒攻击的持续挑战,我们才能构建真正安全可靠的智能系统
通过黑盒攻击(查询几百次才得到的对抗样本)来训练出鲁棒性更强的模型
DCT图像变换
- 1 将RGB图像转换为亮度(Y)和色度(Cb, Cr)通道
将RGB图像转换为亮度(Y)和色度(Cb, Cr)通道的步骤发生在DCT变换前
计算示例(像素值R=100, G=150, B=200):
Y = 0.299*100 + 0.587*150 + 0.114*200 ≈ 139.25
Cb = -0.1687*100 -0.3313*150 +0.5*200 +128 ≈ 113.23
Cr = 0.5*100 -0.4187*150 -0.0813*200 +128 ≈ 124.56
乘以固定系数即可
- 2 DCT系数矩阵F(u,v)F(u, v)F(u,v),(核心目的)
F(u,v)=Σi=07Σj=07f(i,j)∗Bu,v(i,j)F(u, v) = Σ_{i=0}^{7} Σ_{j=0}^{7} f(i, j) * B_{u,v}(i, j)F(u,v)=Σi=07Σj=07f(i,j)∗Bu,v(i,j)
F(u,v)F(u, v)F(u,v)是一个数值,不是波面
一个F(u,v)F(u, v)F(u,v)相当于 (u,v)确定基函数波面分别与64个像素点的乘积之和,表示了
DCT系数矩阵本质上是一个频率能量分布图:
每个位置对应特定方向/频率的波面系数值表示该频率分量(基函数波面)在图像中的强度整体分布揭示图像的空间频率特征
将系数按位置排列成8x8矩阵
- 3 DCT固定的64个基函数波面
Bu,v(i,j)=C(u)∗C(v)∗cos((2i+1)uπ/16)∗cos((2j+1)vπ/16)B_{u,v}(i,j) = C(u) * C(v) * cos( (2i+1)uπ / 16 ) * cos( (2j+1)vπ / 16 )Bu,v(i,j)=C(u)∗C(v)∗cos((2i+1)uπ/16)∗cos((2j+1)vπ/16)
i 相当于x,j 相当于y;
参数 uu 控制水平方向的频率(即横向条纹的密度);
参数 vv 控制垂直方向的频率(即纵向条纹的密度)。
最终表达出来的是64个不同的波面
画图
C(u)也是
对任何8x8像素块,通过其得到的8x8基函数值都相同
>
- DCT将图片的信息分散到64个基函数波面上来存储
- 而人眼对左上角的低频基函数波面更敏感
- 这些低频分量描述图像中缓慢、平滑的变化,如大面积的色块、亮度渐变、柔和边缘。人眼对这些大面积、平缓变化的信息极其敏感。
- 4 删除高频信息后还原图片
图片通道数
图像通道数(Channels)取决于格式和存储的数据类型。以下是主要区别:
1. PNG (Portable Network Graphics)
- 典型通道数:
- RGB 模式:3 通道(红、绿、蓝)
- RGBA 模式:4 通道(红、绿、蓝 + Alpha 透明度)
- 灰度模式:1 通道(仅亮度)
- 灰度+Alpha:2 通道(亮度 + 透明度)
- 位深度:支持 8 位/通道(24 位色)或 16 位/通道(48 位色)
- 透明支持:Alpha 通道实现平滑过渡透明
2. JPEG/JPG (Joint Photographic Experts Group)
- 典型通道数:
- 仅支持 3 通道(红、绿、蓝)
- 不支持透明度(无 Alpha 通道)
- 特殊模式:
- 灰度 JPEG:1 通道(较少用)
- 位深度:固定 8 位/通道(24 位色)
- 透明替代方案:通过背景色模拟透明(效果生硬)
3. RAW (原始传感器数据)
- 核心通道数:
- 本质是 1 通道(每个像素只记录单色光强度)
- 实际处理:
- 通过 Bayer 滤镜阵列重建为 3 通道 RGB
- 专业软件可提取 4 通道(R、G1、G2、B)或更多
- 位深度:12-16 位/通道(佳能 CR2:14 位/通道)
- 特殊通道:
- 可能包含红外/深度等元数据通道
通道对比总结
格式 | 典型通道数 | 透明度支持 | 位深度 | 通道特性 |
---|---|---|---|---|
PNG | 1/2/3/4 | ✅ Alpha 通道 | 8 或 16 位 | 灵活支持多种模式 |
JPEG | 3 (或 1) | ❌ | 8 位固定 | 纯色彩数据,无扩展通道 |
RAW | 1 (重建为3) | ❌ | 12-16 位 | 原始传感器单通道 + 元数据 |
💡 注意:
- PNG 的 Alpha 通道让边缘融合更自然(如阴影/发光效果)
- RAW 的"单通道"本质使其文件体积远小于同分辨率 PNG(未压缩时)
- JPEG 的 3 通道固定结构是其压缩效率高的原因之一