当前位置：首页 > news >正文

Instance Normalization（实例归一化）

news 2025/8/30 9:55:23

Instance Normalization（实例归一化，简称InstanceNorm） 是深度学习中一种特征归一化技术。它的核心思想是：对每个样本的每个通道的特征图进行独立的归一化。

简单来说，它计算每个样本、每个通道的均值和方差，并用这些统计量来归一化该通道的特征值。

要理解InstanceNorm，最好通过与更常见的归一化方法对比。假设我们的输入张量形状为 (N, C, H, W)：

归一化方法	计算均值和方差的维度	计算公式	适用场景
BatchNorm	跨样本，同一通道 `(N, H, W)`	$μc=1NHW∑n=1N∑h=1H∑w=1Wxnchw\mu_c = \frac{1}{NHW}\sum_{n=1}^N\sum_{h=1}^H\sum_{w=1}^W x_{nchw}$	标准CNN， batch size较大且稳定时
LayerNorm	跨通道、高、宽，同一样本 `(C, H, W)`	$μn=1CHW∑c=1C∑h=1H∑w=1Wxnchw\mu_n = \frac{1}{CHW}\sum_{c=1}^C\sum_{h=1}^H\sum_{w=1}^W x_{nchw}$	RNN, Transformer，NLP任务
InstanceNorm	跨高和宽，同一样本同一通道 `(H, W)`	$μnc=1HW∑h=1H∑w=1Wxnchw\mu_{nc} = \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^W x_{nchw}$	图像风格迁移，生成模型

想象一批图像（比如4张猫的图片，N=4, C=3(RGB), H=256, W=256）：

BatchNorm：会计算所有4张图片的R通道的均值，所有4张图片的G通道的均值，所有4张图片的B通道的均值。它混合了不同样本的信息。
InstanceNorm：会单独计算第一张图片的R通道的均值、G通道的均值、B通道的均值。然后单独计算第二张图片的R、G、B通道的均值，以此类推。它完全独立地处理每个样本的每个通道。

对于输入张量 $x$ 中的一个特定值 $x_{ncij}$ （第n个样本，第c个通道，位置(i,j)），InstanceNorm的变换为：

$x^ncij=xncij−μncσnc2+ϵ\hat{x}_{ncij} = \frac{x_{ncij} - \mu_{nc}}{\sqrt{\sigma_{nc}^2 + \epsilon}}$

其中：

$μnc=1HW∑h=1H∑w=1Wxnchw\mu_{nc} = \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^W x_{nchw}$ （第n个样本，第c个通道的均值）
$σnc2=1HW∑h=1H∑w=1W(xnchw−μnc)2\sigma_{nc}^2 = \frac{1}{HW}\sum_{h=1}^H\sum_{w=1}^W (x_{nchw} - \mu_{nc})^2$ （第n个样本，第c个通道的方差）
$ϵ\epsilon$ 是一个很小的数，用于防止除以零（代码中的 eps=1e-6）
通常还会有一个可学习的缩放因子 $γ\gamma$ 和偏移量 $β\beta$ ： $yncij=γcx^ncij+βcy_{ncij} = \gamma_c \hat{x}_{ncij} + \beta_c$
- 代码中的 affine=True 就表示启用这两个可学习参数。

在代码片段中：

nn.InstanceNorm2d(n_c, affine=True, eps=1e-6)

这行代码创建了一个InstanceNorm层：

选择InstanceNorm而不是BatchNorm的原因可能包括：

对小批量大小（Batch Size）不敏感：BatchNorm在小批量（比如batch size=1或2）时性能会急剧下降，因为计算的统计量不可靠。而InstanceNorm不依赖批次中的其他样本，所以即使batch size=1也能正常工作。
适用于生成式任务：在图像风格迁移、超分辨率等任务中，我们希望保留每个样本的独特特征（即“风格”）。InstanceNorm通过独立处理每个样本，能更好地保持样本间的独立性，避免不同样本间的特征“泄漏”。
减少内部协变量偏移：和BatchNorm一样，它也有助于稳定训练过程，使网络更容易训练。