当前位置：首页 > news >正文

机器学习-深度神经网络架构

news 2025/9/17 9:07:50

深度网络微调

深度学习（DL）是一门用于从数据中提取信息的编程语言
1、一些值会在之后被数据填充
2、可微
很多设计模式，从层到网络结构

Batch Normalization（批量归一化，BN）

标准化数据使线性方法的损失函数更平滑
1、平滑： $∣∣▽f(x)−▽f(y)∣∣2≤β∣∣x−y∣∣2||\triangledown f(x)-\triangledown f(y)||^2\le\beta||x-y||^2$ ，梯度的大小小于x与y之间距离的 $β\beta$ 倍
2、小的 $β\beta$ 值允许一个更大的学习率
3、不会帮助深度神经网络
批量归一化（BN）把中间内部层的输入也进行标准化

步骤

变形reshape
把输入X变成一个2D的矩阵（若不是2D的）
$X∈Rn∗c∗w∗h→X′∈Rnwh∗cX\isin\reals^{n*c*w*h}\to X'\isin\reals^{nwh*c}$ (batch n,channel c,width w,height h)
标准化Normalization
把每一列标准化
$xˆj′←(xj′−mean(xj′))/std(xj′)\^{x}^{'}_j\gets(x^{'}_j-mean(x^{'}_j))/std(x^{'}_j)$
recovery
有 $Y^{'}$ ，其中 $yj′=γjxˆj+βjy^{'}_j=\gamma_j\^x_j+\beta_j$ 作为第j列， $γj和βj\gamma_j和\beta_j$ 是可学习的参数
输出 $Y$ ，通过reshape $Y^{'}$ 将其还原回之前的格式

代码

def batch_norm(X,gamma,beta,moving_mean,moving_var,eps,momentum):if not torch.is_grad_enabled():X_hat = (X-moving_mean)/torch.sqrt(moving_var+eps)else:assert len(X.shape) in (2,4)if len(X.shape)==2:mean = X.mean(dim=0)var = ((X-mean)**2).mean(dim=0)else:mean = X.mean(dim=(0,2,3),keepdim=True)var = ((X-mean)**2).mean(dim=(0,2,3),keepdim=True)X_hat = (X-mean)/torch.sqrt(var+eps)moving_mean = momentum*moving_mean + (1.0-momentum)*meanmoving_var = momentum*moving_var + (1.0-momentum)*varY = gamma*X_hat + betareturn Y,moving_mean,moving_var

Layer Normalization（层归一化）

若应用于RNN，BN在每个时间步需要维持离散的移动数据（在每个时间步学习的那些参数不要共享）
在推理时处理很长的数据时是有问题的
层归一化reshape输入 $X∈Rn∗p→X′∈Rp∗nX\isin\reals^{n*p}\to X'\isin\reals^{p*n}$ ， $X′∈Rcwh∗nX\isin\reals^{n*c*w*h}\to\ X'\isin\reals^{cwh*n}$ ，其他的与BN相同
1、在每个样例中归一化，直到目前的时间步
2、在训练和推理时是一致的
3、多在Transformers中应用