当前位置: 首页 > news >正文

pytorch小记(三十一):深入解析 PyTorch 权重初始化:`xavier_normal_` 与 `constant_`

pytorch小记(三十一):深入解析 PyTorch 权重初始化:`xavier_normal_` 与 `constant_`

    • 深入解析 PyTorch 权重初始化:`xavier_normal_` 与 `constant_`
    • 一、为什么要初始化?
    • 二、`xavier_normal_` (Glorot 正态初始化)
      • 1. 原理
      • 2. PyTorch 接口
      • 3. 示例
    • 三、`constant_` (常数初始化)
      • 1. 原理与作用
      • 2. PyTorch 接口
      • 3. 示例
    • 四、何时选择哪种初始化?
    • 五、小结


深入解析 PyTorch 权重初始化:xavier_normal_constant_

在深度学习模型中,权重初始化 对训练的稳定性、收敛速度以及最终性能都有重要影响。PyTorch 提供了丰富的初始化函数,其中 xavier_normal_(也称 Glorot 正态初始化)和 constant_(常数初始化)是最常见的两种方式。本文将分别介绍它们的原理、应用场景与示例代码,帮助你在项目中灵活选用。


一、为什么要初始化?

未经合理初始化的权重可能会导致:

  • 梯度消失或爆炸:过小的初始值让信号逐层衰减,过大的初始值容易在反向传播时不断膨胀。
  • 收敛缓慢:不合适的分布可能使优化器难以找到合适的下降方向。
  • 对称破缺不足:所有权重相同或为零会让网络各神经元学习到相同特征。

因此,好的初始化策略能平衡信号流动,让训练更高效、更稳定。


二、xavier_normal_ (Glorot 正态初始化)

1. 原理

Xavier 初始化由 Xavier Glorot & Yoshua Bengio 在 2010 年提出,目标是在前向传播和反向传播时维持激活和梯度的方差不变。对于形状为 (out_features, in_features) 的权重矩阵 W

Wij∼N(0,2in_features+out_features).W_{ij} \sim \mathcal{N}\Bigl(0,\; \frac{2}{\text{in\_features} + \text{out\_features}}\Bigr). WijN(0,in_features+out_features2).

这里的方差:

Var(Wij)=2fan_in+fan_out.\mathrm{Var}(W_{ij}) = \frac{2}{\text{fan\_in} + \text{fan\_out}}. Var(Wij)=fan_in+fan_out2.

  • fan_in: 神经元输入通道数。
  • fan_out: 神经元输出通道数。

这种初始化能让网络信号保持在合理范围,防止深层网络训练困难。

2. PyTorch 接口

import torch
from torch.nn import init# 对某个层的权重做 Xavier 正态初始化
init.xavier_normal_(layer.weight, gain=1.0)
  • gain (float):缩放因子。对于非线性激活函数,可以根据激活类型传入不同的增益。例如 nn.ReLU 推荐 gain=\sqrt{2}
  • 如果网络层带有偏置(bias),常使用 init.constant_(layer.bias, 0) 将其初始化为 0。

3. 示例

import torch.nn as nn
from torch.nn import initclass MyModel(nn.Module):def __init__(self):super().__init__()self.fc = nn.Linear(256, 128)# Xavier 正态初始化init.xavier_normal_(self.fc.weight, gain=init.calculate_gain('relu'))init.constant_(self.fc.bias, 0.0)def forward(self, x):return nn.functional.relu(self.fc(x))

三、constant_ (常数初始化)

1. 原理与作用

constant_ 将张量的所有元素都赋值为用户指定的常数 val

W_{ij} = val, \quad \forall i,j.
  • 常用于偏置(bias)初始化为 0 或小正值(如 0.01)。
  • 在 BatchNorm、LayerNorm 等操作中,将缩放参数 weight 初始化为 1,将偏移参数 bias 初始化为 0,也是常见做法。

2. PyTorch 接口

# 对所有元素赋常数
init.constant_(tensor, val)

3. 示例

import torch.nn as nn
from torch.nn import init# 假设一个卷积层
conv = nn.Conv2d(3, 16, kernel_size=3)
# 将卷积核权重初始化为常数 0.001
init.constant_(conv.weight, 0.001)
# 偏置初始化为 0
init.constant_(conv.bias, 0.0)

四、何时选择哪种初始化?

场景建议初始化方式
普通全连接/卷积层xavier_normal_(或 xavier_uniform_
ReLU/ReLU-like 激活gain=√2xavier_normal_
偏置(Bias)constant_(..., 0)
归一化层的缩放参数constant_(..., 1)
自定义小尺度初始值constant_(..., 小值)

五、小结

  • xavier_normal_:保持前向/反向方差平衡,适合大多数网络层,传入 gain 可适配不同激活函数。
  • constant_:最简单的全常数赋值,常用于偏置、归一化层参数的初始化。

合理的初始化能大幅提升训练稳定性和收敛速度,希望这篇文章能帮助你在项目中灵活选用并写出高效、鲁棒的模型代码。欢迎在评论区交流!

http://www.dtcms.com/a/285203.html

相关文章:

  • 基于selenium的pyse自动化测试框架
  • MyUI1.0全新现代化 Vue.js 组件库框架上线
  • CAD断层扫描三维重建插件
  • ubuntu启用ssh
  • HD现代机器人与TESOLLO合作推出工业自动化双臂机器人解决方案
  • 控制台输出的JAVA格斗小游戏-面向对象
  • properties中文乱码
  • 细菌实验入门:浓度测定与菌种鉴定技术详解
  • 累和,累积,斐波拉契
  • 如何统一分销价格体系实战指南?
  • 验证损失判断过拟合情况
  • echart设置trigger: ‘axis‘不显示hover效果
  • c#笔记之方法的形参列表以及方法重载
  • 智能外呼系统应用场景
  • Windows 11清理C盘方法大全:磁盘清理/禁用休眠/系统还原点/优化大师使用教程
  • PostgreSQL 中的 pg_trgm 扩展详解
  • docker 安装nacos
  • Content-Type 请求头
  • 求解偏微分方程的傅里叶积分解
  • 【C语言进阶】内存函数
  • app打包ios上架appStore流程
  • 强化第三讲—一元函数微分学的概念
  • vue + Cesium 实现 3D 地图水面效果详解
  • Leetcode刷题营第二十七题:二叉树的最大深度
  • 研二Last Day
  • 【保姆级喂饭教程】idea开发TODO规范
  • 【项目实践08】【事务加锁的问题】
  • 【C++类和对象解密】面向对象编程的核心概念(下)
  • openinstall上线SSL证书服务,开启数字安全新纪元
  • 从现场出发:能源系统中的智能设备与实际落地工具解读