当前位置: 首页 > news >正文

深度学习:为什么不能将多层神经网络参数全部初始化为零以及如何进行随机初始化

✅ 一、为什么不能将神经网络参数全部初始化为零?

  • 对于单层神经网络,将权重 $ w $ 和偏置 $ b $ 初始化为零是可行的。
  • 但对于多层神经网络,这样做会导致所有神经元输出完全相同,无法学习不同特征。
  • 原因
    • 每个输入 $ x $ 输入到第一层的所有神经元;
    • 若所有 $ w $$ b $ 都为 0,则每个神经元计算结果 $ wx + b = 0 $
    • 经过激活函数后,所有隐藏层输出 $ a $ 都相同;
    • 导致梯度更新时所有参数变化一致,模型失去表达能力

🔴 结论:不能将参数都初始化成一样的值(如全零),否则多个神经元之间无区别。


✅ 二、如何进行随机初始化?

  • 常用方法:使用 numpy.random.randn() 进行标准正态分布随机初始化。
  • 例如:
    w[1] = numpy.random.randn(2, 2) * 0.01
    
  • 解释:
    • numpy.random.randn(2,2):生成一个 2×2 的矩阵,元素服从均值为 0、标准差为 1 的正态分布;
    • 乘以 0.01 是为了缩小初始权重范围,避免梯度爆炸或消失。

✅ 三、randn 函数的一些语法规则

  1. 当括号内没有参数时,返回一个浮点数;
  2. 当括号内有一个参数时,返回一个秩为 1 的数组(向量);
  3. 当括号内有两个及以上参数时,返回对应维度的数组(可表示向量或矩阵);
  4. np.random.standard_normal()np.random.randn() 类似,但输入参数必须是元组(tuple);
  5. np.random.randn() 的输入通常为整数,若为浮点数会自动截断为整数。

✅ 四、为什么要乘以 0.01?

  • 目的是让初始权重更小,从而:
    • 减小激活函数的斜率(如 Sigmoid 在接近 0 处导数最大);
    • 加快反向传播中的梯度下降速度(因为梯度与权重相关);
    • 防止激活值过大导致饱和(如 Sigmoid 接近 0 或 1 时导数趋近于 0,梯度消失);
  • 但也不能太小:
    • 否则可能导致信号在多层传递中逐渐衰减至 0;
    • 激活函数可能失去非线性特性(如 ReLU 变成线性)。

📌 平衡原则:权重不能太大(防爆炸),也不能太小(防消失)


✅ 五、参数初始化的重要性

  • 合适的初始化区间对训练效果至关重要;
  • 应根据神经元连接数量调整初始化方差:
    • 输入连接越多的神经元,其权重应越小;
    • 避免输出过大或过小;
    • 方法称为方差缩放(Variance Scaling),后续会详细讲解。

✅ 六、偏置 $ b $是否可以为零?

  • 可以。因为权重$ w $ 已经被随机初始化;
  • 每个神经元的计算内容不再相同,因此即使 $ b = 0 $也无妨。

✅ 七、本节总结

  • 学习了多层神经网络参数初始化的关键问题
  • 理解了为何不能将参数初始化为全零;
  • 掌握了使用 numpy.random.randn() 进行随机初始化的方法;
  • 了解了初始化尺度对训练的影响(如乘以 0.01);
  • 为下一节编写深度神经网络程序打下基础。
http://www.dtcms.com/a/590556.html

相关文章:

  • 手机网站开发应注意保定网站建设方案优化
  • 第五次作业
  • 配送系统网站怎么做wordpress网页设计步骤
  • 云南机场建设集团网站网络地区广告代理
  • 网站建设公司找哪家百度搜索引擎推广收费标准
  • wordpress js验证码插件宁波seo外包方案
  • 哈尔滨网站制作专业网站建设的市场
  • 专业做农牧应聘的网站本地黄页小程序
  • 438. 找到字符串中所有字母异位词
  • 安全的响应式网站建设asp服装网站源码
  • 学做网站用谁的书个人二级网站怎么做
  • 高频面试八股文用法篇(十三)如何解决浮点数运算的精度丢失问题
  • 配置了iis打不开网站贵州建设网老网站
  • 网站安全监测预警平台建设成效seo大神做的网站
  • 什么是网站主办者广告设计公司工作规范流程
  • 聚美优品网的网站建设情况网站开发组合 lamp
  • 我与C++的一面之缘
  • 长沙快速建站模板上海广告传媒公司一览表
  • 做网站的公司介绍网站开发相关书籍
  • 微网站php源码数据线厂家东莞网站建设
  • 应用网站制作工程承包合作协议书
  • C# OpenVinoSharp部署DEIMv2
  • 给一个网站做需求分析动漫做的游戏 迅雷下载网站
  • 海南响应式网站建设哪里好当面付 wordpress插件
  • 【multi-model】moco系列SimCLRBEiT
  • VLA模型和世界模型知识总结
  • 找人做网站属于了解些什么呢大连外协机械加工网
  • 邯郸网站建设哪儿好做同城相亲网站
  • 长沙免费建站模板软件开发的收官之战是什么
  • 假冒建设厅网站wordpress同步微信素材