当前位置：首页 > news >正文

深层神经网络：原理与传播机制详解

news 2025/7/6 7:21:01

网络架构概述

本文探讨的深层神经网络结构如下：

输入层：3个神经元
第一隐藏层：5个神经元
第二隐藏层：5个神经元
第三隐藏层：3个神经元
输出层：1个神经元

数学符号定义

符号	含义	维度
$X$	输入数据	$\times 1$
$W^{[1]}$	第一层权重	$\times 3$
$b^{[1]}$	第一层偏置	$\times 1$
$Z^{[1]}$	第一层线性输出	$\times 1$
$A^{[1]}$	第一层激活输出	$\times 1$
$W^{[2]}$	第二层权重	$\times 5$
$b^{[2]}$	第二层偏置	$\times 1$
$Z^{[2]}$	第二层线性输出	$\times 1$
$A^{[2]}$	第二层激活输出	$\times 1$
$W^{[3]}$	第三层权重	$\times 5$
$b^{[3]}$	第三层偏置	$\times 1$
$Z^{[3]}$	第三层线性输出	$\times 1$
$A^{[3]}$	第三层激活输出	$\times 1$
$W^{[4]}$	输出层权重	$\times 3$
$b^{[4]}$	输出层偏置	$\times 1$
$Z^{[4]}$	输出层线性输出	$\times 1$
$A^{[4]}$	输出层激活输出	$\times 1$

前向传播机制

前向传播是数据从输入层流向输出层的过程，计算步骤如下：

数学公式表示

第一隐藏层：
$Z^{[1]} = W^{[1]}X + b^{[1]}$
$A^{[1]} = g^{[1]}(Z^{[1]})$
第二隐藏层：
$Z^{[2]} = W^{[2]}A^{[1]} + b^{[2]}$
$A^{[2]} = g^{[2]}(Z^{[2]})$
第三隐藏层：
$Z^{[3]} = W^{[3]}A^{[2]} + b^{[3]}$
$A^{[3]} = g^{[3]}(Z^{[3]})$
输出层：
$Z^{[4]} = W^{[4]}A^{[3]} + b^{[4]}$
$A^{[4]} = \sigma(Z^{[4]})$

其中：

$g^{[1]}, g^{[2]}, g^{[3]}$ 为隐藏层激活函数（如ReLU, tanh）
$\sigma$ 为输出层激活函数（如sigmoid）

反向传播机制

反向传播通过链式法则计算损失函数对各参数的梯度，从输出层向输入层反向传播误差：

梯度计算公式

输出层梯度：
$dZ^{[4]} = A^{[4]} - Y$
$dW^{[4]} = \frac{1}{m} dZ^{[4]} (A^{[3]})^T$
$db^{[4]} = \frac{1}{m} \sum dZ^{[4]}$
第三隐藏层梯度：
$dA^{[3]} = (W^{[4]})^T dZ^{[4]}$
$dZ^{[3]} = dA^{[3]} \odot g^{[3]\prime}(Z^{[3]})$
$dW^{[3]} = \frac{1}{m} dZ^{[3]} (A^{[2]})^T$
$db^{[3]} = \frac{1}{m} \sum dZ^{[3]}$
第二隐藏层梯度：
$dA^{[2]} = (W^{[3]})^T dZ^{[3]}$
$dZ^{[2]} = dA^{[2]} \odot g^{[2]\prime}(Z^{[2]})$
$dW^{[2]} = \frac{1}{m} dZ^{[2]} (A^{[1]})^T$
$db^{[2]} = \frac{1}{m} \sum dZ^{[2]}$
第一隐藏层梯度：
$dA^{[1]} = (W^{[2]})^T dZ^{[2]}$
$dZ^{[1]} = dA^{[1]} \odot g^{[1]\prime}(Z^{[1]})$
$dW^{[1]} = \frac{1}{m} dZ^{[1]} X^T$
$db^{[1]} = \frac{1}{m} \sum dZ^{[1]}$

其中：

$\odot$ 表示逐元素乘法（Hadamard积）
$g^{\prime}$ 为激活函数的导数
$m$ 为样本数量

激活函数导数

1. Sigmoid导数

$\sigma'(z) = \sigma(z)(1 - \sigma(z))$

2. Tanh导数

$tanh'(z) = 1 - \tanh^2(z)$

3. ReLU导数

$\text{ReLU}'(z) = \begin{cases} 1 & \text{if } z > 0 \\ 0 & \text{otherwise} \end{cases}$

4. Leaky ReLU导数

$\text{LeakyReLU}'(z) = \begin{cases} 1 & \text{if } z > 0 \\ 0.01 & \text{otherwise} \end{cases}$

深层网络特性

1. 层次化特征学习

2. 梯度传播挑战

梯度消失：深层网络中梯度指数级减小
梯度爆炸：深层网络中梯度指数级增大
解决方案：
- 合适的权重初始化（Xavier, He）
- 批归一化（Batch Normalization）
- 残差连接（Residual Connections）

3. 参数规模分析

层	权重数量	偏置数量	总参数
输入→隐藏1	5×3=15	5	20
隐藏1→隐藏2	5×5=25	5	30
隐藏2→隐藏3	3×5=15	3	18
隐藏3→输出	1×3=3	1	4
总计	58	14	72

深层网络优势

表征能力：指数级增强的特征表示能力
层次抽象：自动学习从低级到高级的特征层次
模式识别：对复杂模式的识别能力远超浅层网络
通用性：适用于各种数据类型（图像、文本、语音）

传播过程总结

前向传播

反向传播

深层神经网络通过多层次的非线性变换构建强大的特征表示能力，前向传播实现复杂函数映射，反向传播通过链式法则高效计算梯度，二者协同工作使网络能够学习高度复杂的输入-输出关系。

http://www.dtcms.com/a/267207.html

相关文章：

java的注解和反射

JVM的位置和JVM的结构体系

交互式剖腹产手术模拟系统开发方案

【openp2p】学习3：【专利分析】一种基于混合网络的自适应切换方法、装置、设备及介质

C# 事件(事件访问器)

vue中添加原生右键菜单

[特殊字符]全面解锁远程运维新时代：CRaxsRat v7.4 工具实用指南（附推荐资源）

Oracle 高级 SQL 查询与函数详解：多表连接、子查询、聚合、分析函数

冒泡和快速排序的区别

faster_lio 原理及代码

【Oracle专栏】分区表增加分区

WPF学习笔记（25）MVVM框架与项目

spring-ai-alibaba 1.0.0.2 学习（十二）——聊天记忆扩展包

深度学习的核心理论与技术

11_架构演进：从单体到云原生的蜕变

炸鸡派例程-ADC

RabbitMQ 4.1.1初体验-队列和交换机

【AI论文】WorldVLA：迈向自回归动作世界模型

第二章简单程序设计

盘式制动器的设计＋说明书和CAD）【6张】＋绛重

一种结合双阶段注意力循环神经网络（DA-RNN）和卷积块注意力模块（CBAM）的滚动轴承故障诊断方法

Rust实用案例解析

后端树形结构

Qt处理USB摄像头开发说明与QtMultimedia与V4L2融合应用

【爬虫】逆向爬虫初体验之爬取音乐

408第三季part2 - 计算机网络 - 物理层

由coalesce(1)OOM引发的coalesce和repartition理解

3dmax一键烘焙很多张贴图合并成一张贴图插件支持fbx/obj/blender多材质模型合并为一张贴图

OneCode自主UI设计体系：架构解析与核心实现

web前端面试-- MVC、MVP、MVVM 架构模式对比