【全连接神经网络】基本原理
文章目录
- 1.1全连接神经网络的整体结构
- 1.2全连接神经网络的结构单元
- 1.3激活函数
- 1.3.1 sigmoid激活函数
- 1.3.2 Tanh激活函数
- 1.3.3 ReLU激活函数
- 1.3.4 Leaky ReLU激活函数
- 1.3.5 注意
- 1.4前向传播
- 1.5损失函数
- 1.5.1均方误差损失函数
- 1.6反向传播
- 1.6.1梯度下降法
1.1全连接神经网络的整体结构
基本组成: 输入层 ------> 若干隐藏层 ------> 输出层
1.2全连接神经网络的结构单元
结构单元,也可以说是 神经元。即图中的一个个圈 O 。
一个神经元的运算逻辑如下:
a=h(W11∗X1+W12∗X2+W13∗X3+b1)a=h(W_{11}*X_1+W_{12}*X_2+W_{13}*X_3+b_1) a=h(W11∗X1+W12∗X2+W13∗X3+b1)
其中,w 和 b 称为 参数,h 是 激活函数,x 是输入,a 是输出,一个好的神经网络就是找到一组最优的w和b,使模型输出a最优。
1.3激活函数
激活函数一般选 非线性函数,线性函数可能会导致隐藏层失效。
1.3.1 sigmoid激活函数
1.3.2 Tanh激活函数
1.3.3 ReLU激活函数
1.3.4 Leaky ReLU激活函数
1.3.5 注意
可以观察到,激活函数各有优缺点,没有最好的激活函数,只有最合适的激活函数。
1.4前向传播
通俗来说,前向传播就是:给定输入X,计算模型的输出结果Y。
一个简单的例子如下:
1.5损失函数
通俗来说,就是计算 预测值 和 真实值 之间的误差。既然是误差的话,当然是越小越好。
1.5.1均方误差损失函数
公式如下:
其中,m是样本数,f(x)是模型预测值,即前向传播的最终结果,它也是w和b的函数,y是真实值。1/2是为了求导方便,更好的计算梯度。
J(w,b)或J(x)=12m∑i=1m(f(xi)−yi)2J(w, b)或J(x)=\frac {1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2 J(w,b)或J(x)=2m1i=1∑m(f(xi)−yi)2
1.6反向传播
前面讲“一个好的神经网络就是找到一组最优的w和b,使模型输出a最优”,怎么找到最优的w和b?靠的就是 反向传播。
反向传播的作用是更新参数w和b。常用梯度下降法。
1.6.1梯度下降法
梯度下降法参数更新的计算公式如下:
w=w−a∂J(w,b)∂wb=b−a∂J(w,b)∂bw=w-a\frac {\partial J(w, b)}{\partial w} \\ b=b-a\frac {\partial J(w, b)}{\partial b} w=w−a∂w∂J(w,b)b=b−a∂b∂J(w,b)
来看一个具体的例子:
2025.10.12 上午学习做的该笔记,前两天看的是土堆哥的视频,但是我感觉他的风格不太适合我,听着感觉很累,而且他的视频太久远了,我怕…,还是跟炮哥吧,简单粗暴,本篇的内容之前学过,这里再复习一下,还是有收获的。我导师放养我,不知道是好是坏,主要怕毕不了业,开学一个月了组会没开过论文没看过,我怕落后别人太多,先学点东西,自我安慰,哈哈哈哈呜呜呜呜呜…