深度学习基础知识
1. 神经网络基础结构
-
神经元(Neuron)
-
作用:接收输入,计算加权和(线性变换),通过激活函数输出非线性结果。
-
公式:z=wTx+bz=wTx+b,a=σ(z)a=σ(z)。
-
-
层(Layer)
-
输入层:接收原始数据(如图像像素、文本向量)。
-
隐藏层:通过多层非线性变换提取高阶特征。
-
输出层:生成最终预测(如分类概率、回归值)。
-
2. 核心组件及作用
(1) 激活函数(Activation Function)
-
作用:引入非线性,使网络能够拟合复杂函数。
-
常见类型:
-
Sigmoid:输出0~1,用于二分类输出层(但易梯度消失)。
-
ReLU(Rectified Linear Unit):解决梯度消失,计算高效(负数输出为0)。
-
LeakyReLU:改进ReLU,负数区引入微小斜率避免“神经元死亡”。
-
Softmax:多分类输出层,将输出转化为概率分布。
-
(2) 损失函数(Loss Function)
-
作用:量化模型预测与真实值的差异,指导参数优化。
-
常见类型:
-
MSE(均方误差):回归任务。
-
交叉熵(Cross-Entropy):分类任务,尤其搭配Softmax。
-
Hinge Loss:支持向量机(SVM)分类任务。
-
(3) 优化器(Optimizer)
-
作用:调整网络参数以最小化损失函数。
-
常见类型:
-
SGD:随机梯度下降,基础但可能震荡。
-
Adam:结合动量与自适应学习率,常用且高效。
-
RMSProp:自适应调整学习率,适合非平稳目标。
-
(4) 正则化(Regularization)
-
作用:防止过拟合,提升泛化能力。
-
常见方法:
-
L1/L2正则化:约束权重大小(L1稀疏化,L2平滑权重)。
-
Dropout:训练时随机关闭部分神经元,减少依赖。
-
Batch Normalization:标准化层输入,加速训练并缓解梯度问题。
-
(5) 反向传播(Backpropagation)
-
作用:通过链式法则计算损失对参数的梯度,用于优化器更新权重。
3. 网络架构类型
-
卷积神经网络(CNN)
-
作用:处理网格数据(如图像),通过卷积核提取局部特征。
-
关键组件:卷积层、池化层(降维)、全连接层。
-
-
循环神经网络(RNN)
-
作用:处理序列数据(如文本、时间序列),保留历史信息。
-
改进变体:LSTM、GRU(解决长程依赖问题)。
-
-
Transformer
-
作用:基于自注意力机制,并行处理序列,擅长长距离依赖(如NLP任务)。
-
关键组件:Self-Attention、多头注意力、位置编码。
-
4. 训练流程
-
前向传播:数据通过网络计算预测值。
-
损失计算:比较预测与真实值。
-
反向传播:计算梯度。
-
参数更新:优化器调整权重。
-
迭代:重复直至收敛。
5. 其他重要技术
-
数据增强:扩充训练数据(如旋转图像),提升泛化性。
-
学习率调度:动态调整学习率(如余弦退火)。
-
迁移学习:复用预训练模型(如ResNet、BERT),加速新任务训练。