当前位置：首页 > news >正文

深度学习中神经网络与损失函数优化

news 2025/9/21 5:41:28

一、神经网络基础

人工神经网络（ANN）：模仿人脑神经元结构的计算模型，核心是 “人工神经元”。

生物神经元：树突接收信号→细胞核处理→轴突输出信号（需达到阈值才激活）。

人工神经元：对输入x加权求和（Σx*w + b，w是权重、b是偏置），再通过激活函数输出，公式为 output = f(Σx*w + b)。

网络层级	作用	关键特点
输入层	接收原始数据（如图片像素、手机参数）	神经元数量 = 输入特征数（如手机数据有 20 个特征，输入层就有 20 个神经元）
隐藏层	提取数据特征（复杂逻辑由多层隐藏层实现）	同一层无连接，与相邻层全连接（第 N 层每个神经元连第 N-1 层所有神经元）
输出层	输出预测结果（分类 / 回归）	分类任务：神经元数量 = 类别数（如手机价格 4 分类，输出层 4 个神经元）；回归任务：1 个神经元

没有激活函数：网络本质是 “线性模型”，无法拟合复杂数据（如房价与面积的非线性关系）。

有激活函数：通过非线性变换，让网络能逼近任意复杂函数，解决复杂任务。

隐藏层：优先 ReLU → 效果差换 Leaky ReLU（解决神经元死亡）；

输出层：二分类用 Sigmoid、多分类用 SoftMax、回归用 “恒等函数”（直接输出，无激活）。

全0/全1初始化：所有神经元输出相同，梯度相同，权重无法更新（“对称权重问题”）；

随机值太大：激活函数输出趋近于 0 或 1，梯度消失，训练不动。

方法	原理	适用场景	代码示例
均匀分布	在`(-1/√d, 1/√d)`随机取值（d = 输入神经元数）	通用场景	`nn.init.uniform_(linear.weight)`
正态分布	均值 = 0，标准差 = 1，取小值	通用场景	`nn.init.normal_(linear.weight, mean=0, std=1)`
He 初始化（Kaiming）	正态分布：`std=√(2/d)`；均匀分布：`limit=√(6/d)`	搭配 ReLU 激活函数（隐藏层）	`nn.init.kaiming_normal_(linear.weight)`
Xavier 初始化	正态分布：`std=√(2/(d_in+d_out))`；均匀分布：`limit=√(6/(d_in+d_out))`	搭配 Sigmoid/Tanh 激活函数	`nn.init.xavier_normal_(linear.weight)`

3.注：pytorch层（如nn.Linear）有默认初始化，但复杂网络建议手动用 kaiming/Xavier。

损失函数越小，模型预测越准，核心分“分类任务”和回归任务两类。

损失函数	公式	适用场景	PyTorch 代码
多分类交叉熵	`L=-Σy_true*log(y_pred)`（y_pred 是 SoftMax 输出）	多分类（类别互斥）	`nn.CrossEntropyLoss()`（内置 SoftMax，输入无需先过 SoftMax）
二分类交叉熵	`L=-y_truelog(y_pred) - (1-y_true)log(1-y_pred)`	二分类	`nn.BCELoss()`（输入需先过 Sigmoid，输出是概率）

损失函数	公式	优点	缺点	PyTorch 代码
MAE（L1 损失）	`L=Σ	y_true - y_pred	/n`	对异常值鲁棒（不怕极端值）	梯度在 0 点不平滑，易跳过最优解	`nn.L1Loss()`
MSE（L2 损失）	`L=Σ(y_true - y_pred)²/n`	梯度平滑，训练稳定	对异常值敏感（极端值会放大损失）	`nn.MSELoss()`
Smooth L1	分段函数：	x	<1 时`0.5x²`，	x	≥1 时 `	x	-0.5`	结合 MAE 和 MSE 优点，鲁棒且平滑	计算略复杂	`nn.SmoothL1Loss()`

核心解决“梯度下降慢、卡鞍点、局部最小值问题”，分“优化器”和“学习率衰减”两类。

优化器	原理	优点	适用场景	PyTorch 代码
SGD（随机梯度下降）	`w = w - lr*grad`（每次用一个 Batch 更新）	简单，通用	基础场景，需搭配动量	`optim.SGD([w], lr=0.01, momentum=0.9)`
Momentum（动量）	累加历史梯度：`grad_total = βgrad_prev + (1-β)grad_curr`	缓解震荡，加速收敛，易跨过鞍点	所有场景，尤其是数据震荡时	同上（加 momentum 参数）
AdaGrad	自适应学习率：`lr_i = lr/√(Σgrad_i² + ε)`（梯度大的参数，学习率小）	适合稀疏数据（如文本）	后期学习率可能过小，停在次优解	`optim.Adagrad([w], lr=0.01)`
RMSProp	改进 AdaGrad：用指数加权平均替代历史梯度和	解决 AdaGrad 学习率衰减过快问题	通用场景，尤其是非凸优化	`optim.RMSprop([w], lr=0.01, alpha=0.9)`
Adam	结合 Momentum（梯度平滑）和 RMSProp（自适应学习率）	收敛快、稳定，几乎所有场景最优	推荐首选（90% 以上任务用）	`optim.Adam([w], lr=0.01, betas=[0.9, 0.99])`