当前位置：首页 > news >正文

NNDL 作业三

news 2025/10/11 14:10:49

一、在 Logistic 回归中，是否可以用 $\hat{y}=\sigma(w^Tx)$ 去逼近正确的标签 yy，并用平方损失 $(y-\hat{y})^2$ 最小化来优化参数 w？

从理论上讲，用平方损失在分类问题上是可以优化的，但在 Logistic 回归中一般不这么做，原因有：

损失函数非凸
使用平方损失时，损失函数对于参数 ww 会变成非凸函数，容易陷入局部极小值，优化困难。

梯度消失问题
当预测值 y^y^ 接近 0 或 1 时，sigmoid 函数的梯度很小，而平方损失的梯度也依赖于 sigmoid 的梯度，这会导致梯度很小，参数更新缓慢。

概率解释与极大似然
Logistic 回归通常使用交叉熵损失（或对数损失），这来自于伯努利分布的极大似然估计，它与平方损失相比，对分类问题更合适，收敛更快，且是凸函数。

所以，虽然可以形式上用平方损失，但实际训练效果差，不推荐。

二、在Softmax回归的风险函数 $R(w)=-\frac{1}{N}\sum_{n=1}^N\sum_{c=1}^Cy^{(n)}\log\hat{y}^{(n)}$ 中，如果加上正则化项会有什么影响？

1.防止过拟合

正则化项一般通过添加一个惩罚系数来实现，这个惩罚系数会让模型在拟合训练数据的同时最小化模型参数的大小，从而避免出现过拟合。在加入正则化项的情况下，Softmax回归的风险函数会在后面增加一个损失项： $\frac{1}{2}\|w\|^2$

加入正则化项后，优化器在优化模型时除了最小化分类误差，还需要最小化正则化项的值。这样做的目的是平衡模型的复杂度和拟合训练数据的能力。正则化项的存在可以减小模型对训练数据的过拟合现象，提高模型的泛化性能。

通过调整正则化参数λ的值，可以控制正则化项对模型的影响程度。较小的λ值会更关注最小化分类误差，模型可能会更加复杂；而较大的λ值会更加平衡分类误差和正则化项，模型可能会更加简单。

2.减少溢出风险

风险函数求w的偏导：

$\frac{\partial{R(W)}}{\partial{W}}=-\frac{1}{N}\sum_{n=1}^N(\hat{y}^{(n)}-y^{(n)})x^{(n)}+\lambda{W}$

参数更新：

$W=W+\alpha\frac{1}{N}\sum_{n=1}^N(\hat{y}^{(n)}-y^{(n)})x^{(n)}-\lambda{W}$

加入正则化后，在更新参数时每次需要减去 $2\lambda{W}$ ，使得参数不会过大，减少溢出的风险。

3.稳定训练过程

正则化可以使优化过程更加稳定，避免因参数过大导致的梯度爆炸等问题，让模型的参数更新更平滑。

参考博客：https://blog.csdn.net/m0_63010299/article/details/133657299?spm=1001.2014.3001.5502