深度学习(2)
一、线性回归
基本概念:用于预测连续值(如房价估计)。
与神经网络的关系:线性回归可视为单层神经网络。
损失函数:使用均方误差等衡量预测值与真实值的差异。
- 优化方法:使用梯度下降法来最小化损失函数。
- 梯度指向函数值下降最快的方向。
- 通过迭代更新参数(权重和偏置)来逼近最优解。
- 随机梯度下降与小批量随机梯度下降:
- 随机梯度下降每次使用一个样本更新参数,计算快但噪声大。
- 小批量随机梯度下降是深度学习中常用的优化算法,平衡了效率和稳定性。
- 超参数:
- 学习率:控制更新步长,不宜过大或过小。
- 批量大小:影响训练效率和稳定性。
二、Softmax 回归
- 用于多类分类问题(如手写数字识别、图像分类)。
- 输出为每个类别的置信度,通过 Softmax 函数转换为概率分布(非负、和为 1)。
- 与线性回归的区别:
- 回归输出连续值,分类输出离散类别。
- Softmax 回归输出多个值,表示属于各类别的概率。
- 网络结构:输出层神经元数等于类别数,为全连接层。
- 损失函数:常用交叉熵损失(Cross-Entropy Loss),适用于比较概率分布。
三、应用示例
- MNIST:10 类手写数字分类。
- ImageNet:1000 类自然图像分类。
- Kaggle 任务:如蛋白质图像分类(28 类)、恶语评论分类(7 类)。
四、总结
- 线性回归用于回归任务,Softmax 回归用于多分类任务。
- 梯度下降及其变体(如 SGD、Mini-batch SGD)是训练模型的核心算法。
- 学习率和批量大小是影响训练效果的关键超参数。
- Softmax 函数将输出转换为概率分布,交叉熵损失常用于分类任务。