深度学习基础:线性回归与Softmax回归全面解析
一、线性回归:从现实问题到数学模型
线性回归是深度学习中最基础的模型之一,常用于预测连续值。例如,在房价预测中,我们通过房屋的特征(如面积、位置等)来估计其价格。
核心概念:
输入:特征(如房屋面积、房间数)
输出:连续值(如房价)
目标:最小化预测值与真实值之间的差异
神经网络视角:
线性回归可以看作是一个单层神经网络,没有隐藏层,直接通过加权和偏置得到输出。
二、优化算法:梯度下降与随机梯度下降
梯度下降:
梯度是一个向量,指向函数值下降最快的方向。
通过不断沿梯度反方向更新参数,逐步逼近损失函数的最小值。
随机梯度下降:
每次使用一个样本更新参数,计算快但波动大。
小批量随机梯度下降是深度学习中常用的优化算法,平衡了计算效率和稳定性。
超参数选择:
学习率:太小收敛慢,太大可能震荡甚至发散。
批量大小:太小浪费计算资源,太大可能陷入局部最优。
三、从回归到分类:Softmax回归
回归 vs 分类
回归:输出连续值(如房价、温度)
分类:输出离散类别(如手写数字识别、图像分类)
Softmax回归(多类分类模型)
输出层神经元数等于类别数。
使用Softmax函数将输出转换为概率分布
每个输出值非负,且所有输出之和为1
损失函数:交叉熵
用于衡量预测概率分布与真实分布之间的差异。
比平方损失更适用于分类问题。
四、实际应用场景
MNIST:10类手写数字分类
ImageNet:1000类自然图像分类
Kaggle竞赛:如蛋白质图像分类、恶意评论分类等
五、总结
线性回归是回归问题的基础模型,通过梯度下降优化。
Softmax回归适用于多类分类,输出为概率分布。
小批量随机梯度下降是深度学习中默认的优化算法。
学习率和批量大小是训练过程中需要精心调优的超参数。