深度学习_第二轮
损失函数
对偏置和权重求导,x、y作为常量
确实,当进行模型训练时,(x) 和 (y) 分别代表输入特征和对应的输出值,它们以数据点对的形式存在,一个数据集中通常包含多对这样的数据。每一对 ((x_i), (y_i)) 代表了数据集中的一个样本。在计算损失函数的梯度(即关于权重的偏导数)时,需要考虑整个数据集中的所有样本。
对于每个样本 ((x_i), (y_i)),我们计算其对损失函数的贡献,并通过求和或平均这些贡献来得到整体的损失值及其梯度。这意味着,在实际操作中,虽然在计算单个样本的偏导数时 (x_i) 和 (y_i) 被视为常量,但这一过程会针对数据集中的每一个样本重复执行。
具体来说:
- 在批量梯度下降中,我们会遍历整个数据集,计算所有样本的平均梯度,然后使用这个平均梯度更新一次权重。
- 在**随机梯度下降(SGD)**中,每次只用一个样本 ((x_i), (y_i)) 来估计梯度并立即更新权重。
- 在小批量梯度下降中,则是每次使用一个小批次(mini-batch)的样本,计算这批样本的平均梯度来更新权重。
因此,即使 (x) 和 (y) 在处理每个样本时被视为常量,为了优化模型参数,我们需要遍历数据集中的所有 ((x_i), (y_i)) 对,利用它们提供的信息来指导权重的更新方向。这样,随着迭代次数增加,模型能够逐渐学习到数据中的模式,从而对未见过的数据做出准确预测。