当前位置：首页 > news >正文

字节面试手撕题：神经网络模型损失函数与梯度推导

news 2025/8/28 15:17:12

题目

设神经网络模型 $y = \sigma(w_0 + w_1 x)$ ，其中 $\sigma$ 是Sigmoid函数：

（1）写出Sigmoid函数的表达式并求导，对于简单的二分类问题，损失函数采用什么？

（2）采用（1）中的损失函数，推导反向传播中损失函数对神经网络参数 $w_0,w_1$ 的梯度表达式；

（3）对于单个样本，写出神经网络参数 $w_0,w_1$ 更新的表达式；对于多个样本（如batch_size=10）呢？

（4）若训练中发现模型损失为NaN，问题可能出在哪里，有什么排查方法？

解答

（1）Sigmoid函数是一种常用的激活函数，用于将输入值映射到（0,1）区间，其表达式为：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

Sigmoid函数的导数可以通过链式法则求得。令 $y = \sigma(z)$ ，则导数如下：

$\frac{d\sigma(z)}{dz} = \sigma(z) \cdot (1 - \sigma(z)) = y \cdot (1 - y)$

推导过程：

设 $\sigma(z) = \frac{1}{1 + e^{-z}}$ ，令 $u = 1 + e^{-z}$ ，则 $\sigma(z) = u^{-1}$

$\frac{d\sigma}{du} = -u^{-2} = -\frac{1}{(1 + e^{-z})^2}$ ，又 $\frac{du}{dz} = -e^{-z}$

因此， $\frac{d\sigma}{dz} = \frac{d\sigma}{du} \cdot \frac{du}{dz} = \left( -\frac{1}{(1 + e^{-z})^2} \right) \cdot (-e^{-z}) = \frac{e^{-z}}{(1 + e^{-z})^2}$

注意到 $\frac{e^{-z}}{(1 + e^{-z})^2} = \frac{1}{1 + e^{-z}} \cdot \frac{e^{-z}}{1 + e^{-z}} = \sigma(z) \cdot (1 - \sigma(z))$ ，因为 $\frac{e^{-z}}{1 + e^{-z}} = 1 - \sigma(z)$

对于简单的二分类问题，损失函数采用二分类交叉熵损失（Binary Cross-Entropy Loss）。对于单个样本，损失函数 L 定义为：

$L = - \left[ t \log(y) + (1 - t) \log(1 - y) \right]$

其中：
t 是真实标签（取值为 0 或 1），
y 是模型的预测概率（本题中即 $y = \sigma(w_0 + w_1 x)$ ）。

该损失函数衡量了预测概率 y 与真实标签 t 之间的差异，常用于逻辑回归和神经网络中的二分类任务。

（2）对于给定神经网络模型 $y = \sigma(w_0 + w_1 x)$ ，其中 $\sigma(z) = \frac{1}{1 + e^{-z}}$ 是 Sigmoid 函数，损失函数采用二分类交叉熵损失（对于单个样本）：

$L = - \left[ t \log(y) + (1 - t) \log(1 - y) \right]$

其中 t 是真实标签（0 或 1）， y 是预测值。

通过反向传播，损失函数对参数 $w_0,w_1$ 的梯度表达式如下：

损失函数对 $w_0$ 的梯度： $\frac{\partial L}{\partial w_0} = y - t$

损失函数对 $w_1$ 的梯度： $\frac{\partial L}{\partial w_1} = (y - t) \cdot x$

推导说明：

推导过程使用链式法则：

1. 计算 $\frac{\partial L}{\partial y}$ ：

$\frac{\partial L}{\partial y} = -\frac{t}{y} + \frac{1-t}{1-y}$

2. 计算 $\frac{\partial y}{\partial z}$ （其中 $z=w_0+w_1x$ )：利用 Sigmoid 函数的导数：

$\frac{\partial y}{\partial z} = y(1 - y)$

3. 计算 $\frac{\partial L}{\partial z} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial z}$ ：

$\frac{\partial L}{\partial z} = \left( -\frac{t}{y} + \frac{1-t}{1-y} \right) \cdot y(1-y) = y - t$

4. 最后，计算对 $w_0,w_1$ 的梯度：

$\frac{\partial z}{\partial w_0} = 1$ ，所以 $\frac{\partial L}{\partial w_0} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w_0} = (y - t) \cdot 1 = y - t$

$\frac{\partial z}{\partial w_1} = x$ ，所以 $\frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w_1} = (y - t) \cdot x$