当前位置：首页 > news >正文

神经网络之为什么回归任务的输出是高斯分布的均值

news 2025/10/8 5:49:53

现实中，我们观测到的 $y$ 往往不是完美确定的，它受到测量误差、随机性等因素的影响。

因此我们建模如下：

$\boxed{ y_i = f(x_i; \theta) + \epsilon_i }$

含义：

也就是说：预测加上一个噪声，才是我们实际观察到的 $y_i$ 。

我们假设噪声 $ϵi\epsilon_i$ 服从一个均值为 0、方差为 $σ2\sigma^2$ 的高斯分布：

$\boxed{ \epsilon_i \sim \mathcal{N}(0, \sigma^2) }$

这意味着每个误差项是：

现在我们知道：

$y_i = f(x_i; \theta) + \epsilon_i, \quad \epsilon_i \sim \mathcal{N}(0, \sigma^2)$

这是“一个固定值 + 高斯噪声”的形式。

根据概率论中的性质：

如果 $\sim \mathcal{N}(0, \sigma^2)$ ，那么 $\sim \mathcal{N}(a, \sigma^2)$

所以我们可以得到：

$\boxed{ y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2) }$

我们刚刚推导出的这句话说：

在给定输入 $x_i$ 的情况下，输出 $y_i$ 是一个高斯随机变量，它的均值是神经网络的输出 $f(xi;θ)f(x_i; \theta)$ ，而方差是固定的 $σ2\sigma^2$ 。

因此，神经网络预测的就是这个高斯分布的均值。

我们是从以下建模出发的：

$y_i = f(x_i; \theta) + \epsilon_i$

由于 $ϵi\epsilon_i$ 的均值是 0，所以整个 $y_i$ 的期望是：

$\mathbb{E}[y_i \mid x_i] = \mathbb{E}[f(x_i; \theta) + \epsilon_i] = f(x_i; \theta) + \mathbb{E}[\epsilon_i] = f(x_i; \theta)$

所以：

神经网络的输出 $f(xi;θ)f(x_i; \theta)$ 就是模型对 $y_i$ 的 条件期望值，也就是高斯分布的均值。

设模型输出：

$f(x_i; \theta) = 5$

噪声为 $ϵi∼N(0,1)\epsilon_i \sim \mathcal{N}(0, 1)$ ，则：

$y_i = 5 + \epsilon_i \sim \mathcal{N}(5, 1)$

这意味着：

步骤	内容
1️⃣	观测值建模： $yi=f(xi;θ)+ϵiy_i = f(x_i; \theta) + \epsilon_i$
2️⃣	假设噪声： $ϵi∼N(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma^2)$
3️⃣	推出输出： $yi∼N(f(xi;θ),σ2)y_i \sim \mathcal{N}(f(x_i; \theta), \sigma^2)$
✅	所以：神经网络输出的是这个分布的均值