当前位置：首页 > news >正文

为什么“随机变量”是个函数？为什么“函数相加”会产生高斯分布？

news 2025/11/13 8:18:14

文章目录

随机变量是什么
分布是什么？
怎么理解中心极限定理？

随机变量是什么

随机变量是什么？如果你翻开概率论的书，那么你大概率会看到：

定义： 随机变量 $X:S→R{\displaystyle X:S\rightarrow \mathbb{R}}$ 是一个定义在样本空间 $S{\displaystyle S}$ 上的实函数，而 $E⊆P(S){\displaystyle \mathcal{E} \subseteq \mathcal{P} (S)}$ 为 $S{\displaystyle S}$ 的某事件族，若对任意实数 $r∈R{\displaystyle r\in \mathbb{R}}$ ，有：
${s∈S∣X(s)≤r}∈E{\displaystyle \{s\in S\ |\ X(s)\leq r\}\in \mathcal{E}}$
（也就是说， $X(s)≤r{\displaystyle X(s)\leq r}$ 必为一个事件）则称函数 $X{\displaystyle X}$ 为一个（在 $E\mathcal{{\displaystyle E}}$ 的意义下）定义在 $S{\displaystyle S}$ 上的随机变量。

看到这里可能你会充满迷惑：

怎么随机变量是一个函数？

你怎么会说一个变量是一个函数？？

一个函数又是怎么服从某个分布的？？？

最后，中心极限定理里面随机变量的求和然后服从高斯分布是什么情况？？？？

关于第一个问题“随机变量”(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量（比如 $x = 5$ 里的 $x$ ），它是一个函数 (Function)。

它到底在干什么？一句话总结：它是一个“翻译官”或“测量工具”。

它的工作是把现实世界中乱七八糟的、非数字的“随机结果 $ω\omega$ ”，“翻译”成一个我们可以做数学计算的“实数 $x$ ”。

我们可以用售货机来类比：设 $Ω\Omega$ (样本空间)，存在以下"样本"

$ω1=\omega _{1} =$ “启动可乐轨道”
$ω2=\omega _{2} =$ “启动雪碧轨道”
$ω3=\omega _{3} =$ “启动矿泉水轨道”

于是我们可以设 $P$ (概率测度): 为按某个按钮的概率。

$P(ω1)=50%P(\omega _{1} )=50\%$ , $P(ω2)=30%P(\omega _{2} )=30\%$ , $P(ω3)=20%P(\omega _{3} )=20\%$

于是** $X$ (随机变量/函数): ** 就是这台机器的**“定价系统”**，是一个函数：

$X(ω1)=3.0X(\omega _{1} )=3.0$
$X(ω2)=3.0X(\omega _{2} )=3.0$
$X(ω3)=2.0X(\omega _{3} )=2.0$

我们（作为用户）从不关心机器内部是 $ω1\omega _{1}$ 还是 $ω2\omega _{2}$ 被触发了。我们只关心我们最终观测到的那个输出值。

我们问 $P (X = 3.0)$ ，这其实是简写，它的全称是：
$P({ω∈Ω∣X(ω)=3.0})=P({ω1,ω2})=50%+30%=80%P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\%$

所以它是一个执行 $ω→x\omega \rightarrow x$ 的映射函数。而它被称为变量，是因为我们只关心它的输出值 $x$ 。

分布是什么？

在说分布是什么之前，先考虑一个问题，既然随机变量是个函数，那么如果我们说两个随机变量是同分布，那么他们的函数是不是就是相等的呢？

你可能会觉得是，但实际上“同分布” 并不一定 “函数相等”。

我们之所以觉得是，我们或许可以考虑抛硬币的例子：

场景：只抛一次硬币样本空间

Ω: {正面, 反面}
概率 P: P(正面) = 1/2, P(反面) = 1/2

此时我们定义随机变量 X:

X(正面) = 1

X(反面) = 0

定义随机变量 Y:

如果我们想让 Y 也代表这次抛掷的结果，那么唯一的可能就是：

Y(正面) = 1

Y(反面) = 0

所以从这个角度来讲，他们就是相等的。

那函数不是很正确吗，然而当我们在讨论同分布的时候，我们往往讨论的东西是，他们的求和，他们的联合分布，也就是多次抛硬币的场景，那么此时，我们往往研究的对象是，比如连续抛两次，出现正面的次数：
$S=X_{1} +X_{2}$
此时，S也是一个函数，满足：
$\omega ) =X_{1}( \omega ) +X_{2}( \omega )$
这时候他们就不再是相同的函数了。

为什么？

首先， $X\displaystyle X$ ， $Y\displaystyle Y$ 模型非常完美，但它只能描述一次抛掷。在这个世界里，只存在一次抛掷，只存在一个结果，也只存在一个随机变量 X，而无法定义我们这个新的随机变量S。

当我们说“连续抛两次”时，这已经超出了这个旧模型的描述能力。旧模型里根本没有“第一次”、“第二次”的概念。

为了描述“连续抛两次”这个新的物理现象，我们必须构建一个新的样本空间，才能够正确定义我们这个新的随机变量S的函数：

新样本空间 $Ω新\displaystyle \Omega _{新}$ : $Ω旧×Ω旧={ω1=(H,H),ω2=(H,T),ω3=(T,H),ω4=(T,T)}\displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\}$

这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点 $Ω新\displaystyle \Omega _{新}$ 代表一个完整的、有序的两次抛掷实验的结果。

为了适应这个新场景

我们需要重新定义随机变量：

新随机变量 X₁: $Ω新→R\displaystyle \Omega_{新}\rightarrow \mathbb{R}$
定义规则：忽略第二个分量，将第一个分量代入旧的 X 函数。
$X1(s1,s2)=X(s1)\displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1})$ //注意，这里的 X 是旧的那个函数
新随机变量 X₂: $Ω新→R\displaystyle \Omega_{新}\rightarrow \mathbb{R}$
定义规则：忽略第一个分量，将第二个分量代入旧的 X 函数。
$X2(s1,s2)=X(s2)\displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2})$ //注意，这里的 X 是旧的那个函数

这才是连续抛两次硬币的随机变量的定义。

所以这时候你就会发现，这两个函数式不一样的！

例如取 $ω2=(H,T)\omega _{2} =(H,T)$ ，那么
* $X1(ω2)=1X_{1} (\omega _{2} )=1$ （因为第一次是 H）
* $X2(ω2)=0X_{2} (\omega _{2} )=0$ （因为第二次是 T）
* $X1(ω2)≠X2(ω2)X_{1} (\omega _{2} )\neq X_{2} (\omega _{2} )$ 。所以 $X_{1}$ 和 $X_{2}$ 是两个不同的函数。

那它们同分布吗？是的，因为，

$P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2$
$P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2$
$X_{1}$ 的分布是 {50% 概率 1, 50% 概率 0}。
而
$P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2$
$P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2$
$X_{2}$ 的分布也是 {50% 概率 1, 50% 概率 0}。

所以，他们是不同的函数，却拥有相同的分布，最重要的是，在这里例子中，他们每个函数只看自己的维度，此时我们就发现了独立性！

怎么理解中心极限定理？

我们将上面的例子进一步推广，那么中心极限定理就是研究这个新函数：
$Sn=X1+X2+…+XnS_{n} =X_{1} +X_{2} +\dotsc +X_{n}$
那么函数 $S_{n}$ 要如何产生高斯分布？

首先，根据我们上面的定义，它也是一个函数：
$Sn(ω)=X1(ω)+X2(ω)+…+Xn(ω)S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega )$
在我们扔 $n$ 次硬币的例子中：
$Sn(ω)S_{n} (\omega )$ = $X_{1}$ (看第1维) + … + $X_{n}$ (看第n维) = $ω\omega$ 序列中 H 的总个数。

我们问：为什么 $S_{n}$ 这个函数（数H的个数）的“输出值”会服从高斯分布？

那么这个问题的设定是：

高维样本点 $ω\omega$ ： 一个 $n$ 维的向量，例如 $ω=(H,T,H,H,…,T)\omega =(H,T,H,H,\dotsc ,T)$ 。
$n$ 个独立函数 $X_{i}$ ： $X_{i}$ 是一个“投影”函数，它只看 $ω\omega$ 的第 $i$ 个维度。
- $X1(ω)=X1(H,T,…)=H→1X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1$
- $X2(ω)=X2(H,T,…)=T→0X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0$
- $X3(ω)=X3(H,T,…)=H→1X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1$
- …
求和函数 $S_{n}$ ：

$Sn(ω)=∑i=1nXi(ω)S_{n} (\omega )=\sum _{i=1}^{n} X_{i} (\omega )$
在这个例子中， $Sn(ω)S_{n} (\omega )$ 就是简单地“计算 $ω\omega$ 序列中 H 的总个数”。

因此，我们的问题是：

为什么 $S_{n}$ 这个函数（“数H的个数”）的输出值的分布会是高斯分布？

那么分布其实就是看 $S_{n}$ 在映射时，哪个输出点“更拥挤”，我们来数一数：

$S_{n}$ 输出 $k = n$ (极端值):
$Sn(ω)=nS_{n} (\omega )=n$ 意味着“H的个数为n”。
在 $2^{n}$ 个 $ω\omega$ 中，有几个满足？
只有 1 个： $ω=(H,H,…,H)\omega =(H,H,\dotsc ,H)$ 。
这需要 $n$ 个 $X_{i}$ 同时为1
$S_{n}$ 输出 $k = 0$ (极端值):
$Sn(ω)=0S_{n} (\omega )=0$ 意味着“H的个数为0”。
只有 1 个： $ω=(T,T,…,T)\omega =(T,T,\dotsc ,T)$ 。
$S_{n}$ 输出 $k = n /2$ (中间值):
$Sn(ω)=n/2S_{n} (\omega )=n/2$ 意味着“H的个数为 $n /2$ ”。
有多少个 $ω\omega$ 满足？
这等于“从 $n$ 个位置中选 $n /2$ 个位置放 H”。
数量是 $C (n, n /2)$ (组合数)。