为什么“随机变量”是个函数?为什么“函数相加”会产生高斯分布?
文章目录
- 随机变量是什么
- 分布是什么?
- 怎么理解中心极限定理?
随机变量是什么
随机变量是什么?如果你翻开概率论的书,那么你大概率会看到:
定义: 随机变量X:S→R{\displaystyle X:S\rightarrow \mathbb{R}}X:S→R 是一个定义在样本空间S{\displaystyle S}S 上的实函数,而E⊆P(S){\displaystyle \mathcal{E} \subseteq \mathcal{P} (S)}E⊆P(S) 为S{\displaystyle S}S 的某事件族,若对任意实数r∈R{\displaystyle r\in \mathbb{R}}r∈R ,有:
{s∈S∣X(s)≤r}∈E{\displaystyle \{s\in S\ |\ X(s)\leq r\}\in \mathcal{E}} {s∈S ∣ X(s)≤r}∈E
(也就是说,X(s)≤r{\displaystyle X(s)\leq r}X(s)≤r 必为一个事件)则称函数X{\displaystyle X}X 为一个(在E\mathcal{{\displaystyle E}}E 的意义下)定义在S{\displaystyle S}S 上的随机变量。
看到这里可能你会充满迷惑:
怎么随机变量是一个函数?
你怎么会说一个变量是一个函数??
一个函数又是怎么服从某个分布的???
最后,中心极限定理里面随机变量的求和然后服从高斯分布是什么情况????
关于第一个问题“随机变量”(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量(比如x=5x=5x=5 里的xxx),它是一个函数 (Function)。
它到底在干什么?一句话总结:它是一个“翻译官”或“测量工具”。
它的工作是把现实世界中乱七八糟的、非数字的“随机结果ω\omegaω”,“翻译”成一个我们可以做数学计算的“实数xxx”。
我们可以用售货机来类比:设 Ω\OmegaΩ (样本空间),存在以下"样本"
- ω1=\omega _{1} =ω1= “启动可乐轨道”
- ω2=\omega _{2} =ω2= “启动雪碧轨道”
- ω3=\omega _{3} =ω3= “启动矿泉水轨道”
于是我们可以设 PPP (概率测度): 为按某个按钮的概率。
- P(ω1)=50%P(\omega _{1} )=50\%P(ω1)=50%,P(ω2)=30%P(\omega _{2} )=30\%P(ω2)=30%,P(ω3)=20%P(\omega _{3} )=20\%P(ω3)=20%
于是**XXX (随机变量/函数): ** 就是这台机器的**“定价系统”**,是一个函数:
- X(ω1)=3.0X(\omega _{1} )=3.0X(ω1)=3.0
- X(ω2)=3.0X(\omega _{2} )=3.0X(ω2)=3.0
- X(ω3)=2.0X(\omega _{3} )=2.0X(ω3)=2.0
我们(作为用户)从不关心机器内部是ω1\omega _{1}ω1 还是ω2\omega _{2}ω2 被触发了。我们只关心我们最终观测到的那个输出值。
我们问P(X=3.0)P(X=3.0)P(X=3.0),这其实是简写,它的全称是:
P({ω∈Ω∣X(ω)=3.0})=P({ω1,ω2})=50%+30%=80%P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\%P({ω∈Ω∣X(ω)=3.0})=P({ω1,ω2})=50%+30%=80%
所以它是一个执行ω→x\omega \rightarrow xω→x 的映射函数。而它被称为变量,是因为我们只关心它的输出值xxx。
分布是什么?
在说分布是什么之前,先考虑一个问题,既然随机变量是个函数,那么如果我们说两个随机变量是同分布,那么他们的函数是不是就是相等的呢?
你可能会觉得是,但实际上“同分布” 并不一定 “函数相等”。
我们之所以觉得是,我们或许可以考虑抛硬币的例子:
场景:只抛一次硬币样本空间
- Ω: {正面, 反面}
- 概率 P: P(正面) = 1/2, P(反面) = 1/2
此时我们定义随机变量 X:
X(正面) = 1
X(反面) = 0
定义随机变量 Y:
如果我们想让 Y 也代表这次抛掷的结果,那么唯一的可能就是:
Y(正面) = 1
Y(反面) = 0
所以从这个角度来讲,他们就是相等的。
那函数不是很正确吗,然而当我们在讨论同分布的时候,我们往往讨论的东西是,他们的求和,他们的联合分布,也就是多次抛硬币的场景,那么此时,我们往往研究的对象是,比如连续抛两次,出现正面的次数:
S=X1+X2S=X_{1} +X_{2} S=X1+X2
此时,S也是一个函数,满足:
S(ω)=X1(ω)+X2(ω)S( \omega ) =X_{1}( \omega ) +X_{2}( \omega ) S(ω)=X1(ω)+X2(ω)
这时候他们就不再是相同的函数了。
为什么?
首先,X\displaystyle XX,Y\displaystyle YY模型非常完美,但它只能描述一次抛掷。在这个世界里,只存在一次抛掷,只存在一个结果,也只存在一个随机变量 X,而无法定义我们这个新的随机变量S。
当我们说“连续抛两次”时,这已经超出了这个旧模型的描述能力。旧模型里根本没有“第一次”、“第二次”的概念。
为了描述“连续抛两次”这个新的物理现象,我们必须构建一个新的样本空间,才能够正确定义我们这个新的随机变量S的函数:
- 新样本空间Ω新\displaystyle \Omega _{新}Ω新:Ω旧×Ω旧={ω1=(H,H),ω2=(H,T),ω3=(T,H),ω4=(T,T)}\displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\}Ω旧×Ω旧 = {ω1=(H,H), ω2=(H,T),ω3=(T,H),ω4=(T,T)}
这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点Ω新\displaystyle \Omega _{新}Ω新 代表一个完整的、有序的两次抛掷实验的结果。
为了适应这个新场景
我们需要重新定义随机变量:
-
新随机变量 X₁:Ω新→R\displaystyle \Omega_{新}\rightarrow \mathbb{R}Ω新→R
-
定义规则:忽略第二个分量,将第一个分量代入旧的
X函数。 -
X1(s1,s2)=X(s1)\displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1})X1(s1, s2) = X(s1) //注意,这里的
X是旧的那个函数 -
新随机变量 X₂:Ω新→R\displaystyle \Omega_{新}\rightarrow \mathbb{R}Ω新→R
-
定义规则:忽略第一个分量,将第二个分量代入旧的
X函数。 -
X2(s1,s2)=X(s2)\displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2})X2(s1, s2) = X(s2) //注意,这里的
X是旧的那个函数
这才是连续抛两次硬币的随机变量的定义。
所以这时候你就会发现,这两个函数式不一样的!
例如取ω2=(H,T)\omega _{2} =(H,T)ω2=(H,T),那么
*X1(ω2)=1X_{1} (\omega _{2} )=1X1(ω2)=1 (因为第一次是 H)
*X2(ω2)=0X_{2} (\omega _{2} )=0X2(ω2)=0 (因为第二次是 T)
*X1(ω2)≠X2(ω2)X_{1} (\omega _{2} )\neq X_{2} (\omega _{2} )X1(ω2)=X2(ω2)。所以X1X_{1}X1 和X2X_{2}X2 是两个不同的函数。
那它们同分布吗?是的,因为,
- P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2
- P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2
- X1X_{1}X1 的分布是 {50% 概率 1, 50% 概率 0}。
而 - P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2
- P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2
- X2X_{2}X2 的分布也是 {50% 概率 1, 50% 概率 0}。
所以,他们是不同的函数,却拥有相同的分布,最重要的是,在这里例子中,他们每个函数只看自己的维度,此时我们就发现了独立性!
怎么理解中心极限定理?
我们将上面的例子进一步推广,那么中心极限定理就是研究这个新函数:
Sn=X1+X2+…+XnS_{n} =X_{1} +X_{2} +\dotsc +X_{n} Sn=X1+X2+…+Xn
那么函数SnS_{n}Sn 要如何产生高斯分布?
首先,根据我们上面的定义,它也是一个函数:
Sn(ω)=X1(ω)+X2(ω)+…+Xn(ω)S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega ) Sn(ω)=X1(ω)+X2(ω)+…+Xn(ω)
在我们扔nnn 次硬币的例子中:
Sn(ω)S_{n} (\omega )Sn(ω) =X1X_{1}X1 (看第1维) + … +XnX_{n}Xn (看第n维) = ω\omegaω 序列中 H 的总个数。
我们问:为什么SnS_{n}Sn 这个函数(数H的个数)的“输出值”会服从高斯分布?
那么这个问题的设定是:
-
高维样本点ω\omegaω: 一个nnn 维的向量,例如ω=(H,T,H,H,…,T)\omega =(H,T,H,H,\dotsc ,T)ω=(H,T,H,H,…,T)。
-
nnn 个独立函数XiX_{i}Xi:XiX_{i}Xi 是一个“投影”函数,它只看ω\omegaω 的第iii 个维度。
- X1(ω)=X1(H,T,…)=H→1X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1X1(ω)=X1(H,T,…)=H→1
- X2(ω)=X2(H,T,…)=T→0X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0X2(ω)=X2(H,T,…)=T→0
- X3(ω)=X3(H,T,…)=H→1X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1X3(ω)=X3(H,T,…)=H→1
- …
-
求和函数SnS_{n}Sn:
Sn(ω)=∑i=1nXi(ω)S_{n} (\omega )=\sum _{i=1}^{n} X_{i} (\omega ) Sn(ω)=i=1∑nXi(ω)
在这个例子中,Sn(ω)S_{n} (\omega )Sn(ω) 就是简单地“计算ω\omegaω 序列中 H 的总个数”。
因此,我们的问题是:
为什么SnS_{n}Sn 这个函数(“数H的个数”)的输出值的分布会是高斯分布?
那么分布其实就是看SnS_{n}Sn 在映射时,哪个输出点“更拥挤”,我们来数一数:
-
SnS_{n}Sn 输出k=nk=nk=n (极端值):
Sn(ω)=nS_{n} (\omega )=nSn(ω)=n 意味着“H的个数为n”。
在2n2^{n}2n 个ω\omegaω 中,有几个满足?
只有 1 个:ω=(H,H,…,H)\omega =(H,H,\dotsc ,H)ω=(H,H,…,H)。
这需要nnn 个XiX_{i}Xi 同时为1 -
SnS_{n}Sn 输出k=0k=0k=0 (极端值):
Sn(ω)=0S_{n} (\omega )=0Sn(ω)=0 意味着“H的个数为0”。
只有 1 个:ω=(T,T,…,T)\omega =(T,T,\dotsc ,T)ω=(T,T,…,T)。 -
SnS_{n}Sn 输出k=n/2k=n/2k=n/2 (中间值):
Sn(ω)=n/2S_{n} (\omega )=n/2Sn(ω)=n/2 意味着“H的个数为n/2n/2n/2”。
有多少个ω\omegaω 满足?
这等于“从nnn 个位置中选n/2n/2n/2 个位置放 H”。
数量是C(n,n/2)C(n,n/2)C(n,n/2) (组合数)。
这,就是高斯分布。
高斯分布(钟形曲线)的形状,就是C(n,k)C(n,k)C(n,k) 这个组合数函数kkk 的形状,也就是二项分布B(n,p)B(n,p)B(n,p) 在nnn 很大时的极限)。
因此,直觉上CLT之所以成立,就是因为落在中间的位置的可能性更多,而两边少。
而这个直觉是可以推广到任意独立同分布的情况,而这就是中心极限定理了。
