对伯努利过程的理解
伯努利过程是一系列独立同分布的随机事件,这个事件叫伯努利试验,试验的结果只有成功和失败,即
随机变量的取值只能为0或者1,且取值为1的概率为p,那么取值为0的改为为1-p,这也是伯努利分布
一般认为1是成功,0是失败
其涉及以下问题:
1.n次事件中成功k次的概率可用二项分布表示,其期望为np,方差为np(1−p)
2.成功r次时的失败次数为k次的概率(或成功r次时事件次数为n=r+k)可用负二项分布表示
3.成功1次所需要的随机事件(试验)次数k(或成功1次时失败的次数k-1)可用几何分布表示,几何分布是当r=1时的负二项分布
伯努利过程的合并
如果有两个伯努利过程A和B,A的事件发生概率为p,B中事件发生概率为q,可以将这两个事件合并起来得到一个新的伯努利过程C,其发生概率为1-(1-p)(1-q)=p+q-pq
【问题实例】
抛硬币
由于影响硬币的各种偶然因素非常多,因此通常认为硬币正面的概率为期望值,即0.5
如果一个人连续投掷了十次硬币,都是正面,那么下一次是正面的概率是多少?
在理想情况下,事件是独立同分布的,那么应该是下一次正面概率仍然为0.5
而在实际情况下,事件不一定是同分布的,或者硬币正面的概率不为0.5,因此,下一次正面的概率大于0.5
因为,同分布下连续10次正面的概率极低,基本不可能出现,如果出现了,可以反推硬币正面概率大于0.5
换个方式可能更好理解:一个被做了手脚的硬币,存在可控因素,每次事件分布不同,期望值不为0.5
掷骰子出现1点或6点的概率是不符合伯努利过程的,因为结果大于2。如果目标是点数是否大于3,那么只有两种可能,是符合的。
产品检验
若一批零件的合格率为99%,从中抽验部分零件,通过二项分布可以计算出该零件合格时的概率
例如一批2000个零件,抽验其中100个零件,有两个零件不合格
即给定了概率p = 0.99,通过二项分布可以计算100次中成功次数为98的概率P,如果P小于某个阈值,说明合格
也可以先设定阈值,计算100个中最低要有多少个合格
广告点击
用户是否会点击广告的影响因素太多,因此可以认为广告点击事件是随机的,每次展现的广告只有点击或不点击两种结果
同样的,我们假设用户每次点击广告的决策不受历史影响(尽管这个假设在直观上可能不成立),这就满足了独立
我们通常默认是同分布的,即广告短时间内点击率不会发生变化
广告核心的指标是点击率:若10,000 次的广告展示中 120 次点击,可以计算出点击率1.2%
进一步的,我们可以计算出想要获得n次成功点击时,需要投放的广告总次数,继而可以做成本核算
可以看到,相比而言,产品检查的伯努利过程更为合理些