概率概率密度
我之前一直很纠结为什么离散型随机变量分布律中有随机变量的出现,而连续型随机变量概率密度中没有随机变量的出现。那对于连续型随机变量而言,如何建立随机变量和取值之间的联系。也就是说看到连续型随机变量的概率密度,我怎么知道描述的是哪个随机变量。
有一次为了图像复原中描述噪声,和廖老师讨论随机变量的表示,终于明白了两者之间的本质。
连续型随机变量与离散型随机变量的本质区别在于,在离散情况下,单个点的概率可以非零;而在连续情况下,由于取值的无限性,单点的概率为零,概率密度函数描述了概率在区间上的分布情况。
对于离散型随机变量 X X X,在单点处是概率值。所以这里的 P P P表示概率。
而对于连续型随机变量 X X X,其概率密度函数为 f ( x ) f(x) f(x),这里的 f ( x ) f(x) f(x)表示的是密度函数,密度很重要。在任意单点 x = a x = a x=a处的概率为零,即:
P ( X = a ) = 0 P(X = a) = 0 P(X=a)=0
这是因为连续型随机变量取任一特定值的概率都是无穷小。虽然概率密度函数 f ( a ) f(a) f(a)可以不为零,但单点 a a a的“长度”或“宽度”为零,导致该点的概率积分结果为零:
P ( X = a ) = ∫ a a f ( x ) d x = 0 P(X = a) = \int_a^a f(x) \, dx = 0 P(X=a)=∫aaf(x)dx=0
换句话说,连续随机变量在单个点上没有概率质量(英文是mass,但是在中文教材中上没有直译mass,称为概率函数,凡是将mass翻译为质量,就是不说人话,一看就是没有系统学过概率论与统计学),其概率是通过在某个区间上对概率密度函数积分来计算的。
例如,随机变量 X X X落在区间 [ a , b ] [a, b] [a,b]内的概率为:
P ( a ⩽ X ⩽ b ) = ∫ a b f ( x ) d x P(a \leqslant X \leqslant b) = \int_a^b f(x) \, dx P(a⩽X⩽b)=∫abf(x)dx
这表明,连续随机变量的概率分布由概率密度函数在区间上的积分决定,而非单点处的函数值。
在电子相关领域中,一直习惯用大写的 P P P的表示概率,小写的 p p p表示概率密度。但在概率论与统计学中,大写的 P P P表示分布律,小写的 p p p表示概率函数。能够写成离散函数的,随机变量不用出现,这样写简便,此时用小写的 p p p。
之前区分离散和连续,这在实际中很难区分。但是区分概率和概率密度就很清楚了。我的概率老师讲概率就讲如何代入公式计算了,照本宣科。自从有了扩散模型之后才发现原来概率如此博大精深。强烈建议这样讲课的老师去卖红薯。