多项分布 (Multinomial Distribution)
多项分布是统计学中一个非常重要的离散概率分布,它是二项分布的推广。
1. 核心思想:从二项分布到多项分布
-
二项分布描述的是在 n 次独立试验 中,一个事件(例如“成功”)发生次数的概率分布。每次试验只有两种可能的结果:成功 或 失败。
- 例如:抛一枚均匀硬币 10 次,得到正面朝上的次数服从二项分布。
-
多项分布描述的是在 n 次独立试验 中,多个(k个)互斥事件 各自发生次数的联合概率分布。每次试验有且仅有KKK 种可能的结果之一。
- 例如:抛一颗均匀的六面骰子 20 次,得到1点、2点、⋯\cdots⋯、6点各自出现的次数服从多项分布。
- 例如:进行一次民意调查,询问100个人他们最喜欢的饮料(可乐、雪碧、果汁、水),这四种饮料被选择的次数服从多项分布。
2. 数学定义与概率质量函数
假设一次试验有KKK种可能的结果,每种结果发生的概率分别为p1,p2,⋯ ,pkp_1, p_2, \cdots, p_kp1,p2,⋯,pk。显然,这些概率满足:
∑k=1Kpk=1,且pk⩾0 (k=1,2,⋯ ,K)
\sum\limits_{k=1}^K p_k = 1, \quad 且 \quad p_k \geqslant 0 \ (k=1,2,\cdots,K)
k=1∑Kpk=1,且pk⩾0 (k=1,2,⋯,K)现在进行nnn次独立的试验,用随机变量X1,X2,⋯ ,XkX_1, X_2, \cdots, X_kX1,X2,⋯,Xk 分别表示这KKK种结果发生的次数。那么随机向量X=(X1,X2,⋯ ,Xk)\boldsymbol{X} = (X_1, X_2, \cdots, X_k)X=(X1,X2,⋯,Xk) 服从参数为nnn和概率向量p=(p1,p2,⋯ ,pk)\boldsymbol{p} = (p_1, p_2, \cdots, p_k)p=(p1,p2,⋯,pk) 的多项分布,记作:
X∼Multinomial(n,p)
\boldsymbol{X} \sim \text{Multinomial}(n, \boldsymbol{p})
X∼Multinomial(n,p)其概率质量函数 为:
P(X1=x1,X2=x2,⋯ ,Xk=xk)=n!x1!x2!⋯xk!p1x1p2x2⋯pkxk
P(X_1 = x_1, X_2 = x_2, \cdots, X_k = x_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
P(X1=x1,X2=x2,⋯,Xk=xk)=x1!x2!⋯xk!n!p1x1p2x2⋯pkxk其中,xix_ixi 是第iii种结果出现的次数,并且满足:
x1+x2+⋯+xk=n,且xi⩾0 (i=1,2,⋯ ,k)
x_1 + x_2 + \cdots + x_k = n, \quad 且 \quad x_i \geqslant 0 \ (i=1,2,\cdots,k)
x1+x2+⋯+xk=n,且xi⩾0 (i=1,2,⋯,k)
公式解释:
1.p1x1p2x2⋯pkxkp_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}p1x1p2x2⋯pkxk:得到这个特定次数组合的概率部分。例如,先得到 x₁ 个结果1,再得到 x₂ 个结果2,等等的概率。
2.n!x1!x2!⋯xk!\frac{n!}{x_1! x_2! \cdots x_k!}x1!x2!⋯xk!n!:多项系数。因为试验的顺序不重要,我们只关心每种结果最终出现了多少次。这个系数计算了将所有 n 次试验结果分配到 k 个类别中,使得第 i 类有xix_ixi 个结果的所有可能方式的数量。
3. 一个简单的例子
假设我们有一个装有大量糖果的袋子,其中:
- 红色糖果占 30% (p1=0.3p_1 = 0.3p1=0.3)
- 黄色糖果占 50% (p2=0.5p_2 = 0.5p2=0.5)
- 蓝色糖果占 20% (p3=0.2p_3 = 0.2p3=0.2)
现在我们随机从袋中取出 5 颗糖果(每次取出后,糖果的比例保持不变,即近似独立试验)。问:恰好拿到 2颗红色、2颗黄色、1颗蓝色 糖果的概率是多少?
这里,n=5n=5n=5,k=3k=3k=3,x1=2,x2=2,x3=1x_1=2, x_2=2, x_3=1x1=2,x2=2,x3=1。
根据多项分布公式:
P(X1=2,X2=2,X3=1)=5!2! 2! 1!(0.3)2(0.5)2(0.2)1
P(X_1=2, X_2=2, X_3=1) = \frac{5!}{2! \ 2! \ 1!} (0.3)^2 (0.5)^2 (0.2)^1
P(X1=2,X2=2,X3=1)=2! 2! 1!5!(0.3)2(0.5)2(0.2)1
计算:
- 5!2! 2! 1!=1202×2×1=30\frac{5!}{2! \ 2! \ 1!} = \frac{120}{2 \times 2 \times 1} = 302! 2! 1!5!=2×2×1120=30
- (0.3)2(0.5)2(0.2)1=0.09×0.25×0.2=0.0045(0.3)^2 (0.5)^2 (0.2)^1 = 0.09 \times 0.25 \times 0.2 = 0.0045(0.3)2(0.5)2(0.2)1=0.09×0.25×0.2=0.0045
所以,概率为:
P=30×0.0045=0.135
P = 30 \times 0.0045 = 0.135
P=30×0.0045=0.135
因此,拿到2红、2黄、1蓝糖果的概率是 13.5%。
4. 性质
-
边缘分布:多项分布中任何一个变量XiX_iXi 的边缘分布都是一个二项分布,参数为 n 和pip_ipi。即Xi∼Binomial(n,pi)X_i \sim \text{Binomial}(n, p_i)Xi∼Binomial(n,pi)。
-
协方差与相关系数:由于∑i=1kXi=n\sum_{i=1}^k X_i = n∑i=1kXi=n,这些随机变量是负相关的。
- 协方差:Cov(Xi,Xj)=−npipj(i≠j)\text{Cov}(X_i, X_j) = -n p_i p_j \quad (i \neq j)Cov(Xi,Xj)=−npipj(i=j)
- 方差:Var(Xi)=npi(1−pi)\text{Var}(X_i) = n p_i (1 - p_i)Var(Xi)=npi(1−pi)
-
期望:E[Xi]=npiE[X_i] = n p_iE[Xi]=npi。这很直观,我们期望第 i 种结果出现的次数等于总试验次数乘以它每次出现的概率。
总结
| 特征 | 二项分布 | 多项分布 |
|---|---|---|
| 试验次数 | nnn | nnn |
| 每次试验结果数 | 2种(成功/失败) | KKK种(K⩾2K\geqslant 2K⩾2) |
| 概率 | 成功概率 ppp,失败概率 1-ppp | 概率向量(p1,p2,⋯ ,pk)(p_1, p_2, \cdots, p_k)(p1,p2,⋯,pk),∑pi=1\sum p_i = 1∑pi=1 |
| 关心变量 | 成功次数 XXX | 各类别出现次数的向量(X1,X2,⋯ ,Xk)(X_1, X_2, \cdots, X_k)(X1,X2,⋯,Xk) |
| 关系 | 是多项分布在 k=2k=2k=2 时的特例 | 是二项分布的推广 |
