每日一题DEEP_ML-卡方分布(Chi-Squared Distribution)
什么是卡方分布?
-
卡方分布 是一种常见的 概率分布,它主要出现在 统计推断 中,特别是用于 假设检验 和 方差估计。
-
定义:如果有一组 k 个相互独立的标准正态随机变量 Z1,Z2,...,ZkZ_1, Z_2, ..., Z_kZ1,Z2,...,Zk,则它们平方和
X=∑i=1kZi2 X = \sum_{i=1}^{k} Z_i^2 X=i=1∑kZi2
就服从 自由度为 k 的卡方分布,记作:
X∼χ2(k)X∼χ^2(k)X∼χ2(k)
2. 自由度 (Degrees of Freedom, k)
-
自由度 k 决定了卡方分布的形状。
-
举例:
-
k=1:分布偏态很大,长尾。
-
k=2:分布在 0 附近开始上升,单峰。
-
k 很大时:卡方分布逐渐接近正态分布 N(k,2k)。
-
3. 概率密度函数 (PDF)
卡方分布的概率密度函数为:
f(x;k)=12k/2Γ(k/2)xk/2−1e−x/2,x>0f(x ; k)=\frac{1}{2^{k / 2} \Gamma(k / 2)} x^{k / 2-1} e^{-x / 2}, \quad x>0f(x;k)=2k/2Γ(k/2)1xk/2−1e−x/2,x>0
其中:
Γ(⋅)\Gamma(\cdot)Γ(⋅) 是伽马函数,推广了阶乘,满足 Γ(n)=(n−1)!\Gamma(n) = (n-1)!Γ(n)=(n−1)!。
4. 性质
-
非负性:X≥0X \geq 0X≥0,因为是平方和。
-
期望:E[X]=k\mathbb{E}[X] = kE[X]=k
-
方差:Var(X)=2k\text{Var}(X) = 2kVar(X)=2k
-
近似正态性:当 k≥30k \geq 30k≥30,可以近似为 N(k,2k)。
5. 应用
卡方分布在统计学中非常常见,主要有:
-
方差检验:检验一个总体方差是否等于某个值。
-
拟合优度检验 (Chi-Square Goodness of Fit Test)
检验样本数据是否符合某个理论分布。 -
独立性检验 (Chi-Square Test of Independence)
检验两个分类变量是否独立(例如列联表分析)。 -
置信区间:用于总体方差的区间估计。
6. 举个例子
假设我们有 自由度 k = 4,并且计算某个样本值 x=6x = 6x=6 的概率:
-
我们需要计算 P(X≤6)P(X \leq 6)P(X≤6),即累积分布函数 CDF。
-
实际上这个数值计算需要用 不完全伽马函数 或统计软件(如 Python 的
scipy.stats.chi2.cdf(6, df=4)
)。
DEEP_ML的题
Calculate the probability of occurrence of x in a Chi-Squared distribution with the given sample value ‘x’ and degrees of freedom ‘k’.
import mathdef chi_square_probability(x, k):"""Calculate the probability density of x in a Chi-square distributionwith k degrees of freedom."""if x <= 0 or k <= 0:return 0.0numerator = (x ** (k / 2 - 1)) * math.exp(-x / 2)denominator = (2 ** (k / 2)) * math.gamma(k / 2)probability = numerator / denominator# your code herereturn round(probability, 3)