概率论:分布与检验(持续学习中)
一、描述统计
四分位数
四分位数是将有序样本数据分为四等份的三个数值,分别记为第一四分位数(Q1,25% 分位数)、第二四分位数(Q2,中位数,50% 分位数)、第三四分位数(Q3,75% 分位数)。其核心作用是判断异常值,具体步骤如下:
计算四分位距(IQR):IQR = Q3 - Q1,反映数据中间 50% 部分的离散程度;
异常值判定标准:当数据值 <Q1 - 1.5×IQR 或> Q3 + 1.5×IQR 时,判定为轻度异常值;若 < Q1 - 3×IQR 或 > Q3 + 3×IQR,则为重度异常值。
实例:某班级 10 名学生成绩(分):65、72、78、80、82、85、88、90、95、100。计算得 Q1=75((72+78)/2)、Q3=89((88+90)/2)、IQR=14,异常值判定范围为 75-21=54 至 89+21=110,该组数据无异常值。
方差与标准差
方差
定义:
衡量样本数据偏离均值的平均平方程度,反映数据内部离散度,但计算结果单位是原数据单位的平方(如身高数据单位为 cm,方差单位为 cm²),实际解释意义较弱。
计算公式:
总体方差(σ²):σ² = Σ(xi - μ)² / N(μ 为总体均值,N 为总体数量);
样本方差(s²):s² = Σ(xi - x̄)² / (n-1)(x̄为样本均值,n 为样本数量,分母用 n-1 是为了修正样本对总体的偏差,保证估计无偏性)。
标准差
定义:
方差的算术平方根,单位与原数据一致,是描述数据精密度的核心指标 —— 标准差越小,数据越集中在均值附近,精密度越高。
计算公式:
总体标准差(σ):σ = √[Σ(xi - μ)² / N];
样本标准差(s):s = √[Σ(xi - x̄)² / (n-1)]。
应用场景:
比较同一单位、同类型数据的离散度,如对比两个班级学生数学成绩的稳定性(标准差小的班级成绩更集中)。
标准误差
定义:
又称均数标准误(SE),反映样本均值对总体均值的抽样误差大小 —— 标准误差越小,样本均值越接近总体均值,结果可靠性越高。
计算公式:
SE = s / √n(s 为样本标准差,n 为样本数量);
与标准差的区别:
标准差描述 “数据本身的离散度”,标准误差描述 “均值的抽样误差”。例如,“某班学生身高标准差为 5cm” 是指学生身高的个体差异,“身高均值的标准误差为 1cm” 是指多次抽样得到的均值与总体均值的平均偏差。
变异系数
定义:
又称离散系数(CV),通过 “标准差 / 均值” 消除数据测量尺度与量纲的影响,用于比较不同单位或不同均值数据的离散度。
计算公式:
CV = (s /x̄) × 100%(结果用百分比表示,避免小数误解);
应用场景:
比较不同单位数据:如身高(cm)与体重(kg)的离散度,直接用标准差无法对比,需用 CV;
比较均值差异大的数据:如小学生(均值 120cm)与大学生(均值 170cm)的身高离散度,用 CV 可排除均值差异的干扰。
实例:
小学生身高 x̄1=120cm、s1=6cm,CV1=5%;大学生身高 x̄2=170cm、s2=8.5cm,CV2=5%,说明两组人群身高离散度相同。
二、概率计算
排列组合
排列与组合的核心区别是 “是否考虑顺序”:排列需考虑顺序(如 “选 3 人排座位”),组合不考虑顺序(如 “选 3 人组成小组”),具体分类及计算如下:
类型 | 定义 | 计算公式 | 实例 |
排列可重复 | 从 n 个元素中选 k 个,元素可重复且有序 | A (n,k) = n^k(n 的 k 次方) | 密码位数为 3,每位 0-9:10^3=1000 种组合 |
排列不可重复 | 从 n 个元素中选 k 个,元素不重复且有序 | A (n,k) = n!/(n-k)!(n 阶乘 /(n-k) 阶乘) | 5 人选 3 人排 1-3 号:5!/2! = 60 种排法 |
组合可重复 | 从 n 个元素中选 k 个,元素可重复且无序 | C(n+k-1,k) = (n+k-1)!/(k!(n-1)!) | 4 种水果选 2 个(可重复):C (5,2)=10 种 |
组合不可重复 | 从 n 个元素中选 k 个,元素不重复且无序 | C(n,k) = n!/(k!(n-k)!) | 5 人选 3 人组小组:5!/(3!2!) = 10 种 |
概率
随机事件与样本空间
样本空间(Ω):
随机试验所有可能结果的集合,如掷骰子的样本空间 Ω={1,2,3,4,5,6};
随机事件(A):
样本空间的子集,即 “部分可能结果的集合”,如 “掷出偶数” 的事件 A={2,4,6};
必然事件与不可能事件:
必然事件(Ω)概率为 1(如 “掷出 1-6 的数”),不可能事件(∅)概率为 0(如 “掷出 7”)。
古典概率
适用条件:
样本空间中所有基本事件 “等可能发生” 且 “数量有限”;
计算公式:
P (A) = 事件 A 包含的基本事件数 / 样本空间的基本事件总数;
实例:
掷骰子掷出 “3” 的概率 P (3)=1/6;掷出偶数的概率 P (偶数)=3/6=0.5。
条件概率
定义:
在事件 B 发生的前提下,事件 A 发生的概率,记为 P (A|B);
计算公式:
P (A|B) = P (AB) / P (B)(P (B)>0,AB 表示 A 与 B 同时发生的事件);
衍生公式:
全概率公式:若 B1,B2,...,Bn 是 Ω 的 “划分”(互斥且覆盖 Ω),则 P (A) = ΣP (A|Bi) P (Bi),用于 “由局部概率求整体概率”;
贝叶斯公式:P (Bi|A) = [P (A|Bi) P (Bi)] / ΣP (A|Bj) P (Bj),用于 “由结果反推原因概率”(如疾病诊断)。
实例(贝叶斯应用):
某病患病率 P (患病)=0.01,检测准确率 P (阳性 | 患病)=0.95,假阳性率 P (阳性 | 未患病)=0.02。求 “检测阳性时实际患病的概率”:
设 A=“检测阳性”,B1=“患病”,B2=“未患病”;
P (B1|A) = [0.95×0.01] / [0.95×0.01 + 0.02×0.99] ≈ 0.32(即阳性者中仅 32% 真患病,需结合临床进一步判断)。
三、概率分布
两类数据类型
类型 | 定义 | 取值特点 | 常用分布 | 实例 |
离散型数据 | 取值为 “可数的离散点” | 只能取整数或特定值 | 二项分布、泊松分布 | 每天顾客数、次品数量 |
连续型数据 | 取值为 “某一区间内的所有实数” | 可无限细分(如 1.23cm) | 正态分布、指数分布 | 身高、零件加工时间 |
关键区别:
离散型用 “概率质量函数(PMF)” 描述概率(如 P (X=2)=0.3),连续型用 “概率密度函数(PDF)” 描述(某点概率为 0,需计算区间概率 P (a<X<b))。
正态分布
本质:
由 “大量同质、独立、无序的随机事件” 叠加形成(符合大数定律),是自然界最常见的分布;
概率密度函数:
f (x) = [1/(σ√(2π))] e^[-(x-μ)²/(2σ²)],其中 μ 为均值(位置参数,决定分布中心),σ 为标准差(形状参数,决定分布 “胖瘦”);
核心特征:
钟形对称,均值 = 中位数 = 众数;
“3σ 原则”:约 68% 数据在 μ±σ 内,95% 在 μ±2σ 内,99.7% 在 μ±3σ 内(常用于异常值初步判断);
标准正态分布:μ=0、σ=1 的正态分布,任何正态分布可通过 Z=(x-μ)/σ 转化为标准正态分布。
应用场景:
身高、体重、考试成绩、测量误差等自然或社会现象的分布。
幂律分布
本质:
由 “正反馈机制” 导致(事件不独立,一个事件发生会促进同类事件发生),体现 “马太效应” 或 “二八原则”;
概率密度函数:
f (x) = kx^(-α)(x≥x0,k 为常数,α 为幂指数,通常 2<α<3),双对数坐标(lnx-lny)下呈直线;
核心特征:
“长尾分布”—— 少数个体占据大量资源,多数个体资源极少;
与正态分布的区别:
正态分布是 “中间集中、两端稀疏”(如多数人身高在均值附近),幂律分布是 “头部集中、尾部漫长”(如少数人掌握 80% 财富);
应用场景:
城市人口分布(少数大城市人口超千万)、互联网流量(少数 APP 占据多数用户时长)、财富分布等。
四、统计推断
点估计与区间估计
点估计
定义:用单个样本统计量(如样本均值 x̄)直接估计总体参数(如总体均值 μ),是 “精确但不严谨” 的估计方式;
常用方法:
方法 | 核心思想 | 实例 |
矩估计法 | 用样本矩(如样本均值)估计总体矩(如总体均值) | 样本均值 x̄=85,估计总体均值 μ=85 |
最大似然法 | 找使 “样本出现概率最大” 的参数值 | 正态分布中,用 x̄估计 μ 使样本概率最大 |
最小二乘法 | 使 “观测值与估计值的残差平方和最小” | 线性回归中估计回归系数 |
优缺点:
优点是计算简单、结果直观;缺点是未考虑抽样误差,无法判断估计的可靠性(如无法知道 x̄与 μ 的偏差有多大)。
区间估计
定义:给出总体参数的 “置信区间”(如 μ∈[80,90]),同时标注 “置信水平”(如 95%),表示 “该区间包含总体参数的概率为 95%”,是 “严谨但不精确” 的估计方式;
计算逻辑:置信区间 = 样本统计量 ± 边际误差,其中边际误差 = 临界值 × 标准误差;
实例(正态总体均值区间估计):
已知样本 n=36、x̄=85、s=6(样本标准差),置信水平 95%(临界值 zα/2=1.96):
标准误差 SE = 6/√36 = 1;
边际误差 = 1.96×1 = 1.96;
95% 置信区间:85±1.96,即 [83.04, 86.96](表示有 95% 把握认为总体均值在该区间内)。
与点估计的区别:
点估计给 “单个值”,区间估计给 “范围 + 可信度”,更符合实际决策需求(如工厂判断产品均值是否合格,需知道范围而非单个值)。
假设检验
核心概念辨析
置信区间:从 “估计” 角度描述总体参数的可能范围;
置信水平(1-α):置信区间的可靠性,常用 90%、95%、99%;
显著性水平(α):假设检验中 “拒绝正确原假设” 的风险容忍度,常用 0.05(即 5%),α=1 - 置信水平。
假设检验的两类错误
错误类型 | 定义 | 概率表示 | 实际意义(以 “检验药品有效性” 为例) | 控制原则 |
第一类错误 | 原假设 H0 为真,却拒绝 H0(“误判有罪”) | α | 药品无效却判定为有效(危害患者) | 严格控制 α(如 α=0.05) |
第二类错误 | 原假设 H0 为假,却接受 H0(“漏判有罪”) | β | 药品有效却判定为无效(损失效益) | 不主动控制 β(α 减小则 β 增大,需平衡) |
关键关系:
在样本量固定时,α 与 β 呈负相关;要同时减小 α 和 β,需增大样本量。
常见假设检验方法
检验方法 | 适用场景 | 核心条件 | 检验统计量 | 实例 |
z 检验 | 比较总体均值(如 A/B 组均值差异) | 总体正态或大样本(n≥30),总体方差 σ 已知 | Z=(x̄-μ0)/(σ/√n) | 已知某产品均值 μ0=100,σ=5,样本 n=36、x̄=98,检验均值是否下降 |
t 检验 | 比较总体均值 | 总体正态,总体方差 σ 未知(小样本 n<30) | t=(x̄-μ0)/(s/√n)(自由度 df=n-1) | 小样本 n=10,s=6,x̄=98,检验均值是否为 100 |
齐方差检验(方差齐性检验) | 检验两组样本方差是否相等(t 检验的前提) | 两组数据均服从正态分布 | F=s1²/s2²(s1 为较大样本方差,df1=n1-1,df2=n2-1) | 比较 A 班(n1=20,s1²=25)与 B 班(n2=20,s2²=16)成绩方差是否相等 |
卡方检验 | 1. 拟合优度(检验样本是否来自某分布);2. 独立性(检验两个分类变量是否相关) | 样本量足够,理论频数 T≥5(否则用 Fisher 精确检验) | χ²=Σ(实际频数 - 理论频数)²/ 理论频数 | 1. 检验骰子是否均匀(拟合优度);2. 检验性别(男 / 女)与是否购买某产品(是 / 否)是否相关(独立性) |
五、样本容量计算(A/B 测试场景)
A/B 测试中样本容量计算的核心是 “在给定 α(显著性水平)、β(第二类错误概率)和效应量(期望提升幅度)下,确定最小样本量”,避免样本量过小导致检验效能不足,或过大造成资源浪费。
核心影响因素
显著性水平 α:常用 0.05(双侧检验,zα/2=1.96);
把握度(1-β):常用 0.8(即 80% 概率检测出真实效应,zβ=0.84);
效应量:A/B 组指标的最小差异(如绝对量差异 Δ,率差异 Δp),由业务目标确定(如希望转化率提升 5%);
总体参数:绝对量需已知标准差 σ,率需已知基准率 pA。
两种常见场景的计算
绝对量提升(如用户人均消费、页面停留时间)
公式(两组样本量相等):n = 2×(zα/2 + zβ)²×σ² / Δ²;
实例:A 组人均消费均值 μA=100 元,希望 B 组提升至 105 元(Δ=5 元),σ=20 元,α=0.05,1-β=0.8:
n = 2×(1.96+0.84)²×20² / 5² = 2×7.84×400 /25 ≈ 247,即每组需至少 247 个样本。
率的提升(如转化率、点击率)
公式(两组样本量相等):n = [zα/2√(2p̄(1-p̄)) + zβ√(pA (1-pA)+pB (1-pB))]² / Δp²,其中 p̄=(pA+pB)/2(平均率),Δp=pB-pA(率差异);
实例:A 组转化率 pA=10%,希望 B 组提升至 15%(Δp=5%),α=0.05,1-β=0.8:
p̄=(0.1+0.15)/2=0.125;
分子部分:1.96×√(2×0.125×0.875) + 0.84×√(0.1×0.9+0.15×0.85) ≈ 1.96×0.467 + 0.84×0.492 ≈ 1.37;
n = (1.37)² / (0.05)² ≈ 753,即每组需至少 753 个样本。
实际工作注意事项
样本量冗余:实际计算时需加 10%-20% 冗余(如用户流失、数据异常);
工具简化:无需手动计算,可使用 G*Power、A/B 测试计算器(如 Evan Miller 计算器)直接输入参数得结果;
效应量校准:效应量需结合业务实际(如提升 1% 转化率是否有商业价值),避免追求 “统计显著” 而忽略 “业务显著”。