数据分析笔记04:抽样方法与抽样分布
数据分析笔记04:抽样方法与抽样分布
总体分类
在进行抽样之前,需要理解总体的分类方式。
有限总体
定义:总体范围明确,总体单位数量有限。
典型实例:
- 区域研究:北京市海淀区所有7岁男孩的身高。
- 人口普查:全国14.44亿人口数据。
- 产品批次:某一批次生产的灯泡使用寿命。
- 公司人员:全班学生的身高数据。
无限总体
定义:总体范围不明确,总体单位数目无限。
典型实例:
- 工厂产品:某工厂生产的所有灯泡(过去、现在、未来)。
- 银行服务:某网点所有办理业务的客户。
- 网店经营:未来10日内进店消费的所有顾客。
简单随机抽样
基本概念
简单随机样本:样本中的每一个个体都以相等的概率从总体中被抽出。
有限总体抽样
从容量为N的有限总体中抽取容量为n的样本,可分为两种方式。
有放回与无放回抽样
经典例子:5个小球(4红1白)。
有放回抽样:
- 第一次抽取红球概率:4/5。
- 将球放回后,第二次抽取红球概率:仍为4/5。
- 特点:每次抽取概率不变。
无放回抽样:
- 第一次抽取红球概率:4/5。
- 第二次抽取红球概率:3/4。
- 特点:每次抽取概率会发生变化。
无限总体抽样
满足条件:
- 同一总体:样本中每个个体都来自同一总体。
- 独立性:每个个体的抽取都是相互独立的。
实例:餐厅满意度调查。
- 总体:未来10日内进店消费的所有顾客。
- 样本:前100名顾客。
- 特点:顾客之间相互无关联,满足独立性。
Excel实现方法
方法一:RANDBETWEEN函数
操作步骤:
- 使用=RANDBETWEEN(1,2500)生成随机编号。
- 拉取所需样本数量。
- 复制→选择性粘贴→数值(固定随机数)。
- 使用VLOOKUP函数匹配对应数据。
VLOOKUP公式:
=VLOOKUP(查找值, 数据范围, 列号, 0)=\text{VLOOKUP(查找值, 数据范围, 列号, 0)} =VLOOKUP(查找值, 数据范围, 列号, 0)
方法二:数据分析工具
启用步骤:
- 文件→选项→加载项。
- 勾选“分析工具库”→转到→确定。
- 数据选项卡→数据分析→抽样。
抽样设定:
- 输入范围:选择数据范围。
- 抽样方法:随机。
- 样本数:输入所需数量。
- 输出区域:选择结果位置。
分层抽样
分层抽样原理
核心思想:将总体分成不同层组,每个个体属于并且仅属于其中某一层组。
分层原则
核心要求:相同性质的个体放在同一层级。
年龄层次划分实例
| 层级 | 年龄范围 | 特征 |
|---|---|---|
| 少年组 | 10-20岁 | 年龄相近,消费习惯相似 |
| 青年组 | 21-35岁 | 购买能力强,新潮偏好 |
| 中年组 | 36-60岁 | 稳定收入,理性消费 |
| 老年组 | 60岁以上 | 节约倾向,质量导向 |
部门层次划分实例
- 市场部:对市场趋势敏感。
- 行政部:注重流程和效率。
- 财务部:关注成本和收益。
- 技术部:重视创新和效能。
抽样方式
等比例抽样
公式:层级i的抽样数 = (层级i的人数 / 总人数) × 总抽样数。
等量抽样
方法:每个层级抽取相同数量的样本。
整群抽样
整群抽样原理
核心思想:将总体分成若干群组,每个群组都具有对总体的代表性。
与分层抽样的区别
| 比较项目 | 分层抽样 | 整群抽样 |
|---|---|---|
| 群组内部 | 相同性质个体 | 包含所有总体特征 |
| 抽样方式 | 每层都抽取 | 随机选择整个群 |
| 代表性 | 层内独特性 | 群内全面性 |
实例说明
情景:100个人,10-60岁各年龄段都有。
整群划分:
- 第1群:包含10-60岁所有年龄段的人。
- 第2群:包含10-60岁所有年龄段的人。
- 第3群:包含10-60岁所有年龄段的人。
- 第4群:包含10-60岁所有年龄段的人。
抽样方法:随机选择其中一个群作为样本。
系统抽样
系统抽样原理
核心步骤:
- 随机排列编码所有个体。
- 将总体分成k个等长区间。
- 从第一区间随机选择起始点。
- 按固定间隔选取后续样本。
计算公式
间隔计算:
k=Nnk = \frac{N}{n} k=nN
实例说明
情景:从100人中抽取5人。
操作步骤:
- 间隔计算:k = 100/5 = 20。
- 区间划分:[1-20], [21-40], [41-60], [61-80], [81-100]。
- 第一区间随机选择:假设选中3。
- 按间隔选择:3, 23, 43, 63, 83。
优势:操作简单,样本分布均匀。
点估计
点估计定义
点估计:用样本统计量来估计总体参数的方法。
常见对应关系
| 总体参数 | 样本统计量 | 符号表示 |
|---|---|---|
| 总体平均数 | 样本平均数 | μ ← \bar{X} |
| 总体标准差 | 样本标准差 | σ ← s |
| 总体比例 | 样本比例 | p ← \hat{p} |
| 总体方差 | 样本方差 | σ² ← s² |
点估计特点
主要优势:
- 计算简单,结果明确。
- 提供具体数值估计。
- 易于理解和解释。
主要局限:
- 无法提供估计精度信息。
- 不同样本可能得到不同结果。
- 无法量化估计的不确定性。
抽样分布
抽样分布概念
定义:所有可能的样本统计量值的概率分布。
建立过程
步骤说明:
- 从总体中抽取第1个样本 → 计算\bar{X}_1。
- 从总体中抽取第2个样本 → 计算\bar{X}_2。
- 重复过程……
- 从总体中抽取第k个样本 → 计算\bar{X}_k。
- 所有\bar{X}_1, \bar{X}_2, …, \bar{X}_k构成抽样分布。
EAI公司实例
背景信息:
- 总体:2500名管理人员。
- 样本大小:每次抽取30人。
- 抽样次数:500次。
- 总体平均薪资:51800美元。
- 总体标准差:4000美元。
抽样分布特征:
- 分布形态:近似正态分布。
- 中心位置:51800美元附近。
- 绝大多数样本平均数集中在中心附近。
抽样分布的数学特征
数学期望
基本公式:
E(Xˉ)=μE(\bar{X}) = \mu E(Xˉ)=μ
重要结论:样本平均数的数学期望等于总体平均数。
标准误差
标准误差是所有点估计的标准差,用于衡量估计的稳定性。
有限总体
σXˉ=σn×N−nN−1\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \times \sqrt{\frac{N-n}{N-1}} σXˉ=nσ×N−1N−n
略简条件:当n/N ≤ 0.05时,可使用简化公式。
无限总体
σXˉ=σn\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} σXˉ=nσ
实例计算
EAI公司标准误差计算:
- n/N = 30/2500 = 1.2%。
- 由于1.2% < 5%,可用简化公式。
- \sigma_{\bar{X}} = 4000 / \sqrt{30} = 730.3美元。
抽样分布的形态
总体服从正态分布
结论:当总体服从正态分布时,无论样本大小多少,\bar{X}的抽样分布都服从正态分布。
中心极限定理
适用条件:总体不服从正态分布。
核心结论:当样本大小足够大时,无论总体服从什么分布,\bar{X}的抽样分布都近似正态分布。
样本大小指引
| 总体分布状态 | 建议样本大小 |
|---|---|
| 一般情况 | n ≥ 30 |
| 严重偏态 | n ≥ 50 |
| 正态分布 | 任意大小 |
中心极限定理图示
不同总体分布在不同样本大小下的变化:
| 样本大小 | 均匀分布 | 双峰分布 | 指数分布 |
|---|---|---|---|
| n = 2 | 不对称 | 不对称 | 严重右偏 |
| n = 5 | 轻微不对称 | 开始对称 | 右偏减少 |
| n = 30 | 近似正态 | 近似正态 | 近似正态 |
重要结论:当n=30时,不管总体分布如何,抽样分布都近似正态分布。
抽样分布的应用
概率计算实例
问题设定:EAI人事部认为样本平均数在51800±500美元范围内才是合理估计。
问题:随机抽取30名管理人员,样本平均数落在可接受范围的概率是多少?
解题步骤
步骤1:标准化转换
可接受范围:[51300, 52300]。
标准化计算:
Z1=51300−51800730.3=−0.68Z_1 = \frac{51300 - 51800}{730.3} = -0.68 Z1=730.351300−51800=−0.68
Z2=52300−51800730.3=0.68Z_2 = \frac{52300 - 51800}{730.3} = 0.68 Z2=730.352300−51800=0.68
步骤2:概率计算
Excel函数计算:
P(Z≤0.68)=NORM.S.DIST(0.68, TRUE)=0.7523P(Z \leq 0.68) = \text{NORM.S.DIST(0.68, TRUE)} = 0.7523 P(Z≤0.68)=NORM.S.DIST(0.68, TRUE)=0.7523
P(Z≤−0.68)=NORM.S.DIST(-0.68, TRUE)=0.2468P(Z \leq -0.68) = \text{NORM.S.DIST(-0.68, TRUE)} = 0.2468 P(Z≤−0.68)=NORM.S.DIST(-0.68, TRUE)=0.2468
区间概率:
P(−0.68≤Z≤0.68)=0.7523−0.2468=0.5064P(-0.68 \leq Z \leq 0.68) = 0.7523 - 0.2468 = 0.5064 P(−0.68≤Z≤0.68)=0.7523−0.2468=0.5064
结果解释
结论:30名EAI管理人员组成的简单随机样本,能以50.64%的可靠性保证样本平均数落在51800±500美元范围内。
样本大小与抽样分布的关系
样本大小的影响
核心原理:样本大小越大,标准误差越小,估计越精确。
对比分析
EAI实例比较:
| 样本大小 | 标准误差 | 分布特征 |
|---|---|---|
| n = 30 | 730.3美元 | 较宽的分布 |
| n = 100 | 400美元 | 更集中的分布 |
标准误差公式验证:
σXˉ=σn\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} σXˉ=nσ
n增大 → \sqrt{n}增大 → \sigma_{\bar{X}}减小。
实际意义:
- 样本大小增加 → 估计更准确。
- 但成本也相应增加。
- 需要在准确性和成本之间取得平衡。
点估计的性质
如何判断一个点估计的好坏?需要检查三个重要性质。
1. 无偏性(Unbiasedness)
定义:样本统计量的数学期望等于所估计的总体参数。
数学表达:
E(样本统计量)=总体参数E(\text{样本统计量}) = \text{总体参数} E(样本统计量)=总体参数
例:E(\bar{X}) = μ。
无偏与有偏估计
无偏估计:
- 抽样分布的中心 = 总体参数。
- 估计无系统性偏差。
- 长期平均精确。
有偏估计:
- 抽样分布的中心 ≠ 总体参数。
- 存在系统性偏差。
- 结果倾向高估或低估。
2. 有效性(Efficiency)
定义:在所有无偏估计中,标准误差最小的估计最有效。
比较标准:
设有两个无偏估计量T_1和T_2,如果Var(T_1) < Var(T_2),则T_1比T_2更有效。
实际意义:
- 有效性高 → 估计更稳定。
- 相同样本大小下,结果更可靠。
- 有利于提高统计推断的效率。
3. 一致性(Consistency)
定义:随着样本大小增加,点估计值越来越接近总体参数。
数学表达:
limn→∞P(∣样本统计量−总体参数∣<ϵ)=1\lim_{n \to \infty} P(|\text{样本统计量} - \text{总体参数}| < \epsilon) = 1 n→∞limP(∣样本统计量−总体参数∣<ϵ)=1
实际意义:
- 样本越大,估计越可靠。
- 大样本下的理论保证。
- 指导实际抽样设计。
综合评价标准
理想点估计:同时满足三个性质。
- 无偏性:确保长期准确性。
- 有效性:提供最佳精度。
- 一致性:保证大样本性能。
常见权衡:
- 无偏性 vs 有效性:有时需要取舍。
- 理论性能 vs 实用性:考虑计算复杂度。
- 准确性 vs 成本:考虑样本大小限制。
Excel操作实务指南
基本统计量计算
总体平均数:
=AVERAGE(数据范围)=\text{AVERAGE(数据范围)} =AVERAGE(数据范围)
标准误差:
=总体标准差 / SQRT(样本大小)=\text{总体标准差 / SQRT(样本大小)} =总体标准差 / SQRT(样本大小)
正态概率计算
标准化计算:
=(X - 平均数)/标准误差=(\text{X - 平均数}) / \text{标准误差} =(X - 平均数)/标准误差
累积概率:
=NORM.S.DIST(Z值, TRUE)=\text{NORM.S.DIST(Z值, TRUE)} =NORM.S.DIST(Z值, TRUE)
区间概率:
=NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)=\text{NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)} =NORM.S.DIST(Z2, TRUE) - NORM.S.DIST(Z1, TRUE)
