中级统计师-统计学基础知识-第三章 参数估计
统计学基础知识 第三章 参数估计
第一节 统计量与抽样分布
1.1 总体参数与统计量
- 总体参数:描述总体特征的未知量(如均值 μ \mu μ、方差 σ 2 \sigma^2 σ2、比例 π \pi π)。
- 统计量:由样本数据计算的量(如样本均值 x ˉ \bar{x} xˉ、样本方差 s 2 s^2 s2、样本比例 p p p),是随机变量。
1.2 点估计的评价标准
标准 | 定义 | 数学表达 |
---|---|---|
无偏性 | 估计量的期望等于总体参数 | E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ 例: E ( x ˉ ) = μ E(\bar{x}) = \mu E(xˉ)=μ, E ( s 2 ) = σ 2 E(s^2) = \sigma^2 E(s2)=σ2 |
有效性 | 方差更小的无偏估计量更有效 | Var ( θ ^ 1 ) < Var ( θ ^ 2 ) \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2) Var(θ^1)<Var(θ^2) |
一致性 | 样本量增大时,估计量趋近于总体参数 |
lim n → ∞ P ( ∣ θ ^ − θ ∣ < ϵ ) = 1 \lim_{n \to \infty} P\left( |\hat{\theta} - \theta| < \epsilon \right) = 1 limn→∞P(∣θ^−θ∣<ϵ)=1
1.3 样本均值的抽样分布
- 重复抽样:样本均值 x ˉ \bar{x} xˉ 的方差为:
σ x ˉ 2 = σ 2 n \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} σxˉ2=nσ2 - 不重复抽样:方差修正为:
σ x ˉ 2 = σ 2 n ⋅ N − n N − 1 \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} \cdot \frac{N-n}{N-1} σxˉ2=nσ2⋅N−1N−n - 中心极限定理:当 n ≥ 30 n \geq 30 n≥30 时,无论总体分布如何:
x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉ∼N(μ,nσ2) - 正态总体:若总体服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),则:
x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉ∼N(μ,nσ2)
1.4 样本比例的抽样分布
- 总体比例 π \pi π:具有某属性的单位占比。
- 样本比例 p p p:当 n p ≥ 5 np \geq 5 np≥5 且 n ( 1 − p ) ≥ 5 n(1-p) \geq 5 n(1−p)≥5 时:
p ∼ N ( π , π ( 1 − π ) n ) p \sim N\left( \pi, \frac{\pi(1-\pi)}{n} \right) p∼N(π,nπ(1−π)) - 不重复抽样:方差修正为:
σ p 2 = π ( 1 − π ) n ⋅ N − n N − 1 \sigma_p^2 = \frac{\pi(1-\pi)}{n} \cdot \frac{N-n}{N-1} σp2=nπ(1−π)⋅N−1N−n
第二节 区间估计
2.1 基本原理
- 置信区间:由样本统计量加减估计误差得到,置信水平 1 − α 1-\alpha 1−α 表示区间包含总体参数的概率。
- 公式通用形式:
( 统计量 ± 分位数值 × 标准误差 ) \left( \text{统计量} \pm \text{分位数值} \times \text{标准误差} \right) (统计量±分位数值×标准误差)
2.2 单个总体参数的区间估计
(一)均值的区间估计
条件 | 公式 |
---|---|
大样本( n ≥ 30 n \geq 30 n≥30, σ \sigma σ 已知) | x ˉ ± z α / 2 ⋅ σ n \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} xˉ±zα/2⋅nσ |
大样本( σ \sigma σ 未知) | x ˉ ± z α / 2 ⋅ s n \bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} xˉ±zα/2⋅ns |
小样本( σ \sigma σ 未知,正态总体) | x ˉ ± t α / 2 ( n − 1 ) ⋅ s n \bar{x} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} xˉ±tα/2(n−1)⋅ns |
(二)比例的区间估计
p ± z α / 2 ⋅ p ( 1 − p ) n ( 需满足 n p ≥ 5 , n ( 1 − p ) ≥ 5 ) p \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}} \quad (\text{需满足 } np \geq 5, n(1-p) \geq 5) p±zα/2⋅np(1−p)(需满足 np≥5,n(1−p)≥5)
2.3 两个总体参数的区间估计
(一)均值之差(独立样本)
- 大样本:
( x ˉ 1 − x ˉ 2 ) ± z α / 2 ⋅ s 1 2 n 1 + s 2 2 n 2 (\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} (xˉ1−xˉ2)±zα/2⋅n1s12+n2s22 - 小样本(方差齐性):
( x ˉ 1 − x ˉ 2 ) ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ s p 1 n 1 + 1 n 2 (\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(n_1 + n_2 - 2) \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} (xˉ1−xˉ2)±tα/2(n1+n2−2)⋅spn11+n21
其中:
s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22
(二)比例之差
( p 1 − p 2 ) ± z α / 2 ⋅ p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 (p_1 - p_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} (p1−p2)±zα/2⋅n1p1(1−p1)+n2p2(1−p2)
第三节 样本量的确定
3.1 影响因素
因素 | 影响 |
---|---|
总体标准差 σ \sigma σ | σ ↑ ⇒ n ↑ \sigma \uparrow \Rightarrow n \uparrow σ↑⇒n↑ |
最大允许误差 E E E | E ↑ ⇒ n ↓ E \uparrow \Rightarrow n \downarrow E↑⇒n↓ |
置信水平 1 − α 1-\alpha 1−α | 1 − α ↑ ⇒ n ↑ 1-\alpha \uparrow \Rightarrow n \uparrow 1−α↑⇒n↑ |
抽样方式 | 不重复抽样所需样本量更小 |
3.2 计算公式
(一)估计总体均值
- 重复抽样:
n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{(z_{\alpha/2})^2 \sigma^2}{E^2} n=E2(zα/2)2σ2 - 不重复抽样:
n ∗ = n 1 + n N n^* = \frac{n}{1 + \frac{n}{N}} n∗=1+Nnn
(二)估计总体比例
- 重复抽样:
n = ( z α / 2 ) 2 π ( 1 − π ) E 2 ( π 未知时取 π = 0.5 ) n = \frac{(z_{\alpha/2})^2 \pi(1-\pi)}{E^2} \quad (\pi \text{ 未知时取 } \pi = 0.5) n=E2(zα/2)2π(1−π)(π 未知时取 π=0.5)
经典例题解析
例题1:样本量计算
- 题目:估计居民旅游费用( σ = 1000 \sigma = 1000 σ=1000, E = 100 E = 100 E=100,置信水平 95%),求样本量。
- 解析:
n = ( 1.96 ) 2 ⋅ 100 0 2 10 0 2 ≈ 385 n = \frac{(1.96)^2 \cdot 1000^2}{100^2} \approx 385 n=1002(1.96)2⋅10002≈385
总结
- 区间估计核心:用样本统计量构建包含总体参数的区间,置信水平反映区间可靠性。
- 样本量权衡:精度(误差 E E E)与成本(样本量 n n n)需平衡。
- 分布选择:大样本用正态分布,小样本用 t t t 分布,比例问题用二项近似正态。