样本与样本值
很多ML或PR的刊物中不区分这个概念。区分:严谨但繁琐,不区分:不严谨,有时候产生混淆。
定义 设XXX是具有分布函数FFF的随机变量,若X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn是具有同一分布函数FFF的、相互独立的随机变量,则称X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn为从分布函数FFF(或总体FFF、或总体XXX)得到的容量为nnn的简单随机样本,简称样本,它们的观察值x1,x2,⋯ ,xnx_1, x_2, \cdots, x_nx1,x2,⋯,xn称为样本值,又称为XXX的nnn个独立的观察值。
也可以将样本看成是一个随机向量,写成(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn),此时样本值相应地写成(x1,x2,⋯ ,xn)(x_1, x_2, \cdots, x_n)(x1,x2,⋯,xn)。若(x1,x2,⋯ ,xn)(x_1, x_2, \cdots, x_n)(x1,x2,⋯,xn)与(y1,y2,⋯ ,yn)(y_1, y_2, \cdots, y_n)(y1,y2,⋯,yn)都是相应于样本(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的样本值,一般来说它们是不相同的。
由定义得:若X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn为FFF的一个样本,则X1,X2,⋯ ,XnX_1, X_2, \cdots, X_nX1,X2,⋯,Xn相互独立,且它们的分布函数都是FFF,所以(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的分布函数为
F∗(x1,x2,⋯ ,xn)=∏i=1nF(xi).
F^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n F(x_i).
F∗(x1,x2,⋯,xn)=i=1∏nF(xi).又若XXX具有概率密度fff,则(X1,X2,⋯ ,Xn)(X_1, X_2, \cdots, X_n)(X1,X2,⋯,Xn)的概率密度为
f∗(x1,x2,⋯ ,xn)=∏i=1nf(xi).
f^*(x_1, x_2, \cdots, x_n) = \prod_{i=1}^n f(x_i).
f∗(x1,x2,⋯,xn)=i=1∏nf(xi).
-
简单随机样本(Simple Random Sample)
-X1,X2,…,XnX_1, X_2, \ldots, X_nX1,X2,…,Xn是同分布、相互独立的随机变量;- 每个Xi∼FX_i \sim FXi∼F,即来自同一个总体FFF;
- 观察值x1,x2,…,xnx_1, x_2, \ldots, x_nx1,x2,…,xn称为样本值。
-
联合分布函数
- 因为各分量独立,联合分布函数为边缘分布函数的乘积:
F∗(x)=∏i=1nF(xi) F^*(\boldsymbol{x}) = \prod_{i=1}^n F(x_i) F∗(x)=i=1∏nF(xi)
- 因为各分量独立,联合分布函数为边缘分布函数的乘积:
-
联合概率密度
- 若XXX有密度函数fff,则样本的联合密度为:
f∗(x)=∏i=1nf(xi) f^*(\boldsymbol{x}) = \prod_{i=1}^n f(x_i) f∗(x)=i=1∏nf(xi)
- 若XXX有密度函数fff,则样本的联合密度为:
⚠️ 注意:这里的f∗f^*f∗和F∗F^*F∗并非导数,而是表示联合分布或联合密度。
一、总体为多元随机变量的定义
设总体是一个ddd维随机向量:
X=(X(1),X(2),⋯ ,X(d))⊤ \boldsymbol{X} = (X^{(1)}, X^{(2)}, \cdots, X^{(d)})^{\top} X=(X(1),X(2),⋯,X(d))⊤
其联合分布函数为F(x)=P(X≤x)F(\boldsymbol{x}) = P(\boldsymbol{X} \leq \boldsymbol{x})F(x)=P(X≤x),或具有概率密度函数f(x)f(\boldsymbol{x})f(x)(若连续型)。
二、样本(Sample)
从该总体中抽取一个容量为nnn的简单随机样本,是指nnn个独立同分布(i.i.d.)的ddd维随机向量:
X1,X2,⋯ ,Xn \boldsymbol{X}_1, \boldsymbol{X}_2, \cdots, \boldsymbol{X}_n X1,X2,⋯,Xn
其中每个:
- Xi=(Xi(1),Xi(2),⋯ ,Xi(d))⊤\boldsymbol{X}_i = (X_i^{(1)}, X_i^{(2)}, \cdots, X_i^{(d)})^{\top}Xi=(Xi(1),Xi(2),⋯,Xi(d))⊤ 是第iii个观测单位;
- 所有Xi∼i.i.d.F\boldsymbol{X}_i \overset{\text{i.i.d.}}{\sim} FXi∼i.i.d.F,即独立且服从与总体相同的分布。
✅ 可将整个样本看作一个n×dn \times dn×d的随机矩阵:
[X11X12⋯X1dX21X22⋯X2d⋮⋮⋱⋮Xn1Xn2⋯Xnd]=[X1⊤X2⊤⋮Xn⊤] \begin{bmatrix} X_{11} & X_{12} & \cdots & X_{1d} \\ X_{21} & X_{22} & \cdots & X_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ X_{n1} & X_{n2} & \cdots & X_{nd} \end{bmatrix} = \begin{bmatrix} \boldsymbol{X}_1^{\top} \\ \boldsymbol{X}_2^{\top} \\ \vdots \\ \boldsymbol{X}_n^{\top} \end{bmatrix} X11X21⋮Xn1X12X22⋮Xn2⋯⋯⋱⋯X1dX2d⋮Xnd=X1⊤X2⊤⋮Xn⊤
三、样本值(Sample Values / Observations)
对应于上述样本的观察结果是一组具体的ddd维向量:
x1,x2,⋯ ,xn \boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n x1,x2,⋯,xn
其中每个:
- xi=(xi(1),xi(2),⋯ ,xi(d))⊤∈Rd\boldsymbol{x}_i = (x_i^{(1)}, x_i^{(2)}, \cdots, x_i^{(d)})^{\top} \in \mathbb{R}^dxi=(xi(1),xi(2),⋯,xi(d))⊤∈Rd 是Xi\boldsymbol{X}_iXi 的实际观测值。
✅ 同样可以写成n×dn \times dn×d数据矩阵(即数据表):
Xdata=[x11x12⋯x1dx21x22⋯x2d⋮⋮⋱⋮xn1xn2⋯xnd]=[x1⊤x2⊤⋮xn⊤] \boldsymbol{X}_{\text{data}} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} \\ x_{21} & x_{22} & \cdots & x_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ x_{n1} & x_{n2} & \cdots & x_{nd} \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_1^{\top} \\ \boldsymbol{x}_2^{\top} \\ \vdots \\ \boldsymbol{x}_n^{\top} \end{bmatrix} Xdata=x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1dx2d⋮xnd=x1⊤x2⊤⋮xn⊤
四、联合分布与联合密度(多元情形)
由于样本是独立同分布的,因此:
1. 联合分布函数
F∗(x1,x2,⋯ ,xn)=P(X1≤x1,⋯ ,Xn≤xn)=∏i=1nF(xi) F^*(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n) = P(\boldsymbol{X}_1 \leq \boldsymbol{x}_1, \cdots, \boldsymbol{X}_n \leq \boldsymbol{x}_n) = \prod_{i=1}^n F(\boldsymbol{x}_i) F∗(x1,x2,⋯,xn)=P(X1≤x1,⋯,Xn≤xn)=i=1∏nF(xi)
注:Xi≤xi\boldsymbol{X}_i \leq \boldsymbol{x}_iXi≤xi 指各分量分别不大于。
2. 联合概率密度函数(如果存在)
f∗(x1,x2,⋯ ,xn)=∏i=1nf(xi) f^*(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n) = \prod_{i=1}^n f(\boldsymbol{x}_i) f∗(x1,x2,⋯,xn)=i=1∏nf(xi)
这是多元统计分析、机器学习(如多元正态分布建模、最大似然估计)中的基础表达式。
✅ 五、举例说明
假设我们要研究某城市居民的“健康状况”,记录每个人的:
- 身高(cm)
- 体重(kg)
- 收缩压(mmHg)
则总体为三维随机向量:
X=(身高,体重,血压)⊤
\boldsymbol{X} = (\text{身高}, \text{体重}, \text{血压})^{\top}
X=(身高,体重,血压)⊤
从中抽取n=100n = 100n=100人的数据,得到样本:
X1,X2,⋯ ,X100
\boldsymbol{X}_1, \boldsymbol{X}_2, \cdots, \boldsymbol{X}_{100}
X1,X2,⋯,X100
每个Xi\boldsymbol{X}_iXi 是一个三维随机向量。
观测后得到样本值:
x1=[17065120], x2=[16558118], ⋯ , x100=[17872130]
\boldsymbol{x}_1 = \begin{bmatrix} 170 \\ 65 \\ 120 \end{bmatrix},\
\boldsymbol{x}_2 = \begin{bmatrix} 165 \\ 58 \\ 118 \end{bmatrix},\ \cdots,\
\boldsymbol{x}_{100} = \begin{bmatrix} 178 \\ 72 \\ 130 \end{bmatrix}
x1=17065120, x2=16558118, ⋯, x100=17872130
这构成一个100×3100 \times 3100×3的数据矩阵。
✅ 总结对比
| 概念 | 一元情形(标量) | 多元情形(向量) |
|---|---|---|
| 总体 | 随机变量XXX | 随机向量X∈Rd\boldsymbol{X} \in \mathbb{R}^dX∈Rd |
| 分布 | F(x),f(x)F(x), f(x)F(x),f(x) | F(x),f(x)F(\boldsymbol{x}), f(\boldsymbol{x})F(x),f(x) |
| 样本 | X1,⋯ ,XnX_1, \cdots, X_nX1,⋯,Xn | X1,⋯ ,Xn\boldsymbol{X}_1, \cdots, \boldsymbol{X}_nX1,⋯,Xn |
| 样本值 | x1,⋯ ,xnx_1, \cdots, x_nx1,⋯,xn | x1,⋯ ,xn\boldsymbol{x}_1, \cdots, \boldsymbol{x}_nx1,⋯,xn |
| 联合密度 | ∏i=1nf(xi)\prod_{i=1}^n f(x_i)∏i=1nf(xi) | ∏i=1nf(xi)\prod_{i=1}^n f(\boldsymbol{x}_i)∏i=1nf(xi) |
