当前位置：首页 > news >正文

数据统计分析及可视化

news 2025/10/29 15:45:28

数据的统计分析及可视化

文章目录

数据的统计分析及可视化
- 第6章数据的统计分析及可视化
- - 6.1 随机变量及其分布
  - - 6.1.1 均匀分布及随机数图
    - - 6.1.1.1 均匀分布
      - 6.1.1.2 均匀随机数
    - 6.1.2 正态分布及随机数图
    - - 6.1.2.1 正态分布函数
      - 6.1.2.2 正态随机数图
      - 6.1.2.3 正态分布概率检验图（Q-Q图）
  - 6.2 统计量及抽样分布图
  - - 6.2.1 统计量及抽样的概念
    - 6.2.2 统计量的分布
    - - 6.2.2.1 中心极限定理（CLT）
      - 6.2.2.2 t分布
  - 6.3 基本统计推断方法
  - - 6.3.1 参数的估计方法
    - 6.3.2 参数的假设检验
- 总结

第6章数据的统计分析及可视化

6.1 随机变量及其分布

6.1.1 均匀分布及随机数图

6.1.1.1 均匀分布

理论基础：
均匀分布是连续型概率分布，若随机变量 ( X ) 在区间 ([a, b]) 上满足概率密度函数 ( f(x) = \frac{1}{b-a} )，则称 ( X ) 服从均匀分布，记作 ( X \sim U(a, b) )。其特点是变量在区间内每个点的概率密度相等，常用于模拟随机场景（如随机时间间隔、随机抽样）。

代码实现：

import numpy as np
import matplotlib.pyplot as plt# 生成均匀分布数据
a, b, n = 0, 1, 20  # 区间[0,1]，生成20个等距点
x = np.linspace(a, b, n)  # 生成等差数据点
y = np.ones(n) / (b - a)  # 均匀分布概率密度函数# 绘制分布曲线（连续型）与离散点图
plt.figure(figsize=(8, 4))
plt.plot(x, y, 'b-', label='均匀分布密度函数')
plt.stem(x, y, 'r', markerfmt='ro', label='离散点表示')
plt.ylim(0, 1.5)
plt.xlabel('x')
plt.ylabel('概率密度')
plt.title('均匀分布 (U(0,1)) 概率密度函数')
plt.legend()
plt.show()

6.1.1.2 均匀随机数

核心概念：

随机数生成：计算机通过伪随机数算法生成接近均匀分布的数值，np.random.rand() 生成 ([0,1)) 区间连续均匀随机数，np.random.randint() 生成指定区间的离散整数随机数。
随机种子：通过 np.random.seed(seed) 设置固定种子，确保结果可复现，便于代码调试和协作。

代码示例：

# 生成单个随机实数
single_rand = np.random.rand(1)  # 输出：array([0.1234])（示例值）
print(f"单个均匀随机实数：{single_rand[0]:.4f}")# 生成10个随机数并可视化
np.random.seed(123)  # 固定种子确保结果一致
rand_array = np.random.rand(10)
plt.figure(figsize=(10, 3))
plt.plot(range(10), rand_array, 'bo', linestyle='', label='随机数点')
plt.xlabel('样本索引')
plt.ylabel('随机数值')
plt.title('[0,1]区间均匀随机数分布')
plt.legend()
plt.show()

6.1.2 正态分布及随机数图

6.1.2.1 正态分布函数

理论解析：

标准正态分布：均值 (\mu=0)，标准差 (\sigma=1)，概率密度函数为：
[
f(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x2}{2}}
]
曲线关于 (x=0) 对称，呈钟形，约68%数据在 ([-1, 1])，95%在 ([-2, 2])，99.7%在 ([-3, 3])（经验法则）。
分位数与概率计算：
- pdf(z)：计算 (z) 处的概率密度值
- ppf(q)：计算累积概率 (q) 对应的分位数（如 (q=0.95) 对应单侧临界值）
- cdf(z)：计算 (P(Z \leq z)) 的累积概率

概率面积图函数：

from scipy import stats as stdef norm_prob_area(a, b):"""绘制标准正态分布区间[a,b]的概率面积图"""x = np.linspace(-4, 4, 400)y = st.norm.pdf(x)mask = (x >= a) & (x <= b)p = st.norm.cdf(b) - st.norm.cdf(a)plt.figure(figsize=(10, 5))plt.plot(x, y, 'k-', label='标准正态分布')plt.fill_between(x, y, where=mask, color='skyblue', alpha=0.5, label=f'P({a:.2f}≤Z≤{b:.2f})={p:.4f}')plt.xlabel('z值')plt.ylabel('概率密度')plt.title('标准正态分布区间概率面积')plt.legend()plt.show()print(f"区间[{a:.2f}, {b:.2f}]的概率：{p:.4f}（即{p*100:.2f}%）")norm_prob_area(-1.96, 1.96)  # 输出95%置信区间的经典临界值

6.1.2.2 正态随机数图

实战应用：

标准正态随机数：用于模拟噪声数据、假设检验中的理论分布对比
一般正态随机数：拟合现实中的连续型数据（如身高、体重，假设服从 (N(\mu, \sigma^2))）
对数正态分布：若 (Y = e^Z) 且 (Z \sim N(\mu, \sigma^2))，则 (Y) 服从对数正态分布，常用于金融资产价格建模（如股票收益率）。

代码对比：

# 标准正态分布随机数直方图（1000个样本）
np.random.seed(456)
z_std = np.random.normal(0, 1, 1000)
plt.figure(figsize=(12, 4))plt.subplot(121)
plt.hist(z_std, bins=30, density=True, alpha=0.6, color='teal', label='样本直方图')
x_theory = np.linspace(-4, 4, 100)
y_theory = st.norm.pdf(x_theory)
plt.plot(x_theory, y_theory, 'r-', lw=2, label='理论密度曲线')
plt.title('标准正态随机数分布')
plt.legend()# 对数正态分布转换演示
np.random.seed(15)
y_lognorm = np.random.lognormal(0, 1, 1000)  # 均值0，标准差1的对数正态
z_lognorm = np.log(y_lognorm)  # 转换后服从N(0,1)plt.subplot(122)
sns.distplot(z_lognorm, hist=False, kde=True, color='orange', label='转换后正态分布')
plt.title('对数正态分布转换为正态分布')
plt.legend()
plt.tight_layout()
plt.show()

6.1.2.3 正态分布概率检验图（Q-Q图）

检验原理：
Q-Q图（分位数-分位数图）通过对比样本分位数与理论分位数的拟合程度判断正态性：

若数据严格正态，点应近似分布在 (y=x) 直线上
偏离直线表示非正态（如对数正态数据在Q-Q图中呈曲线）

代码实现：

# 绘制Q-Q图
plt.figure(figsize=(12, 4))plt.subplot(131)
st.probplot(X, plot=plt)  # 正态数据Q-Q图（近似直线）
plt.title('正态数据Q-Q图')plt.subplot(132)
st.probplot(Y, plot=plt)  # 对数正态数据Q-Q图（上凸曲线）
plt.title('对数正态数据Q-Q图')plt.subplot(133)
st.probplot(Z, plot=plt)  # 转换后正态数据Q-Q图（恢复直线）
plt.title('转换后正态数据Q-Q图')
plt.tight_layout()
plt.show()

6.2 统计量及抽样分布图

6.2.1 统计量及抽样的概念

核心抽样方法：

简单随机抽样：每个样本被抽中的概率相等，分为放回抽样和不放回抽样
分层抽样：按类别分层后分别抽样（本例未涉及，但实际应用中常用）
系统抽样：按固定间隔抽样（如每10个抽1个）

代码实战：

import pandas as pd# 读取学生数据（假设BSdata包含52个学生的身高、性别等信息）
BSdata = pd.read_excel('DaPy_data.xlsx', 'BSdata')# 方法1：通过随机索引抽样（不放回）
np.random.seed(15)
sample_indices = np.random.randint(1, 53, 6)  # 生成1-52之间的6个不重复整数
selected_students = BSdata.iloc[sample_indices]# 方法2：直接使用pandas.sample()（默认不放回）
direct_sample = BSdata.sample(6, random_state=15)  # 设置random_state确保复现

6.2.2 统计量的分布

6.2.2.1 中心极限定理（CLT）

定理要点：
无论总体分布如何，当样本量 (n) 足够大时（通常 (n \geq 30)），样本均值 (\bar{X}) 的分布趋近于正态分布 (N(\mu, \sigma^2/n))。

模拟对比：

def clt_simulation(dist_type='normal', n=30, N=10000):"""模拟中心极限定理：样本均值的分布"""xbar = np.zeros(N)for i in range(N):if dist_type == 'normal':data = np.random.normal(0, 1, n)  # 正态总体else:data = np.random.uniform(0, 1, n)  # 均匀总体（非正态）xbar[i] = data.mean()plt.figure(figsize=(10, 5))sns.distplot(xbar, bins=50, kde=True, label=f'样本均值分布 (n={n})')plt.xlabel('样本均值')plt.title(f'中心极限定理模拟：{dist_type}总体')plt.legend()plt.show()print(pd.DataFrame(xbar).describe().T[['mean', 'std']])  # 输出均值和标准差# 正态总体模拟（n=30）
clt_simulation('normal')  
# 均匀总体模拟（n=30，可见均值分布接近正态）
clt_simulation('uniform')

6.2.2.2 t分布

应用场景：
当总体标准差 (\sigma) 未知且样本量 (n) 较小时（(n < 30)），样本均值的标准化统计量 (t = \frac{\bar{X} - \mu}{S/\sqrt{n}}) 服从自由度 (df = n-1) 的t分布。

曲线特性：

与标准正态分布相比，t分布尾部更厚（自由度越小，尾部越厚）
随着自由度增加，t分布逐渐趋近正态分布（(df \geq 30) 时近似正态）

可视化对比：

x = np.linspace(-4, 4, 400)
yn = st.norm.pdf(x)
yt3 = st.t.pdf(x, 3)
yt10 = st.t.pdf(x, 10)plt.figure(figsize=(8, 5))
plt.plot(x, yn, 'r-', lw=2, label='N(0,1)')
plt.plot(x, yt3, 'b--', lw=1.5, label='t(3)')
plt.plot(x, yt10, 'g-.', lw=1.5, label='t(10)')
plt.xlabel('t值')
plt.ylabel('概率密度')
plt.title('t分布与标准正态分布对比')
plt.legend()
plt.ylim(0, 0.45)
plt.show()

6.3 基本统计推断方法

6.3.1 参数的估计方法

点估计 vs 区间估计：

方法	定义	示例	优点	缺点
点估计	用单个值估计总体参数	样本均值 (\bar{X}) 估计 (\mu)	简洁直观	未体现估计误差
区间估计	用区间[L, U]估计参数	95%置信区间 ([\bar{X}-1.96SE, \bar{X}+1.96SE])	量化不确定性	区间宽度依赖样本量

代码实现（身高数据区间估计）：

def t_confidence_interval(data, confidence=0.95):"""计算t分布置信区间"""n = len(data)mean = data.mean()std = data.std(ddof=1)  # 样本标准差（无偏估计）se = std / np.sqrt(n)df = n - 1critical_val = st.t.ppf(1 - (1 - confidence)/2, df)lower = mean - critical_val * seupper = mean + critical_val * sereturn (lower, upper)# 计算身高均值的95%置信区间
height_data = BSdata['身高']
ci = t_confidence_interval(height_data)
print(f"身高均值的{95}%置信区间：[{ci[0]:.2f}, {ci[1]:.2f}]")

6.3.2 参数的假设检验

单样本t检验步骤：

设定零假设 (H_0: \mu = \mu_0) 和备择假设 (H_1: \mu \neq \mu_0)（双侧检验）
计算检验统计量 (t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}})
根据自由度 (df = n-1) 和显著性水平 (\alpha=0.05)，比较t值与临界值，或计算p值

可视化函数增强：

def ttest_visualization(X, mu=0):"""绘制t检验拒绝域及置信区间"""df = len(X) - 1t_stat, p_val = st.ttest_1samp(X, mu)t_abs = abs(t_stat)alpha = 0.05critical_t = st.t.ppf(1 - alpha/2, df)x = np.linspace(-4, 4, 400)y = st.t.pdf(x, df)plt.figure(figsize=(10, 5))plt.plot(x, y, 'k-', label=f't分布 (df={df})')# 绘制拒绝域（双侧）mask_left = x <= -critical_tmask_right = x >= critical_tplt.fill_between(x, y, where=mask_left, color='red', alpha=0.2, label=f'拒绝域 (α/2={alpha/2})')plt.fill_between(x, y, where=mask_right, color='red', alpha=0.2)# 绘制样本t值plt.axvline(t_stat, color='blue', linestyle='--', label=f'样本t值: {t_stat:.3f}')plt.axvline(-t_stat, color='blue', linestyle='--')# 标注p值plt.text(0, 0.1, f'p值: {p_val:.4f}', fontsize=12, ha='center')plt.xlabel('t值')plt.ylabel('概率密度')plt.title(f'单样本t检验可视化 (μ0={mu})')plt.legend()plt.show()ttest_visualization(BSdata['身高'], 166)  # 检验身高均值是否为166

总结

根据这章的学习，让我深刻体会到数据科学中理论与实践的紧密联结。通过代码实现概率分布的模拟、随机数生成与可视化，原本抽象的统计概念（如中心极限定理、t分布形态）变得直观可感——正态分布的钟型曲线在Q-Q图中化为笔直的参考线，假设检验的拒绝域通过概率密度图跃然眼前。我认识到，统计分析不仅是数学公式的推导，更是通过数据对话现实问题的思维方式。Python工具链（如numpy、scipy、matplotlib）在此过程中扮演了关键桥梁，让理论得以在代码中“活”起来：一个简单的ttest_1samp()函数背后，蕴含着抽样分布、显著性水平的复杂逻辑；而置信区间的计算则让我体会到用概率语言量化不确定性的精妙。这种“理论可视化、方法代码化”的学习路径，不仅深化了对统计本质的理解，更让我在数据建模的道路上多了份“知其然亦知其所以然”的底气。

查看全文

http://www.dtcms.com/a/190754.html