中级统计师-统计学基础知识-第一章
统计学基础知识 第一章
第一节 统计学的含义及其应用
1.1 统计学的定义
- 统计学:关于数据的科学,通过收集、整理、分析数据,得出结论以解决实际问题。
- 核心流程:数据收集 → 数据整理 → 数据分析 → 结论推断。
1.2 基本概念
(一)总体
- 定义:研究对象的全部个体或数据的集合。
- 特征:
- 唯一确定但参数未知(如总体均值μ、标准差σ、比例π)。
- 分类:有限总体(容量N)和无限总体。
(二)样本
- 定义:从总体中抽取的一部分元素的集合。
- 特征:
- 不唯一但统计量已知(如样本均值x̄、标准差s、比例p)。
- 样本容量用n表示。
(三)统计方法
类型 | 功能 | 示例 |
---|---|---|
描述统计 | 数据收集、整理、展示与分析 | 绘制频数表、计算均值/方差 |
推断统计 | 用样本推断总体(参数估计、假设检验) | 估计全国平均收入、检验药物疗效 |
第二节 统计学发展简史
时期 | 时间范围 | 核心学派/贡献 |
---|---|---|
古典统计学 | 17世纪中叶-18世纪中叶 | - 国势学派:定性描述国家实力 - 政治算术学派:定量分析(威廉·配第的《政治算术》) |
近代统计学 | 18世纪末-19世纪末 | - 数理统计学派:概率论应用(拉普拉斯、高斯) - 社会统计学派:社会现象研究 |
现代统计学 | 20世纪初-至今 | - 推断统计学发展(哥塞特提出t分布、费雪的假设检验) - 核心:从描述转向推断 |
第三节 变量与数据
3.1 变量
- 定义:观察结果会变化的特征(如气温、职业、收入)。
- 数据:变量的具体观察值。
3.2 数据类型
(一)非数值型数据
类型 | 特点 | 示例 |
---|---|---|
分类数据 | 无顺序差异(仅区分类别) | 性别(男/女)、血型 |
顺序数据 | 有顺序但不可量化差异 | 教育程度(小学<中学<大学) |
(二)数值型数据
- 特点:可计算绝对差(如温度差)或相对差(如收入比)。
- 优势:计量精度高,适用统计分析(如回归分析)。
(三)其他数据分类
类型 | 定义 | 示例 |
---|---|---|
观测数据 | 自然状态下收集(无干预) | 人口普查数据、GDP统计 |
实验数据 | 控制条件下获取(如改变变量观察结果) | 药物疗效测试、农作物品种试验 |
横截面数据 | 同一时间点的多个对象数据 | 2023年各省人均GDP |
时间序列数据 | 同一对象随时间变化的数据 | 2000-2023年全国GDP |
面板数据 | 多个对象在不同时间点的数据 | 2010-2020年各省GDP |
第四节 数据的搜集
4.1 数据来源
类型 | 核心要点 | 示例 |
---|---|---|
原始数据 | 直接调查或实验获得 | 人口普查数据、新药临床试验结果 |
次级数据 | 他人整理的数据(公开出版、未发表、网络爬取) | 国家统计局报告、学术期刊数据 |
4.2 统计调查方式
(一)普查
- 定义:一次性全面调查(如人口普查)。
- 特点:
- 全面性、准确性高
- 成本高、周期长(10年一次)
- 适用场景:重大国情国力调查。
(二)抽样调查
- 核心优势:经济高效,可推断总体。
- 方法分类:
- 概率抽样(随机原则,可计算误差):
方法 操作 示例 简单随机抽样 纯随机抽取(有放回/无放回) 抽签、随机数表 分层抽样 按特征分组后等比例抽样 按年龄分层后抽样 整群抽样 随机抽取群后调查群内全部个体 随机选社区调查所有居民 系统抽样 等距抽样(如每50人抽1人) 学生学号按间隔抽取 - 非概率抽样(非随机,不可推断总体):
方法 特点 示例 方便抽样 偶遇抽样,成本低但偏差大 街头拦截调查 判断抽样 主观选择代表性样本 专家选取典型企业 雪球抽样 通过推荐扩展样本(稀有群体) 调查艾滋病患者
- 概率抽样(随机原则,可计算误差):
(三)其他调查方式
方式 | 定义 | 适用场景 |
---|---|---|
统计报表 | 定期上报(月报、年报) | 企业定期向政府提交经营数据 |
重点调查 | 选取对总体影响大的单位 | 调查钢铁产量选大型钢厂 |
典型调查 | 选择代表性样本深度分析 | 研究房价选北上广深 |
4.3 数据搜集方法
(一)询问法
方法 | 特点 | 适用场景 |
---|---|---|
面访 | 面对面交流,灵活性高 | 消费者满意度调查 |
邮寄问卷 | 标准化,回收率低 | 全国社会心态调查 |
电话调查 | 计算机辅助,效率高 | 快速民意测验 |
座谈会 | 小组讨论(6-10人),定性研究 | 产品设计焦点小组 |
个别深入访谈 | 一对一,挖掘深层动机 | 奢侈品消费心理研究 |
(二)观察与实验法
方法 | 特点 | 示例 |
---|---|---|
观察法 | 无干扰记录自然行为 | 超市顾客购物行为观察 |
实验法 | 控制变量验证因果关系 | 广告效果A/B测试 |
第五节 数据的误差
5.1 抽样误差
- 定义:因样本随机性导致的样本与总体差异。
- 特点:
- 不可避免但可计算(通过概率抽样)
- 重复抽样误差 > 不重复抽样误差
5.2 非抽样误差
- 定义:调查过程中人为或程序错误。
- 类型及控制:
类型 原因 控制方法 抽样框误差 抽样框架不完整(遗漏目标群体) 更新抽样框 无回答误差 问卷未回收 提高调查员激励 应答误差 被调查者提供虚假信息 匿名调查、问题设计清晰 计量误差 测量工具或方法不准确 校准工具、标准化流程
经典例题解析
例题1:数据类型判断
- 题目:产品质量等级(1级、2级、3级)属于什么数据类型?
答案:顺序数据(可排序但不可计算差异)。
例题2:抽样方法识别
- 题目:从某高校所有班级中随机抽取5个班,调查班内所有学生。此方法为?
答案:整群抽样(先抽群,后全查)。
例题3:误差类型辨析
- 题目:因问卷问题表述模糊导致答案偏差,属于哪种误差?
答案:非抽样误差(计量误差)。