当前位置: 首页 > news >正文

中级统计师-统计学基础知识-第一章

统计学基础知识 第一章


第一节 统计学的含义及其应用

1.1 统计学的定义

  • 统计学:关于数据的科学,通过收集、整理、分析数据,得出结论以解决实际问题。
  • 核心流程:数据收集 → 数据整理 → 数据分析 → 结论推断。

1.2 基本概念

(一)总体
  • 定义:研究对象的全部个体或数据的集合。
  • 特征
    • 唯一确定但参数未知(如总体均值μ、标准差σ、比例π)。
    • 分类:有限总体(容量N)和无限总体。
(二)样本
  • 定义:从总体中抽取的一部分元素的集合。
  • 特征
    • 不唯一但统计量已知(如样本均值x̄、标准差s、比例p)。
    • 样本容量用n表示。
(三)统计方法
类型功能示例
描述统计数据收集、整理、展示与分析绘制频数表、计算均值/方差
推断统计用样本推断总体(参数估计、假设检验)估计全国平均收入、检验药物疗效

第二节 统计学发展简史

时期时间范围核心学派/贡献
古典统计学17世纪中叶-18世纪中叶- 国势学派:定性描述国家实力
- 政治算术学派:定量分析(威廉·配第的《政治算术》)
近代统计学18世纪末-19世纪末- 数理统计学派:概率论应用(拉普拉斯、高斯)
- 社会统计学派:社会现象研究
现代统计学20世纪初-至今- 推断统计学发展(哥塞特提出t分布、费雪的假设检验)
- 核心:从描述转向推断

第三节 变量与数据

3.1 变量

  • 定义:观察结果会变化的特征(如气温、职业、收入)。
  • 数据:变量的具体观察值。

3.2 数据类型

(一)非数值型数据
类型特点示例
分类数据无顺序差异(仅区分类别)性别(男/女)、血型
顺序数据有顺序但不可量化差异教育程度(小学<中学<大学)
(二)数值型数据
  • 特点:可计算绝对差(如温度差)或相对差(如收入比)。
  • 优势:计量精度高,适用统计分析(如回归分析)。
(三)其他数据分类
类型定义示例
观测数据自然状态下收集(无干预)人口普查数据、GDP统计
实验数据控制条件下获取(如改变变量观察结果)药物疗效测试、农作物品种试验
横截面数据同一时间点的多个对象数据2023年各省人均GDP
时间序列数据同一对象随时间变化的数据2000-2023年全国GDP
面板数据多个对象在不同时间点的数据2010-2020年各省GDP

第四节 数据的搜集

4.1 数据来源

类型核心要点示例
原始数据直接调查或实验获得人口普查数据、新药临床试验结果
次级数据他人整理的数据(公开出版、未发表、网络爬取)国家统计局报告、学术期刊数据

4.2 统计调查方式

(一)普查
  • 定义:一次性全面调查(如人口普查)。
  • 特点
    • 全面性、准确性高
    • 成本高、周期长(10年一次)
  • 适用场景:重大国情国力调查。
(二)抽样调查
  • 核心优势:经济高效,可推断总体。
  • 方法分类
    • 概率抽样(随机原则,可计算误差):
      方法操作示例
      简单随机抽样纯随机抽取(有放回/无放回)抽签、随机数表
      分层抽样按特征分组后等比例抽样按年龄分层后抽样
      整群抽样随机抽取群后调查群内全部个体随机选社区调查所有居民
      系统抽样等距抽样(如每50人抽1人)学生学号按间隔抽取
    • 非概率抽样(非随机,不可推断总体):
      方法特点示例
      方便抽样偶遇抽样,成本低但偏差大街头拦截调查
      判断抽样主观选择代表性样本专家选取典型企业
      雪球抽样通过推荐扩展样本(稀有群体)调查艾滋病患者
(三)其他调查方式
方式定义适用场景
统计报表定期上报(月报、年报)企业定期向政府提交经营数据
重点调查选取对总体影响大的单位调查钢铁产量选大型钢厂
典型调查选择代表性样本深度分析研究房价选北上广深

4.3 数据搜集方法

(一)询问法
方法特点适用场景
面访面对面交流,灵活性高消费者满意度调查
邮寄问卷标准化,回收率低全国社会心态调查
电话调查计算机辅助,效率高快速民意测验
座谈会小组讨论(6-10人),定性研究产品设计焦点小组
个别深入访谈一对一,挖掘深层动机奢侈品消费心理研究
(二)观察与实验法
方法特点示例
观察法无干扰记录自然行为超市顾客购物行为观察
实验法控制变量验证因果关系广告效果A/B测试

第五节 数据的误差

5.1 抽样误差

  • 定义:因样本随机性导致的样本与总体差异。
  • 特点
    • 不可避免但可计算(通过概率抽样)
    • 重复抽样误差 > 不重复抽样误差

5.2 非抽样误差

  • 定义:调查过程中人为或程序错误。
  • 类型及控制
    类型原因控制方法
    抽样框误差抽样框架不完整(遗漏目标群体)更新抽样框
    无回答误差问卷未回收提高调查员激励
    应答误差被调查者提供虚假信息匿名调查、问题设计清晰
    计量误差测量工具或方法不准确校准工具、标准化流程

经典例题解析

例题1:数据类型判断

  • 题目:产品质量等级(1级、2级、3级)属于什么数据类型?
    答案:顺序数据(可排序但不可计算差异)。

例题2:抽样方法识别

  • 题目:从某高校所有班级中随机抽取5个班,调查班内所有学生。此方法为?
    答案:整群抽样(先抽群,后全查)。

例题3:误差类型辨析

  • 题目:因问卷问题表述模糊导致答案偏差,属于哪种误差?
    答案:非抽样误差(计量误差)。

相关文章:

  • spring框架的JDBC模板技术
  • lesson03-简单回归案例(理论+代码)
  • GTS-400 系列运动控制器板卡介绍(三十四)---运动程序多线程累加求和
  • 练习小项目3:随机正能量语录生成器
  • C语言—指针4
  • EXCEL在一列数据前统一添加负号
  • 【Manim】使用manim画一个高斯分布的动画
  • 黑马k8s(八)
  • Spring MVC 对 JavaWeb 的优化:从核心组件到注解
  • 使用 LSTM/GRU 预测设备异常的模型
  • 前端 vue 部署 nginx 请求 404
  • MCP概述及MCP Server的使用和实现(谷歌ADK使用MCP Server)
  • P6123 [NEERC 2016] Hard Refactoring 题解
  • Invicti-Professional-V25.5
  • C/C++实践(九)C++二叉搜索树深入讲解
  • 高效批量合并Word文档的工具介绍
  • FC7300 PWM MCAL配置引导
  • 关于计算机系统和数据原子性的联系
  • Redis 五种类型基础操作(redis-cli + Spring Data Redis)
  • 反编译读取.class文件
  • 九江宜春领导干部任前公示,3人拟提名为县(市、区)长候选人
  • 中办、国办关于持续推进城市更新行动的意见
  • 为什么越来越多景区,把C位留给了书店?
  • 深圳拟出让3宗居住用地,共计用地面积6.77公顷
  • 5吨煤炭“瞬间蒸发”?掺水炭致企业损失千万,腐败窝案曝光
  • 古巴外长谴责美国再次将古列为“反恐行动不合作国家”