数据分析笔记01:数据分析概述
数据分析笔记01:数据分析概述
数据分析的定义
数据分析是指使用适当的统计分析方法,对收集的大量数据进行分析、汇总和理解,以最大化数据中的价值和功能。
核心理解
- 数据分析本质上是研究过程,从数据中提取有用信息并形成结论。
- 统计学是数据分析的基石,数据分析依赖统计学方法实现。
- 在信息时代,个体行为均会产生数据。
数据无处不在的时代
手机数据收集
根据2025年最新研究:
- Android手机:在不使用任何软件的情况下,每12小时在后台发送约1.5MB数据给Google。
- iOS手机:在相同条件下,每12小时收集约100KB数据。
数据应用实例
- 抖音推荐算法:基于用户观看行为推荐相关内容。
- 用户画像构建:通过行为数据为用户添加标签。
- 精准营销:根据用户特征推送个性化商品。
统计学在各领域的应用
1. 会计领域
统计抽样在审计中的应用
- 问题:会计师事务所需审计大量应收账款,逐一核查耗时费力。
- 解决方案:采用统计抽样方法,从大量应收账款中抽取样本;若样本无问题,则推断整体账款合理性。
- 优势:显著节省时间和人力成本。
2. 投资领域
股票投资分析
- 投资顾问综合分析市盈率、股息率等财务数据。
- 比较单只股票与市场指标(如沪深300)。
- 实例:根据2025年数据,京东方股息收益率1.26%,而市场平均2.7%。
- 结合基本面信息,做出持有、卖出或观望的投资建议。
3. 市场营销领域
零售业数据分析
- 通过条形码扫描收集商品销售数据。
- 分析商品陈列方式对销售的影响。
- 研究促销活动的效果。
经典案例 - 啤酒与尿布
- 发现:父亲购买尿布时常顺便购买啤酒。
- 分析:将两种商品摆放在一起。
- 结果:两种商品销量大幅增长。
- 原理:关联规则分析的典型应用。
4. 运营领域
A/B测试
- 目的:比较两种产品方案的优劣。
- 方法:基于统计学的实验设计。
- 应用:互联网产品功能迭代、用户体验优化。
- 实例:评估微信新功能是否提升用户活跃度。
数据分析的三大方向
1. 描述性分析
- 定义:描述过去发生的事件。
- 包含技术:数据查询报告、描述统计、数据可视化、仪表板。
- 常用方法:对比分析、交叉分析、平均分析。
2. 验证性分析
- 定义:验证已有假设的真伪。
- 应用场景:检验产品质量是否达到标准,使用假设检验等统计方法验证理论或假设。
3. 预测性分析
- 定义:利用历史数据预测未来。
- 应用场景:预测产品使用寿命、销售额变化,评估变量间影响关系。
- 常用方法:线形回归(一元/多元)、时间序列分析、机器学习模型。
企业中的数据分析三大方向
1. 现状分析
- 目的:描述过去发生的事件。
- 具体应用:了解企业整体运营情况、经营指标完成情况、各业务构成、企业发展变动。
- 常见形式:日报、周报、月报、年报。
2. 原因分析
- 目的:分析某种状况发生的原因。
- 分析维度:产品维度(哪些产品表现好/差)、地区维度(哪些地区表现好/差)、时间维度(哪段时间表现好/差)、突发事件(是否有特殊情况影响)。
- 实例:2024年10月营收同比下降5%的原因分析,通过多维度拆解找出根本原因。
- 形式:专题分析。
3. 预测性分析
- 目的:预测将来可能发生的事件。
- 应用场景:制定营运目标、销售目标、各种经营策略。
- 形式:专题分析(频率相对较低)。
统计学基本概念
总体、样本、个体
- 总体(Population):特定研究中所有感兴趣个体的集合,例如全国人口普查中的所有人。
- 样本(Sample):总体的子集,来源于总体,例如从全国人口中抽取的代表性群体。
- 个体(Individual):区分每个个体的基本单位,收集数据的最基本单位,例如每一个具体的人。
描述统计 vs 统计推断
- 描述统计:以表格或图形式汇总数据的统计方法,例如疫情统计数据表格、各种统计图表,便于快速理解数据基本状况。
- 统计推断:利用样本数据对总体特征进行估计,进行假设检验;优势:节省时间和费用,适用于大规模数据。
描述统计学:表格法与图形法
数据类型分类
分类型数据(Categorical Data)
- 定义:可按类别划分的数据。
- 特征:用标签或名称标识,每个数据仅归属一个类别。
- 例子:性别(男、女);产品等级(优、良、达标、不达标)。
数量型数据(Quantitative Data)
- 定义:可用数值表示大小多少的数据。
- 特征:可进行数学运算,有具体数值和单位。
- 例子:年龄(30岁、28岁);身高(1.8米);用电量(30千瓦时)。
分类型数据的处理方法
1. 频数分布(Frequency Distribution)
- 定义:将数据汇总到互相不重叠的组中。
- 频数:每组中项目的个数。
- 实例:购买碳酸饮料数据
| 饮料类型 | 频数 |
|---|---|
| 可口可乐 | 19 |
| 百事可乐 | 8 |
| 雪碧 | 5 |
| 其他 | 18 |
| 总计 | 50 |
- 价值:清楚显示各种饮料的受欢迎程度。
2. 相对频数和百分数频数分布
- 相对频数:组频数 ÷ 样本总量,例如可口可乐:19 ÷ 50 = 0.38。
- 百分数频数:相对频数 × 100%,例如可口可乐:38%。
3. 图形表示方法
饼图(Pie Chart)
- 显示各组别占总体的比例。
- 扇形角度 = 百分数频数 × 360°,例如可口可乐:38% × 360° = 136.8°。
条形图(Bar Chart)
- X轴:类别;Y轴:频数。
- 每个条形间有空隙。
数量型数据的处理方法
1. 频数分布的建立步骤
步骤一:确定组数
- 建议:5-20个组,根据数据量确定,例如20个数据建议分成5组。
步骤二:确定组距(组宽)
- 公式:组距 ≈ (最大值 - 最小值) ÷ 组数。
- 注意:每个组的组距相同。
- 实例:(33 - 12) ÷ 5 = 4.2,取整为5。
步骤三:确定组界
- 上组界:组的最大值;下组界:组的最小值。
- 目的:确保每个数据只属一个组。
- 实例:审计时间数据分組
| 组别 | 频数 | 相对频数 | 百分数频数 |
|---|---|---|---|
| 10-14天 | 4 | 0.20 | 20% |
| 15-19天 | 8 | 0.40 | 40% |
| 20-24天 | 5 | 0.25 | 25% |
| 25-29天 | 2 | 0.10 | 10% |
| 30-34天 | 1 | 0.05 | 5% |
- 分析结果:40%的客户审计时间为15-19天;只有5%的客户需要30天或更多时间。
2. 直方图(Histogram)
- 特征:条形之间无空隙(不同于条形图);底宽 = 组距;高度 = 频数/相对频数/百分数频数。
- 应用:显示数据分布形态。
四种常见分布形态
- 左偏分布:尾巴向左延伸。
- 右偏分布:尾巴向右延伸,例如房价、工资数据。
- 对称分布:左右大致对称,例如身高、考试成绩。
- 严重右偏:右侧尾巴极长。
3. 累积频数分布
- 定义:表示小于或等于某个组上限的所有数据个数。
- 例子:小于等于24天的累积频数 = 第一组(4) + 第二组(8) + 第三组(5) = 17。
- 应用:快速了解数据累积情况。
两个变量数据的图形描述
图形方法的优势
对于两个变量数据的模式和趋势识别,图形方法更有效。
1. 散点图和趋势线
- 散点图:显示两个变量关系的图形。
- 趋势线:显示相关性近似程度的直线。
- 实例:广告次数与销售额关系。
- 分析结果:随着广告次数增加,销售额呈上升趋势;存在正相关关系;由于点不完全在一条直线上,属不完全相关。
三种相关关系类型
- 正相关:X增加,Y增加。
- 负相关:X增加,Y减少。
- 无明显相关:无明显趋势。
2. 复合条形图和结构条形图
复合条形图
- 每个类别不同子类的条形连在一起。
- 便于比较同一类别下的不同子类。
结构条形图(堆积柱形图)
- 长度分解成不同颜色的段。
- 显示各子类在总体中的比例关系。
- 实例:餐厅价格与评价关系。
- 发现:随着餐价增加,评价逐漸提升;低价位大部分评价为“好”;高价位大部分评价为“优秀”。
