当前位置: 首页 > news >正文

数据分析笔记01:数据分析概述

数据分析笔记01:数据分析概述

数据分析的定义

数据分析是指使用适当的统计分析方法,对收集的大量数据进行分析、汇总和理解,以最大化数据中的价值和功能。

核心理解

  • 数据分析本质上是研究过程,从数据中提取有用信息并形成结论。
  • 统计学是数据分析的基石,数据分析依赖统计学方法实现。
  • 在信息时代,个体行为均会产生数据。

数据无处不在的时代

手机数据收集

根据2025年最新研究:

  • Android手机:在不使用任何软件的情况下,每12小时在后台发送约1.5MB数据给Google。
  • iOS手机:在相同条件下,每12小时收集约100KB数据。

数据应用实例

  • 抖音推荐算法:基于用户观看行为推荐相关内容。
  • 用户画像构建:通过行为数据为用户添加标签。
  • 精准营销:根据用户特征推送个性化商品。

统计学在各领域的应用

1. 会计领域

统计抽样在审计中的应用

  • 问题:会计师事务所需审计大量应收账款,逐一核查耗时费力。
  • 解决方案:采用统计抽样方法,从大量应收账款中抽取样本;若样本无问题,则推断整体账款合理性。
  • 优势:显著节省时间和人力成本。

2. 投资领域

股票投资分析

  • 投资顾问综合分析市盈率、股息率等财务数据。
  • 比较单只股票与市场指标(如沪深300)。
  • 实例:根据2025年数据,京东方股息收益率1.26%,而市场平均2.7%。
  • 结合基本面信息,做出持有、卖出或观望的投资建议。

3. 市场营销领域

零售业数据分析

  • 通过条形码扫描收集商品销售数据。
  • 分析商品陈列方式对销售的影响。
  • 研究促销活动的效果。

经典案例 - 啤酒与尿布

  • 发现:父亲购买尿布时常顺便购买啤酒。
  • 分析:将两种商品摆放在一起。
  • 结果:两种商品销量大幅增长。
  • 原理:关联规则分析的典型应用。

4. 运营领域

A/B测试

  • 目的:比较两种产品方案的优劣。
  • 方法:基于统计学的实验设计。
  • 应用:互联网产品功能迭代、用户体验优化。
  • 实例:评估微信新功能是否提升用户活跃度。

数据分析的三大方向

1. 描述性分析

  • 定义:描述过去发生的事件。
  • 包含技术:数据查询报告、描述统计、数据可视化、仪表板。
  • 常用方法:对比分析、交叉分析、平均分析。

2. 验证性分析

  • 定义:验证已有假设的真伪。
  • 应用场景:检验产品质量是否达到标准,使用假设检验等统计方法验证理论或假设。

3. 预测性分析

  • 定义:利用历史数据预测未来。
  • 应用场景:预测产品使用寿命、销售额变化,评估变量间影响关系。
  • 常用方法:线形回归(一元/多元)、时间序列分析、机器学习模型。

企业中的数据分析三大方向

1. 现状分析

  • 目的:描述过去发生的事件。
  • 具体应用:了解企业整体运营情况、经营指标完成情况、各业务构成、企业发展变动。
  • 常见形式:日报、周报、月报、年报。

2. 原因分析

  • 目的:分析某种状况发生的原因。
  • 分析维度:产品维度(哪些产品表现好/差)、地区维度(哪些地区表现好/差)、时间维度(哪段时间表现好/差)、突发事件(是否有特殊情况影响)。
  • 实例:2024年10月营收同比下降5%的原因分析,通过多维度拆解找出根本原因。
  • 形式:专题分析。

3. 预测性分析

  • 目的:预测将来可能发生的事件。
  • 应用场景:制定营运目标、销售目标、各种经营策略。
  • 形式:专题分析(频率相对较低)。

统计学基本概念

总体、样本、个体

  • 总体(Population):特定研究中所有感兴趣个体的集合,例如全国人口普查中的所有人。
  • 样本(Sample):总体的子集,来源于总体,例如从全国人口中抽取的代表性群体。
  • 个体(Individual):区分每个个体的基本单位,收集数据的最基本单位,例如每一个具体的人。

描述统计 vs 统计推断

  • 描述统计:以表格或图形式汇总数据的统计方法,例如疫情统计数据表格、各种统计图表,便于快速理解数据基本状况。
  • 统计推断:利用样本数据对总体特征进行估计,进行假设检验;优势:节省时间和费用,适用于大规模数据。

描述统计学:表格法与图形法

数据类型分类

分类型数据(Categorical Data)

  • 定义:可按类别划分的数据。
  • 特征:用标签或名称标识,每个数据仅归属一个类别。
  • 例子:性别(男、女);产品等级(优、良、达标、不达标)。

数量型数据(Quantitative Data)

  • 定义:可用数值表示大小多少的数据。
  • 特征:可进行数学运算,有具体数值和单位。
  • 例子:年龄(30岁、28岁);身高(1.8米);用电量(30千瓦时)。

分类型数据的处理方法

1. 频数分布(Frequency Distribution)

  • 定义:将数据汇总到互相不重叠的组中。
  • 频数:每组中项目的个数。
  • 实例:购买碳酸饮料数据
饮料类型频数
可口可乐19
百事可乐8
雪碧5
其他18
总计50
  • 价值:清楚显示各种饮料的受欢迎程度。

2. 相对频数和百分数频数分布

  • 相对频数:组频数 ÷ 样本总量,例如可口可乐:19 ÷ 50 = 0.38。
  • 百分数频数:相对频数 × 100%,例如可口可乐:38%。

3. 图形表示方法

饼图(Pie Chart)

  • 显示各组别占总体的比例。
  • 扇形角度 = 百分数频数 × 360°,例如可口可乐:38% × 360° = 136.8°。

条形图(Bar Chart)

  • X轴:类别;Y轴:频数。
  • 每个条形间有空隙。

数量型数据的处理方法

1. 频数分布的建立步骤

步骤一:确定组数

  • 建议:5-20个组,根据数据量确定,例如20个数据建议分成5组。

步骤二:确定组距(组宽)

  • 公式:组距 ≈ (最大值 - 最小值) ÷ 组数。
  • 注意:每个组的组距相同。
  • 实例:(33 - 12) ÷ 5 = 4.2,取整为5。

步骤三:确定组界

  • 上组界:组的最大值;下组界:组的最小值。
  • 目的:确保每个数据只属一个组。
  • 实例:审计时间数据分組
组别频数相对频数百分数频数
10-14天40.2020%
15-19天80.4040%
20-24天50.2525%
25-29天20.1010%
30-34天10.055%
  • 分析结果:40%的客户审计时间为15-19天;只有5%的客户需要30天或更多时间。

2. 直方图(Histogram)

  • 特征:条形之间无空隙(不同于条形图);底宽 = 组距;高度 = 频数/相对频数/百分数频数。
  • 应用:显示数据分布形态。

四种常见分布形态

  1. 左偏分布:尾巴向左延伸。
  2. 右偏分布:尾巴向右延伸,例如房价、工资数据。
  3. 对称分布:左右大致对称,例如身高、考试成绩。
  4. 严重右偏:右侧尾巴极长。

3. 累积频数分布

  • 定义:表示小于或等于某个组上限的所有数据个数。
  • 例子:小于等于24天的累积频数 = 第一组(4) + 第二组(8) + 第三组(5) = 17。
  • 应用:快速了解数据累积情况。

两个变量数据的图形描述

图形方法的优势

对于两个变量数据的模式和趋势识别,图形方法更有效。

1. 散点图和趋势线

  • 散点图:显示两个变量关系的图形。
  • 趋势线:显示相关性近似程度的直线。
  • 实例:广告次数与销售额关系。
  • 分析结果:随着广告次数增加,销售额呈上升趋势;存在正相关关系;由于点不完全在一条直线上,属不完全相关。

三种相关关系类型

  1. 正相关:X增加,Y增加。
  2. 负相关:X增加,Y减少。
  3. 无明显相关:无明显趋势。

2. 复合条形图和结构条形图

复合条形图

  • 每个类别不同子类的条形连在一起。
  • 便于比较同一类别下的不同子类。

结构条形图(堆积柱形图)

  • 长度分解成不同颜色的段。
  • 显示各子类在总体中的比例关系。
  • 实例:餐厅价格与评价关系。
  • 发现:随着餐价增加,评价逐漸提升;低价位大部分评价为“好”;高价位大部分评价为“优秀”。
http://www.dtcms.com/a/596866.html

相关文章:

  • 瑞利信道下PSK水声通信系统均衡技术
  • 网站建设存在的问题及对策软文代写发布
  • Note:汽车轮胎的电阻测量-目的是减少静电对新能源汽车电气件的损坏风险
  • RabbitMQ 核心知识点
  • Python使用消息队列rabbitmq
  • GBD调试KingSCADA详细步骤
  • 做美妆的网站南昌优化网站分析
  • 上海个人医疗网站备案尖扎县公司网站建设
  • 多端统一的教育系统源码开发详解:Web、小程序与APP的无缝融合
  • uniapp小程序 订阅消息推送
  • 微信小程序管理系统,代运营3600+医院小程序
  • 重庆论坛网站建设在网站开发中应该避免哪些漏洞
  • Spring Boot整合Redis注解,实战Redis注解使用
  • 数学分析简明教程——3.5
  • php网站500错误电子商务网站建设的作用
  • S21 布隆过滤器
  • 刷题日常 4 二叉树层序遍历
  • field ——AUTOCAD设置字段
  • SVN 启动模式
  • 论文阅读《Curse of Rarity for Autonomous Vehicles》(稀疏度灾难CoR)
  • dw怎么做网站地图室内设计效果图高清
  • 专业建设信息化网站资源中英文外贸网站模版
  • 冲压和模具制造案例丨通过Prolink实现车间数据收集和分析自动化
  • Java:高效删除Excel中的空白行和列
  • Claude Code 重大更新:支持一键原生安装,彻底别了 Node.js
  • 技术漏洞被钻营!Agent 感知伪装借 ChatGPT Atlas 批量输出虚假数据,AI 安全防线面临新挑战
  • HarmonyOS布局优化实战:扁平化布局与高性能组件应用
  • 万能的开源制图利器 —— draw.io(diagrams.net)自托管与应用分享
  • 如何做海外淘宝网站个人网页设计作业
  • 花灯彩灯制作公司四川seo推广公司