当前位置: 首页 > news >正文

(Python)数据分析:概念和流程

图片

广义的数据分析包括狭义数据分析和数据挖掘。

狭义数据分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法(位于上图技术层的算法模型和通用技术),对收集的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果的过程。

图片

《Python数据分析与应用》曾文权、张良均主编


数据分析已经逐渐演化为一种解决问题的过程,甚至是一种方法论。虽然每个公司都会根据自身需求和目标创建最适合的数据分析流程,但是数据分析的核心步骤是一致的。

图片

《Python数据分析与应用》曾文权、张良均主编

一)需求分析

1、需求分析基础认知

来源:源于产品设计领域

定义:从用户提出的需求出发,挖掘其内心真实意图,并转化为产品需求的过程

2、产品设计中的需求分析

地位:是产品设计的第一步,且是极为关键的一步

作用:决定产品方向

错误影响:可能导致产品在实现过程中走向错误方向,甚至给企业带来损失

3、数据分析中的需求分析

地位:是数据分析环节的第一步,至关重要

作用:决定后续的分析方向和方法

主要内容:依据业务、生产和财务等部门的需求,结合现有数据情况,提出数据分析需求的整体分析方向与分析内容,最终与需求方达成一致意见

二) 数据获取

1、数据获取基础认知

基础地位:是数据分析工作的基础

定义:根据需求分析的结果提取、收集数据

2、数据获取主要方式

获取方式:网络抓取、库表抽取、共享交换

更新方式:通过全量、增量、拉链等方式更新

3、数据获取方式选择

依据需求分析的结果而定

三)数据预处理

1、数据预处理定义

对数据进行数据合并、数据清洗、数据标准化和数据变换等操作,并将数据用于分析建模的过程总称

2、主要操作内容

数据合并:将多张互相关联的表格合并为一张

数据清洗:去除重复、缺失、异常、不一致的数据

数据标准化:去除特征间的量纲差异

数据变换:通过离散化、哑变量处理等技术满足后期分析与建模的数据要求

3、过程特点

在数据分析过程中,各个过程互相交叉,没有明确的先后顺序

四)分析与建模

1、分析与建模定义

通过对比分析、分组分析、交叉分析、回归分析等分析方法,以及聚类模型、分类模型、关联规则、智能推荐等模型与算法,发现数据中有价值的信息,并得出结论的过程

2、方法选择依据

依据需求分析的结果而定

3、按目标分类的方法与模型

描述客户行为模式:采用描述型数据分析方法,可考虑关联规则、序列规则和聚类模型等

量化未来某事件发生概率:使用两大预测分析模型

  • 分类预测模型:目标特征通常为二元数据,如欺诈与否、流失与否、信用好坏等

  • 回归预测模型:目标特征通常为连续型数据,常见的有股票价格预测等

图片

图片

五)模型评价与优化

1、模型评价

定义:对于已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价模型性能优劣的过程

常用指标

  • 聚类模型:ARI 评价法(兰德系数)、AMI 评价法(互信息)、V-measure 评分、FMI 评价法和轮廓系数等

  • 分类模型:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 值(F1 Value)、ROC 和 AUC 等

  • 回归模型:平均绝对误差、均方误差、中值绝对误差和可解释方差值等

2、模型优化

定义:模型性能在经过模型评价后已达到要求,但在实际生产环境应用中发现性能不理想,继而对模型进行重构与优化的过程

与分析建模的关系:多数情况下,模型优化和分析与建模的过程基本一致

六)模型部署

部署是指将数据分析结果与结论应用至实际生产系统的过程。

根据需求的不同,部署阶段可以是一份包含了现状具体整改措施的数据分析报告,也可以是将模型部署在整个生产系统的解决方案。

在多数项目中,数据分析师提供的是一份数据分析报告或一套解决方案,实际执行与部署的是需求方。


文章转载自:

http://wug51iiQ.jpfpc.cn
http://HVBklO8R.jpfpc.cn
http://zaLMwIoV.jpfpc.cn
http://F1QU2bCh.jpfpc.cn
http://eZYtuZ09.jpfpc.cn
http://32WOo51Y.jpfpc.cn
http://ol20e1Nq.jpfpc.cn
http://MQc0u5jj.jpfpc.cn
http://BYHxtMYC.jpfpc.cn
http://eQVszxwt.jpfpc.cn
http://QOLGJWaA.jpfpc.cn
http://IOms7SjO.jpfpc.cn
http://7eHDbv8I.jpfpc.cn
http://CWUQe9v7.jpfpc.cn
http://2mHODNcW.jpfpc.cn
http://X5YhkQE8.jpfpc.cn
http://P3fAjwvy.jpfpc.cn
http://ViYomiWm.jpfpc.cn
http://6EXiolVk.jpfpc.cn
http://o3Isy2Mq.jpfpc.cn
http://26DCw7zu.jpfpc.cn
http://R6P6zWOD.jpfpc.cn
http://krtUByxq.jpfpc.cn
http://i9JUlCFf.jpfpc.cn
http://eMcNABbc.jpfpc.cn
http://4ONIv8qi.jpfpc.cn
http://vNhLqixg.jpfpc.cn
http://TbLr1dgf.jpfpc.cn
http://y1qoqeBV.jpfpc.cn
http://kIsMfDJS.jpfpc.cn
http://www.dtcms.com/a/366419.html

相关文章:

  • 【高并发内存池】四、中心缓存的设计
  • 加密货币武器化:恶意npm包利用以太坊智能合约实现隐蔽通信
  • ai生成ppt工具有哪些?10款主流AI生成PPT工具盘点
  • 智慧油站新机遇:一款加油小程序如何让生意“加油”提速?
  • Ubuntu 24.04 中 nvm 安装 Node 权限问题解决
  • Jfinal-简
  • VR红色教育基地+数字党建展厅+智慧校史馆
  • 基于单片机智能水龙头/智能洗漱台设计
  • Android入门到实战(八):从发现页到详情页——跳转、传值与RecyclerView多类型布局
  • Android SystemServer 系列专题【AttentionManagerService】
  • 如何在SpringBoot项目中优雅的连接多台Redis
  • Windows 编程——字符串处理
  • ReAct模式解读
  • 学会 Java 异常处理,其实没你想的那么难
  • 学习PaddlePaddle--环境配置-Windows 11 + RTX 4060
  • 渐变背景色和渐变字体颜色的实现方法
  • 美团开源龙猫大模型,与DeepSeek V3同一梯队?
  • 让B站视频4倍速度播放
  • Redis C++ 实现笔记(F篇)
  • 23种设计模式-Proxy模式
  • 无限时长视频生成新突破!复旦联合微软、腾讯混元推出StableAvatar,仅需1张照片+1段音频实现真人说话视频
  • 在 Debian 系统上清理缓存的方式和具体操作方法
  • Flink反压问题
  • 视频增强AI哪个效果好?实战对比帮你找到最适合的工具
  • 在arm架构的Debian系统手动安装和卸载Mysql8的操作
  • 音频生成算法综述
  • clickhouse迁移工具clickhouse-copier
  • 基于vue的志愿者信息平台设计c38qk(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 对接旅游行业安全需求:旅游安全急救实训室的功能构建与育人目标
  • APM32芯得 EP.33 | 基于APM32E030解读APM库的高速时钟配置