当前位置: 首页 > news >正文

8.12 数据分析(1)

双十一淘宝美妆数据

我们先需要在寻找一些数据集,来支撑我们的代码

1. 数据处理基础​
  • ​数据获取​​:SQL数据库查询、数据调用、爬虫技术(Python库如Requests、matplotlib等)

  • ​清洗技术​​:处理缺失值(删除/中间补充)、异常值检测()、重复值处理、字符串规范化等
 2.分析工具​
  • ​Excel​​:透视表(快速聚合)、VLOOKUP(数据关联)、基础统计函数

  • ​Python生态​​:Pandas(数据处理)、NumPy(数值计算)、SciPy(统计检验)

​3. 统计方法
  • ​R语言​​:dplyr/tidyr(数据处理)、ggplot2(可视化)
  • ​数据库​​:SQL进阶(窗口函数、CTE)、NoSQL基础(MongoDB查询)

4.可视化

注意:

  • 会运用到SQL → Excel → 统计学

  • 使用Python(Pandas库/Matplotlib/numpy) → → 机器学习基础

  • 分析真实数据集(开源数据集等或者自己实践创造一个数据集)

以淘宝双十一为例

缺失值处理

导入jieba库

分类商品

sub_type = []   #子类别
main_type = []  #主类别

for i in catg:
main_cat=i.strip().split('\t')[0]    ----主类别为0
sub_cat=i.strip().split('\t')[1]      ----第一个分类为1
o_cat=i.strip().split('\t')[2:len(catg)]   ---第二个和以后为2

之后可以运用一些数据库进行数据的分析:例如:可视化、整理、画图、分类、做表等

http://www.dtcms.com/a/329209.html

相关文章:

  • mac 安卓模拟器 blueStacks
  • windows10的vs2019编译openssl静态库备忘
  • 随想记-excel报表美化
  • unity_MCP
  • 类和对象(中下)
  • 《Linux基础知识-4》
  • Kubernetes-03:Service
  • LeetCode——456. 132 模式
  • 6 .循环-for
  • 高级项目——基于FPGA的串行FIR滤波器
  • Rust面试题及详细答案120道(01-10)-- 基础语法与数据类型
  • 日志数据链路的 “搬运工”:Flume 分布式采集的组件分工与原理
  • React常见的Hooks
  • 低成本扩展方案:S7-200SMART作为S7-1500分布式IO从站的上位机配置指南
  • 第三天-在DBC中创建一个Signal Group信号组
  • MySQL新增字段与Java实体不同步:常见问题排查与高效解决方案
  • 流处理 or 批处理?大数据架构还需要流批一体吗?
  • wangeditor v4修改缩进并清除粘贴文档带入的格式
  • MySQL极简安装挑战:从依赖管理到高效部署
  • MySQL数据线上扩容方案
  • npm安装时一直卡住的解决方法
  • Grayscale® 推出 Walrus 和 DeepBook 信托产品
  • 图像分类-动手学计算机视觉10
  • 解决:[64000][257] ORA-00257: 归档程序错误。只有在解析完成后才以 AS SYSDBA 方式连接问题
  • 面试实战 问题二十七 java 使用1.8新特性,判断空
  • 深入理解 uni-app 的 uni.createSelectorQuery()
  • SAP Valuation Category在制造业成本核算中的使用场景与配置方案
  • Easysearch 数据迁移之 INFINI Gateway
  • 云计算-OpenStack 运维开发实战:从 Restful API 到 Python SDK 全场景实现镜像上传、用户创建、云主机部署全流程
  • OpenBMC 中命令模式的深度解析:从原理到实现