当前位置: 首页 > news >正文

大数据应用开发和项目实战-电商双11美妆数据分析

数据初步了解

(head出现,意味着只出现前5行,如果只出现后面几行就是tail) 

info 

shape 

 describe

 
数据清洗

重复值处理

        这个重复值是否去掉要看实际情况,比如说:昨天卖了5瓶七喜,今天卖了5瓶七喜,同样的数量,这种重复值就不能删除,要有一个合理的解释去说明删除的是无效重复数据。


 缺失值处理 

 


存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值


数据挖掘寻找新的特征 

        街道库(jieba)的使用方法,包括精确模式、全模式和搜索引擎模式的不同应用场景。


给出各个关键词的分类类别 

        创建主类别和子类别,并通过关键词进行标签化


由title新生成两列类别

        通过中文分词技术对title列进行处理,将其分为大类和小类,便于后续数据分析。


对是否是男性专用进行分析并新增一列


对每个产品总销量新增销售额这一列 

数据分析及可视化

        使用Python进行数据可视化,包括绘制柱形图和饼图

        通过代码实现数据的排序和分组,并生成相应的图表

 

相关文章:

  • 第八章,STP(生成树协议)
  • 【IP101】图像特征提取技术:从传统方法到深度学习的完整指南
  • K8S PV 与 PVC 快速开始、入门实战
  • 【安全】端口保护技术--端口敲门和单包授权
  • Web3 应用中常见的数据安全风险及防护措施
  • C++多态详解
  • 【Linux】进程地址空间
  • 免费轻量化办公pdf修改软件 一键格式转换基础修改到高级加密
  • keil+vscode+腾讯ai助手
  • 【笔记】【B站课程 pytorch】梯度下降模型
  • 深入理解 mapper-locations
  • LintCode407-加一,LintCode第479题-数组第二大数
  • MySQL - 事务
  • 5.2创新架构
  • 浔川AI 第二次内测报告
  • 浅析MySQL 的 **触发器(Trigger)** 和 **存储过程(Stored Procedure)原理及优化建议
  • c++学习合集(2025-4-29)
  • 基于Anaconda的Pycharm环境配置
  • 使用图像生成式AI和主题社区网站助力运动和时尚品牌的新产品设计和市场推广的点子和实现
  • 20250506让NanoPi NEO core开发板使用Ubuntu core16.04系统的TF卡启动
  • 泽连斯基:俄代表团级别低,没人能做决定
  • 俄媒:俄乌伊斯坦布尔谈判将于北京时间今天17时30分开始
  • 混乱的5天:俄乌和谈如何从充满希望走向“卡壳”
  • 【社论】打破“隐形高墙”,让老年人更好融入社会
  • 最高人民法院、中国证监会联合发布《关于严格公正执法司法 服务保障资本市场高质量发展的指导意见》
  • 因港而兴,“长江黄金水道”上的宜宾故事