当前位置: 首页 > news >正文

大数据应用开发和项目实战-电商双11美妆数据分析

数据初步了解

(head出现,意味着只出现前5行,如果只出现后面几行就是tail) 

info 

shape 

 describe

 
数据清洗

重复值处理

        这个重复值是否去掉要看实际情况,比如说:昨天卖了5瓶七喜,今天卖了5瓶七喜,同样的数量,这种重复值就不能删除,要有一个合理的解释去说明删除的是无效重复数据。


 缺失值处理 

 


存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值


数据挖掘寻找新的特征 

        街道库(jieba)的使用方法,包括精确模式、全模式和搜索引擎模式的不同应用场景。


给出各个关键词的分类类别 

        创建主类别和子类别,并通过关键词进行标签化


由title新生成两列类别

        通过中文分词技术对title列进行处理,将其分为大类和小类,便于后续数据分析。


对是否是男性专用进行分析并新增一列


对每个产品总销量新增销售额这一列 

数据分析及可视化

        使用Python进行数据可视化,包括绘制柱形图和饼图

        通过代码实现数据的排序和分组,并生成相应的图表

 

http://www.dtcms.com/a/173638.html

相关文章:

  • 第八章,STP(生成树协议)
  • 【IP101】图像特征提取技术:从传统方法到深度学习的完整指南
  • K8S PV 与 PVC 快速开始、入门实战
  • 【安全】端口保护技术--端口敲门和单包授权
  • Web3 应用中常见的数据安全风险及防护措施
  • C++多态详解
  • 【Linux】进程地址空间
  • 免费轻量化办公pdf修改软件 一键格式转换基础修改到高级加密
  • keil+vscode+腾讯ai助手
  • 【笔记】【B站课程 pytorch】梯度下降模型
  • 深入理解 mapper-locations
  • LintCode407-加一,LintCode第479题-数组第二大数
  • MySQL - 事务
  • 5.2创新架构
  • 浔川AI 第二次内测报告
  • 浅析MySQL 的 **触发器(Trigger)** 和 **存储过程(Stored Procedure)原理及优化建议
  • c++学习合集(2025-4-29)
  • 基于Anaconda的Pycharm环境配置
  • 使用图像生成式AI和主题社区网站助力运动和时尚品牌的新产品设计和市场推广的点子和实现
  • 20250506让NanoPi NEO core开发板使用Ubuntu core16.04系统的TF卡启动
  • 中达瑞和便携式高光谱相机:珠宝鉴定领域的“光谱之眼”
  • 车载通信网络安全:挑战与解决方案
  • 【表设计】外键的取舍-分布式中逐渐消失的外键
  • 【十五】Mybatis动态SQL实现原理
  • 在Unity AR应用中实现摄像头切换功能
  • 2025年服务器技术全景解析:量子计算、液冷革命与未来生态构建
  • 基于图像处理的道路监控与路面障碍检测系统设计与实现 (源码+定制+开发) 图像处理 计算机视觉 道路监控系统 视频帧分析 道路安全监控 城市道路管理
  • HTTP请求与前端资源未优化的系统性风险与高性能优化方案
  • Java高频面试之并发编程-12
  • 论文速读:《CoM:从多模态人类视频中学习机器人操作,助力视觉语言模型推理与执行》