大数据应用开发和项目实战-电商双11美妆数据分析
数据初步了解

(head出现,意味着只出现前5行,如果只出现后面几行就是tail)
info

shape

describe

 
 数据清洗
 
重复值处理
这个重复值是否去掉要看实际情况,比如说:昨天卖了5瓶七喜,今天卖了5瓶七喜,同样的数量,这种重复值就不能删除,要有一个合理的解释去说明删除的是无效重复数据。

  缺失值处理 
 

 
 存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值

 数据挖掘寻找新的特征 
 
街道库(jieba)的使用方法,包括精确模式、全模式和搜索引擎模式的不同应用场景。

 给出各个关键词的分类类别 
 
创建主类别和子类别,并通过关键词进行标签化


 由title新生成两列类别
 
通过中文分词技术对title列进行处理,将其分为大类和小类,便于后续数据分析。

 对是否是男性专用进行分析并新增一列
 

 对每个产品总销量新增销售额这一列 
 

数据分析及可视化
使用Python进行数据可视化,包括绘制柱形图和饼图
通过代码实现数据的排序和分组,并生成相应的图表


 
