电商双11美妆数据分析
数据可视化与分析
项目介绍
电商双11美妆数据分析,分析品牌销售量、性价比。
强调数据可视化的目的是为了数据分析,需从图表中得出结论。
数据处理
使用Pandas和Numpy库进行数据预处理。
读取CSV文件及查看数据的前五行和后五行。
数据清洗
重复值处理
重复值的处理方式包括忽略和删除,需有充分理由。
示例代码展示了如何删除完全重复的数据行。
缺失值处理
缺失值处理方式包括填充和删除。
示例中使用了零填充法处理销售量和评论数量的缺失值。
新特征挖掘
类别细分
通过对标题进行中文分词,将数据分为大类和小类。
数据处理思路
强调在数据分析过程中,可以根据需求新增特征列,以便更精准地分析数据。
总结
数据可视化与数据分析密不可分,需从图表中得出有价值的结论。
数据清洗是数据分析的重要步骤,包括处理重复值和缺失值。
新特征的挖掘可以通过中文分词等方法实现,提升数据分析的精准度。
中文分词与特征提取:
讨论了使用中文分词工具对文本数据进行分词,并提取新的特征。
介绍了第三方库和标准库的区别,强调了第三方库需要下载使用。
通过实例展示了如何使用结巴分词工具进行精确模式、全模式和搜索引擎模式的分词。
数据处理与分类:
通过代码实现数据的分词和处理,并将分词结果用于分类。
主类别和子类别的设定方法,强调了分类是基于数据集的实际情况进行的。
处理数据集中的缺失值,并将未分类的项目归为“其他”类别。
数据可视化:
使用Matplotlib等工具进行数据可视化,包括柱形图、饼图等。
通过实例展示了各店铺的商品数量、销量、总销售额和平均单价的可视化效果。
讨论了如何根据商品的平均单价将其分为ABCD四类,并绘制各类商品的销售额占比图。
数据分析:
分析了护肤品、化妆品和其他类别的销售量和销售额占比。
通过饼图展示了各大类别的销售情况,指出护肤品占据了主要市场份额。
进一步分析和利用数据,提出了后续的分析方向和任务。