数据初步了解
数据初步了解
1. 导入库并读取数据
- import numpy as np 和 import pandas as pd 导入了常用的数值计算库 numpy 和数据处理库 pandas 。
- df = pd.read_csv('双十一淘宝美妆数据.csv') 读取了名为 双十一淘宝美妆数据.csv 的文件,并将数据存储在 df 这个 DataFrame 对象中。
- df.head() 查看数据的前五行,用于快速了解数据的结构和内容。
2. 查看数据特征
- df.info() 用于查看数据的基本信息,包括每列的数据类型、非空值数量等。可以看出数据有27598条记录,7列。
3. 查看数据形状和描述性统计
- df.shape 查看数据的形状,即行数和列数,这里是(27598, 7) 。
- df.describe() 对数据中的数值型列(如 price 、 sale_count 、 comment_count )进行描述性统计,展示计数、均值、标准差、最小值、四分位数和最大值等信息。
数据清洗
1. 重复值处理
- data = df.drop_duplicates(inplace = False) 删除数据中的重复行, inplace = False 表示不直接在原数据 df 上操作,而是返回一个新的 DataFrame 赋值给 data 。
- data.reset_index(inplace = True,drop = True) 重置索引, drop = True 表示不保留原来的索引列。
- 处理后数据从27598行减少到27512行,说明有86条重复数据被删除。
2. 缺失值处理
- 先通过 data['sale_count'].isnull() 等语句观察 sale_count 和 comment_count 列的缺失值情况。
- 然后使用 data = data.fillna(0) 将缺失值用0填充, data.isnull().any() 再次检查是否还有缺失值,结果显示各列均无缺失值。
数据挖掘与新特征提取
1. 文本分词
- import jieba 导入结巴分词库。
- 对 title 列进行分词,通过循环将分词结果存储在新的 subtitle 列中,以便进一步分析文本内容。
2. 商品分类
- 手动定义了一些商品分类规则,将美妆产品划分为不同的主类别和子类别,如护肤品下的乳液类、面霜类等。
- 通过一系列字符串操作和判断,为数据新增 main_type (主类别)和 sub_type (子类别)两列,完善数据的类别信息。