当前位置：首页 > news >正文

数据初步了解

news 2025/11/1 8:29:33

数据初步了解

1. 导入库并读取数据

- import numpy as np  和 import pandas as pd  导入了常用的数值计算库 numpy  和数据处理库 pandas 。

- df = pd.read_csv('双十一淘宝美妆数据.csv')  读取了名为双十一淘宝美妆数据.csv  的文件，并将数据存储在 df  这个 DataFrame  对象中。

- df.head()  查看数据的前五行，用于快速了解数据的结构和内容。

2. 查看数据特征

- df.info()  用于查看数据的基本信息，包括每列的数据类型、非空值数量等。可以看出数据有27598条记录，7列。

3. 查看数据形状和描述性统计

- df.shape  查看数据的形状，即行数和列数，这里是(27598, 7) 。

- df.describe()  对数据中的数值型列（如 price 、 sale_count 、 comment_count  ）进行描述性统计，展示计数、均值、标准差、最小值、四分位数和最大值等信息。

数据清洗

1. 重复值处理

- data = df.drop_duplicates(inplace = False)  删除数据中的重复行， inplace = False  表示不直接在原数据 df  上操作，而是返回一个新的 DataFrame  赋值给 data 。

- data.reset_index(inplace = True,drop = True)  重置索引， drop = True  表示不保留原来的索引列。

- 处理后数据从27598行减少到27512行，说明有86条重复数据被删除。

2. 缺失值处理

- 先通过 data['sale_count'].isnull()  等语句观察 sale_count  和 comment_count  列的缺失值情况。

- 然后使用 data = data.fillna(0)  将缺失值用0填充， data.isnull().any()  再次检查是否还有缺失值，结果显示各列均无缺失值。

数据挖掘与新特征提取

1. 文本分词

- import jieba  导入结巴分词库。

- 对 title  列进行分词，通过循环将分词结果存储在新的 subtitle  列中，以便进一步分析文本内容。

2. 商品分类

- 手动定义了一些商品分类规则，将美妆产品划分为不同的主类别和子类别，如护肤品下的乳液类、面霜类等。

- 通过一系列字符串操作和判断，为数据新增 main_type （主类别）和 sub_type （子类别）两列，完善数据的类别信息。