当前位置: 首页 > news >正文

数据初步了解


 
数据初步了解
 
1. 导入库并读取数据
 
-  import numpy as np  和  import pandas as pd  导入了常用的数值计算库  numpy  和数据处理库  pandas 。
 
-  df = pd.read_csv('双十一淘宝美妆数据.csv')  读取了名为  双十一淘宝美妆数据.csv  的文件,并将数据存储在  df  这个  DataFrame  对象中。
 
-  df.head()  查看数据的前五行,用于快速了解数据的结构和内容。
 
2. 查看数据特征
 
-  df.info()  用于查看数据的基本信息,包括每列的数据类型、非空值数量等。可以看出数据有27598条记录,7列。
 
3. 查看数据形状和描述性统计
 
-  df.shape  查看数据的形状,即行数和列数,这里是(27598, 7) 。
 
-  df.describe()  对数据中的数值型列(如  price 、 sale_count 、 comment_count  )进行描述性统计,展示计数、均值、标准差、最小值、四分位数和最大值等信息。
 
数据清洗
 
1. 重复值处理
 
-  data = df.drop_duplicates(inplace = False)  删除数据中的重复行, inplace = False  表示不直接在原数据  df  上操作,而是返回一个新的  DataFrame  赋值给  data 。
 
-  data.reset_index(inplace = True,drop = True)  重置索引, drop = True  表示不保留原来的索引列。
 
- 处理后数据从27598行减少到27512行,说明有86条重复数据被删除。
 
2. 缺失值处理
 
- 先通过  data['sale_count'].isnull()  等语句观察  sale_count  和  comment_count  列的缺失值情况。
 
- 然后使用  data = data.fillna(0)  将缺失值用0填充, data.isnull().any()  再次检查是否还有缺失值,结果显示各列均无缺失值。
 
数据挖掘与新特征提取
 
1. 文本分词
 
-  import jieba  导入结巴分词库。
 
- 对  title  列进行分词,通过循环将分词结果存储在新的  subtitle  列中,以便进一步分析文本内容。
 
2. 商品分类
 
- 手动定义了一些商品分类规则,将美妆产品划分为不同的主类别和子类别,如护肤品下的乳液类、面霜类等。
 
- 通过一系列字符串操作和判断,为数据新增  main_type (主类别)和  sub_type (子类别)两列,完善数据的类别信息。
 

相关文章:

  • Excel Vlookup
  • Flutter 布局
  • Java 内存区域与内存溢出异常
  • 数据结构 --- 栈
  • AI 数字短视频数字人源码开发实用技巧分享​
  • 19.第二阶段x64游戏实战-vector容器
  • Navicat Premium 17 备份,还原数据库(PostGreSql)
  • 第四节:进程控制
  • cookie/session的关系
  • Python基础学习-Day17
  • 第九章,链路聚合和VRRP
  • 编码器型与解码器型语言模型的比较
  • Github打不开怎么办?
  • IDEA Mysql连接失败,移除JDBC驱动程序中的协议列表
  • python学习记录
  • Science Advances:南京大学基于硅光芯片实现非阿贝尔辫子操作,突破量子逻辑门技术
  • Codeforces Round 1023 (Div. 2) (A-D)
  • huggingface 热门开源TTS模型Dia-1.6B,支持多人对话生成、情感控制~
  • 多模态理论知识
  • 土建施工员考试重点内容总结
  • 国铁集团:铁路五一假期运输收官,多项运输指标创历史新高
  • 巴基斯坦所有主要城市宣布进入紧急状态,学校和教育机构停课
  • 奥迪4S店内揭车衣时遭“连环车损”,双方因赔偿分歧陷僵局
  • 4月份全球制造业PMI继续下降,经济下行压力有所加大
  • 杨德龙:取得长期投资胜利法宝,是像巴菲特一样践行价值投资
  • 环球马术冠军赛圆满落幕,是马术盛宴更是中国马产业强大引擎