当前位置: 首页 > news >正文

电商双十一美妆数据分析

1. 数据读取与基础查看

 

  • 库导入:使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
  • 数据读取: df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
  • 数据查看:通过 df.head() 查看数据前几行; df.info() 了解数据特征(列名、数据类型、非空值数量等) ; df.shape 查看数据行列数; df.describe() 获取数值型列的统计摘要。

 

2. 数据清洗

 

  • 重复值处理: data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True)  用于删除重复数据,并重置索引。
  • 缺失值处理:识别 sale_count 和 comment_count 列的缺失值, data.loc[data['sale_count'].isnull()] 查看缺失行,然后用 data = data.fillna(0) 以0填充缺失值。

 

3. 特征工程

 

  • 商品子类别提取:利用 jieba 库分词,通过循环从 title 列提取子类别信息,添加到新列 subtitle 。
  • 商品类别划分:基于关键词字典,为商品划分 main_type (主类别)和 sub_type (子类别)。
  • 是否男士专用判断:通过循环判断 subtitle 中是否含男士专用关键词,添加 是否男士专用 列。
  • 销售额计算:新增 销售额 列, data['销售额'] = data.price * data.sale_count  ,通过单价和销量计算得出。

 

 

相关文章:

  • Elasticsearch知识汇总之ElasticSearch配置文件说明
  • Jenkins+Newman实现接口自动化测试
  • Missashe考研日记-day33
  • NGINX `ngx_http_auth_request_module` 模块详解基于子请求的认证授权方案
  • 理解 Elasticsearch 的评分机制和 Explain API
  • 【ES】Elasticsearch字段映射冲突问题分析与解决
  • 一个基于Netty和WebRTC的实时通讯系统
  • RPA自动化:开启智能流程新时代
  • NestJS 的核心构建块有哪些?请简要描述它们的作用(例如,Modules, Controllers, Providers)
  • 荣耀A8互动娱乐组件部署实录(第2部分:界面逻辑与资源加载机制)
  • Oracle01-入门
  • Django异步任务处理方式总结
  • react-12父子组件间的数据传递(子传父)(父传子)- props实现
  • 基于大模型的自然临产阴道分娩全流程预测与方案研究报告
  • 智能推理DeepSeek-R1+Word深度整合业级智能办公构建
  • 互联网法院在NFT、元宇宙等新兴领域的规则创新
  • iOS开发架构——MVC、MVP和MVVM对比
  • SQL注入总结
  • Android学习总结之Java和kotlin区别
  • Kotlin数据类在Android开发中的应用
  • 何立峰将访问瑞士、法国并举行中美经贸高层会谈、第十次中法高级别经济财金对话
  • 六大车企一季报:比亚迪近92亿净利稳居第一,多家车企营收下滑
  • 以色列计划“占领加沙”,特朗普下周中东行结束之际将是“机会窗口”
  • AI世界的年轻人|“热潮下要有定力”,她的目标是让机器人真正步入家庭
  • 库里22分赢下抢七大战,火箭十年难破“火勇大战”的魔咒
  • 经常犯困、迷糊……当心是身体发出的“黄牌”警告