当前位置：首页 > news >正文

电商双十一美妆数据分析

news 2025/11/2 15:41:59

1. 数据读取与基础查看

库导入：使用 import numpy as np 和 import pandas as pd 导入常用数据分析库。
数据读取： df = pd.read_csv('双十一_淘宝美妆数据.csv') 读取数据文件。
数据查看：通过 df.head() 查看数据前几行； df.info() 了解数据特征（列名、数据类型、非空值数量等）； df.shape 查看数据行列数； df.describe() 获取数值型列的统计摘要。

2. 数据清洗

重复值处理： data = df.drop_duplicates(inplace = False).reset_index(inplace = True,drop = True) 用于删除重复数据，并重置索引。
缺失值处理：识别 sale_count 和 comment_count 列的缺失值， data.loc[data['sale_count'].isnull()] 查看缺失行，然后用 data = data.fillna(0) 以0填充缺失值。

3. 特征工程

商品子类别提取：利用 jieba 库分词，通过循环从 title 列提取子类别信息，添加到新列 subtitle 。
商品类别划分：基于关键词字典，为商品划分 main_type （主类别）和 sub_type （子类别）。
是否男士专用判断：通过循环判断 subtitle 中是否含男士专用关键词，添加是否男士专用列。
销售额计算：新增销售额列， data['销售额'] = data.price * data.sale_count ，通过单价和销量计算得出。

http://www.dtcms.com/a/173427.html

相关文章：

Elasticsearch知识汇总之ElasticSearch配置文件说明

Jenkins+Newman实现接口自动化测试

Missashe考研日记-day33

NGINX `ngx_http_auth_request_module` 模块详解基于子请求的认证授权方案

理解 Elasticsearch 的评分机制和 Explain API

【ES】Elasticsearch字段映射冲突问题分析与解决

一个基于Netty和WebRTC的实时通讯系统

RPA自动化：开启智能流程新时代

NestJS 的核心构建块有哪些？请简要描述它们的作用（例如，Modules, Controllers, Providers）

荣耀A8互动娱乐组件部署实录（第2部分：界面逻辑与资源加载机制）

Oracle01-入门

Django异步任务处理方式总结

react-12父子组件间的数据传递（子传父）（父传子）- props实现

基于大模型的自然临产阴道分娩全流程预测与方案研究报告

智能推理DeepSeek-R1+Word深度整合业级智能办公构建

互联网法院在NFT、元宇宙等新兴领域的规则创新

iOS开发架构——MVC、MVP和MVVM对比

SQL注入总结

Android学习总结之Java和kotlin区别

Kotlin数据类在Android开发中的应用

Spark，配置历史服务

【东枫科技】代理销售 NVIDIA DGX Spark 您的桌上有一台 Grace Blackwell AI 超级计算机。

基于SSM实现的健身房系统功能实现一

临床智能体AI与环境感知AI的融合：基于python的医疗自然语言处理深度分析

【C++ Qt】常用输入类下：Combo Box/Spin Box/DataTimeEdit/Dial/Slide

没有 Mac，如何把 iOS App 成功上架？

Windows系统修改Docker Desktop(WSL2)内存分配

Super VLAN配置

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker（二）

【Java学习】反射