当前位置: 首页 > news >正文

购物数据分析

这是一个关于电商双11美妆数据分析的项目页面,包含版本记录、运行代码提示、评论等功能模块的相关描述。,会涉及数据处理、可视化、统计分析等代码逻辑,用于处理美妆电商双11相关数据,如销售数据统计、消费者行为分析等 。

数据源https://www.heywhale.com/mw/project/5f86a95ce48a3f0030238ca9

 数据处理
数据有27598条,每条数据有7个特征,都是非空的。

数据清洗

数据去重
data = df.drop_duplicates(inplace = False)##去重
data.reset_index(inplace = True,drop = True)##重置行索引
data.shape

数据去空值NAN

存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值。

##填补缺失值

data=data.fillna(0) #用0填补缺失值

data.isnull().any() #查看是否还有空值

数据挖掘分类,销售分类,男性专用分类

import jieba 

subtitle=[]

for each in data['title']:

    k=jieba.lcut_for_search(each) ##搜索引擎模式

    subtitle.append(k)

data['subtitle']=subtitle

data[['title','subtitle']].head()

数据可视化

绘图显示出结果对比
import matplotlib.pyplot as plt 
%matplotlib inline
plt.rcParams['font.sans-serif'] = [u'SimHei'] ##显示中文,设置字体
plt.rcParams['axes.unicode_minus'] = False ##显示符号
plt.figure(figsize = (12,10))
# 各店铺的商品数量
plt.subplot(2,2,1)
plt.tick_params(labelsize=15)
data['店名'].value_counts().sort_values().plot.bar()
plt.title('各品牌商品数',fontsize = 20)
plt.ylabel('商品数量',fontsize = 15)
plt.xlabel('店名')

#  各店铺的销量
plt.subplot(2,2,2)
plt.tick_params(labelsize=15)
data.groupby('店名').sale_count.sum().sort_values().plot.bar()
plt.title('各品牌所有商品的销量',fontsize = 20 )
plt.ylabel('商品总销量',fontsize = 15)

#各店铺总销售额
plt.subplot(2,2,3)
plt.tick_params(labelsize=15)
data.groupby('店名')['销售额'].sum().sort_values().plot.bar()
plt.title('各品牌总销售额', fontsize = 20)
plt.ylabel('商品总销售额' , fontsize = 15)
#旋转显示plt.xticks(rotation=45)

##补充绘图,挖掘数据,各品牌的平均每单单价,三个销量为0的品牌暂时不考虑
plt.subplot(2,2,4)
plt.tick_params(labelsize = 15)
avg_price=data.groupby('店名')['销售额'].sum()/data.groupby('店名').sale_count.sum() ###每个品牌售出的商品的平均单价
avg_price.sort_values().plot.bar()
plt.title('各品牌平均每单单价', fontsize = 20)
plt.ylabel('售出商品的平均单价' , fontsize = 15)
##自适应调整子图间距
plt.tight_layout()


文章转载自:
http://buncombe.hfstrb.cn
http://beesting.hfstrb.cn
http://anytime.hfstrb.cn
http://austerity.hfstrb.cn
http://basecourt.hfstrb.cn
http://accoutrement.hfstrb.cn
http://apogeotropism.hfstrb.cn
http://atramentous.hfstrb.cn
http://cabb.hfstrb.cn
http://azure.hfstrb.cn
http://chait.hfstrb.cn
http://aeroembolism.hfstrb.cn
http://acetyl.hfstrb.cn
http://ainu.hfstrb.cn
http://betray.hfstrb.cn
http://arden.hfstrb.cn
http://cerate.hfstrb.cn
http://algaecide.hfstrb.cn
http://carton.hfstrb.cn
http://aicpa.hfstrb.cn
http://backfielder.hfstrb.cn
http://akin.hfstrb.cn
http://ascendent.hfstrb.cn
http://anhwei.hfstrb.cn
http://bodmin.hfstrb.cn
http://aunty.hfstrb.cn
http://akee.hfstrb.cn
http://achalasia.hfstrb.cn
http://bearable.hfstrb.cn
http://apotropaism.hfstrb.cn
http://www.dtcms.com/a/174851.html

相关文章:

  • 双系统电脑中如何把ubuntu装进外接移动固态硬盘
  • 云境天合水陆安全漏电监测仪—迅速确定是否存在漏电现象
  • 算法每日一题 | 入门-顺序结构-三角形面积
  • 第十一届蓝桥杯 2020 C/C++组 蛇形填数
  • 第15章 Python数据类型详解之分解理解:基础数据类型常见易错点和性能优化篇
  • 【WPS】怎么解决“word的复制表格”粘贴到“excel的单元格”变多行单元格的问题
  • 浅谈 - GPTQ为啥按列量化
  • JavaSE基础概述--Lambda表达式,方法引用,基础算法,异常以及序列化
  • pywinauto通过图片定位怎么更加精准的识别图片?
  • 关于tftpboot的用法
  • 计算机中的逻辑运算
  • 关于串口读写NAND闪存的用法
  • 多线程系列五:面试中常考的单例模式
  • SQL 与 Python:日期维度表创建的不同选择
  • LINUX——例行性工作
  • LeetCode 220 存在重复元素 III 题解
  • 高铁座位指示灯系统技术深度解析:从物联网到智慧出行的实践路径
  • [论文阅读]Deep Cross Network for Ad Click Predictions
  • 机器学习例题——预测facebook签到位置(K近邻算法)和葡萄酒质量预测(线性回归)
  • 多模态训练与微调
  • TypeScript简介
  • MPay码支付系统第四方聚合收款码多款支付插件个人免签支付源码TP8框架全开源
  • MD2card + Deepseek 王炸组合 一键制作小红书知识卡片
  • Qwen3与Deepseek R1对比(截止20250506)
  • CentOS 7 安装指定版本 Docker 及镜像加速/配置优化攻略
  • 计算机视觉与深度学习 | 基于数字图像处理的裂缝检测与识别系统(matlab代码)
  • SiC 材料及器件在高频大功率领域的应用现状
  • MCP服务发展现状的有趣发现
  • 【每天一个知识点】使用 apriori() 函数获取频繁项集
  • 论广告系统对存算分离架构的应用