购物数据分析
这是一个关于电商双11美妆数据分析的项目页面,包含版本记录、运行代码提示、评论等功能模块的相关描述。,会涉及数据处理、可视化、统计分析等代码逻辑,用于处理美妆电商双11相关数据,如销售数据统计、消费者行为分析等 。
数据源https://www.heywhale.com/mw/project/5f86a95ce48a3f0030238ca9
 数据处理
 数据有27598条,每条数据有7个特征,都是非空的。
数据清洗
数据去重
 data = df.drop_duplicates(inplace = False)##去重
 data.reset_index(inplace = True,drop = True)##重置行索引
 data.shape
数据去空值NAN
存在的缺失值很可能意味着售出的数量为0或者评论的数量为0,所以我们用0来填补缺失值。
##填补缺失值
data=data.fillna(0) #用0填补缺失值
data.isnull().any() #查看是否还有空值
数据挖掘分类,销售分类,男性专用分类
import jieba
subtitle=[]
for each in data['title']:
k=jieba.lcut_for_search(each) ##搜索引擎模式
subtitle.append(k)
data['subtitle']=subtitle
data[['title','subtitle']].head()
数据可视化
绘图显示出结果对比
 import matplotlib.pyplot as plt 
 %matplotlib inline
 plt.rcParams['font.sans-serif'] = [u'SimHei'] ##显示中文,设置字体
 plt.rcParams['axes.unicode_minus'] = False ##显示符号
 plt.figure(figsize = (12,10))
 # 各店铺的商品数量
 plt.subplot(2,2,1)
 plt.tick_params(labelsize=15)
 data['店名'].value_counts().sort_values().plot.bar()
 plt.title('各品牌商品数',fontsize = 20)
 plt.ylabel('商品数量',fontsize = 15)
 plt.xlabel('店名')
#  各店铺的销量
 plt.subplot(2,2,2)
 plt.tick_params(labelsize=15)
 data.groupby('店名').sale_count.sum().sort_values().plot.bar()
 plt.title('各品牌所有商品的销量',fontsize = 20 )
 plt.ylabel('商品总销量',fontsize = 15)
#各店铺总销售额
 plt.subplot(2,2,3)
 plt.tick_params(labelsize=15)
 data.groupby('店名')['销售额'].sum().sort_values().plot.bar()
 plt.title('各品牌总销售额', fontsize = 20)
 plt.ylabel('商品总销售额' , fontsize = 15)
 #旋转显示plt.xticks(rotation=45)
##补充绘图,挖掘数据,各品牌的平均每单单价,三个销量为0的品牌暂时不考虑
 plt.subplot(2,2,4)
 plt.tick_params(labelsize = 15)
 avg_price=data.groupby('店名')['销售额'].sum()/data.groupby('店名').sale_count.sum() ###每个品牌售出的商品的平均单价
 avg_price.sort_values().plot.bar()
 plt.title('各品牌平均每单单价', fontsize = 20)
 plt.ylabel('售出商品的平均单价' , fontsize = 15)
 ##自适应调整子图间距
 plt.tight_layout()
