当前位置: 首页 > news >正文

手机销量分析案例

项目背景

  • 某电商商城随着业务量的发展,积累了大量的用户手机销售订单数据。决策层希望能够通过对这些数据的分析了解更多的用户信息及用户的分布,从而可以指导下一年的市场营销方案以及更加精准的定位市场,进行广告投放。

数据说明

  • 数据时间从 2017.01.01至2019.03.31 共41800 条,数据存储在 excel 文件 中(Phone.xlsx)。
    在这里插入图片描述

import pandas as pd
data = pd.read_excel(‘./Phone.xlsx’)
data.head()
在这里插入图片描述

data.shape
(41800, 20)

  • 查看缺失数据的个数和占比

#查看缺失数据
for col in data.columns:
null_count = data[col].isnull().sum()
if null_count > 0:
p = str(null_count / data[col].size * 100)+‘%’
print(col+‘:’+p)
年:100.0%
月:100.0%
年龄段:100.0%

  • 缺失值处理

data[‘年’] = data[‘订单日期’].dt.year
data[‘月’] = data[‘订单日期’].dt.month

#数据分箱:
#[0-16,17-26,27-36,37-49]
data[‘年龄段’] = pd.cut(data[‘年龄’],bins=[0,16,26,36,49])

  • 查看消费者对不同手机品牌的青睐程度

#查看不同品牌手机的累计销量和累计销售额,且对累计销量进行降序
data.groupby(by=‘品牌’)[[‘销售额’,‘数量’]].sum().sort_values(‘数量’,ascending=False)
在这里插入图片描述

  • 查看不同品牌的不同型号数量

p_count_list = [] #品牌名称和品牌型号的数量
for p in data[‘品牌’].unique():
#可以将p表示品牌的行数据
p_df = data.loc[data[‘品牌’] == p]
p_count = p_df[‘型号’].nunique() #品牌对应不同型号的数量
p_count_list.append([p,p_count])
pd.DataFrame(p_count_list,columns=[‘品牌’,‘型号数量’])
在这里插入图片描述

#分组聚合
data.groupby(by=‘品牌’)[‘型号’].nunique()
在这里插入图片描述

#分类汇总
data.pivot_table(index=‘品牌’,values=‘型号’,aggfunc=‘nunique’)
在这里插入图片描述

  • 查看不同品牌中价格最高和最低的型号是什么

data.groupby(by=[‘品牌’,‘型号’])[‘价格’].agg([‘max’,‘min’])
在这里插入图片描述

  • 查看不同月份的销量情况,哪些月份销量比较高

data.groupby(by=‘月’)[‘数量’].sum().sort_values(ascending=False)

3 16582
1 16420
2 15561
12 11060
5 11026
7 10987
11 10960
8 10884
4 10863
10 10833
6 10733
9 10644
Name: 数量, dtype: int64

  • 不同年龄段的购买力

data.groupby(by=‘年龄段’)[‘数量’].sum().sort_values(ascending=False)
年龄段
(16, 26] 74573
(26, 36] 68910
(0, 16] 1758
(36, 49] 1312
Name: 数量, dtype: int64

  • 查看不同省份不同城市的购买力情况

data.pivot_table(index=[‘省份名字’,‘城市名字’],values=‘数量’,aggfunc=‘sum’).sort_values(‘数量’,ascending=False)
在这里插入图片描述

  • 查看不同品牌的不同机身内存的订单量(只考虑订单量,不考虑一个订单中包含几个已购商品)

pd.crosstab(index=data[‘品牌’],columns=data[‘机身内存’])
在这里插入图片描述
源文件和示例模拟数据可在这里下载:
https://download.csdn.net/download/ak2111/89055350?spm=1001.2014.3001.5501
内容来源于大数据分析课程。

相关文章:

  • 服务器配置Huggingface并git clone模型和文件
  • 八大技术趋势案例(虚拟现实增强现实)
  • 芒果YOLOv5改进89:卷积SPConv篇,即插即用,去除特征图中的冗余,FLOPs 和参数急剧下降,提升小目标检测
  • 关于埃斯顿机器人安全区域不规则设置
  • FPGA之组合逻辑与时序逻辑
  • 2024年04月在线IDE流行度最新排名
  • 题解 -- 第六届蓝桥杯大赛软件赛决赛C/C++ 大学 C 组
  • 视频推拉流EasyDSS点播平台云端录像播放异常的问题排查与解决
  • mac 安装 pip,如果你的电脑已经有 python3
  • 网络套接字补充——TCP网络编程
  • C++ //练习 11.4 扩展你的程序,忽略大小写和标点。例如,“example.“、“exmaple,“和”Example“应该递增相同的计数器。
  • 使用node爬取视频网站里《龙珠》m3u8视频
  • 第十四届蓝桥杯(八题C++ 题目+代码+注解)
  • Python版【植物大战僵尸 +源码】
  • 非关系型数据库之Redis配置与优化
  • 【御控物联】JavaScript JSON结构转换(13):对象To数组——多层属性重组
  • 云计算面临的威胁
  • 【战略前沿】与中国达成生产协议后,飞行汽车即将起飞
  • GitHub git push超过100MB大文件失败(write error: Broken pipe)完美解决
  • 设计模式 —— 设计原则
  • 吴清:基金业绩差的必须少收管理费,督促基金公司从“重规模”向“重回报”转变
  • 百亿基金经理调仓路径曝光,张坤、陈皓、胡昕炜又有新动作
  • 外交部:中欧关系50年发展最宝贵经验是相互尊重,求同存异
  • 五一假期上海虹桥边检站出入境近4.7万人次,韩国入境旅客同比增118%
  • 今年五一档电影票房已破7亿
  • 抗战回望15︱《五月国耻纪念专号》:“不堪回首”