数据分析可视化学习总结(美妆2)
数据分析与可视化学习总结
在本次数据分析学习中,我围绕商品销售数据展开了一系列分析与可视化操作,通过 Python 的 matplotlib、seaborn 等库实现了数据的筛选、分组统计及图表绘制,深入理解了数据可视化在业务分析中的应用价值。以下是具体学习总结:
一、数据筛选与预处理
数据子集提取
通过布尔索引筛选特定条件的数据,例如从原始数据集data1
中提取男士专用商品数据:python
male_data = data1.loc[data['是否男士专用'] == '是']
同理可筛选非男士专用商品数据,为后续对比分析奠定基础。
数据格式转换
针对日期类数据(如update_time
),需将字符串格式转换为datetime
格式,确保时间序列的正确排序:python
sale_day.index = [datetime.strptime(i, '%Y/%m/%d') for i in sale_day.index]
这一步是时间序列可视化的关键,避免了因字符串排序导致的时间逻辑混乱。
二、核心分析维度与可视化方法
1. 按商品属性的分类分析
男士专用商品细分
使用seaborn.barplot
绘制分组柱状图,按 “店名” 和 “商品类型(main_type)” 展示销量分布,通过hue
参数实现多维度对比,estimator=np.sum
指定按总和统计,清晰呈现不同店铺各类型男士商品的销售表现。男女专用商品对比
构建 2×2 网格子图,分别展示男士 / 非男士专用商品的销量与销售额,通过groupby
分组求和后排序绘图,直观对比两类商品在各店铺的销售差异。
2. 时间趋势分析
以 “日期(update_time)” 为维度,通过groupby
计算每日销量与销售额,绘制折线图展示时间趋势。添加网格线(linestyle='-.'
)增强可读性,清晰呈现销售数据随时间的波动规律,便于发现季节性或周期性特征。
3. 用户评论行为分析
从两个角度分析评论数据:
- 各店铺总评论数:反映用户参与度;
- 销量与评论数的比值(平均多少单一条评论):衡量评论转化率,比值越高说明用户评论意愿越低。
通过并排子图对比,可关联销售表现与用户反馈活跃度。
三、可视化技巧与工具应用
子图布局设计
使用plt.subplot
创建网格布局(如 2×2、2×1、1×2),将多个相关图表整合在同一画布,便于对比分析。通过figsize
设置画布大小,tight_layout()
自动调整布局避免元素重叠。图表美化与参数设置
- 调整标题(
title
)、坐标轴标签(xlabel
/ylabel
)及字体大小,提升可读性; - 对柱状图使用
sort_values(ascending=True)
按升序排列,突出数据差异; - 折线图添加网格线,柱状图通过
hue
参数实现分组着色,增强信息层次感。
- 调整标题(
库的协同使用
结合pandas
进行数据分组与聚合(groupby
、sum
),matplotlib
与seaborn
实现可视化,datetime
处理时间格式,各工具各司其职,高效完成从数据处理到图表输出的全流程。
四、学习收获与应用场景
通过本次实践,我掌握了从数据筛选、分组统计到可视化呈现的完整分析思路,理解了不同图表类型(柱状图、折线图)的适用场景:
- 柱状图适合对比类别数据(如不同店铺、不同商品类型的销量);
- 折线图适合展示时间序列趋势(如每日销售波动)。
这些技能可应用于电商运营分析、商品品类管理、用户行为研究等场景,帮助通过数据洞察业务问题,为决策提供支持。未来可进一步学习更复杂的可视化工具(如 Plotly)或统计分析方法,深化数据分析能力。