当前位置: 首页 > news >正文

数据分析—双十一

电商双11美妆数据分析报告

一、数据清洗与预处理

  1. 数据类型识别与统计量计算
    首先识别数据中各列的数据类型,并计算统计量,包括标准差、最小值、最大值、四分位数等,为后续分析提供基础数据支持。

  2. 处理重复值
    检测到数据中共有86条重复记录,将其删除后重置行索引,数据量从27598条减少至27512条,确保数据的唯一性。

  3. 处理缺失值
    发现“销售数量”和“评论数量”两列存在缺失值。经过分析后,决定用零填充这些空值,以保证数据的完整性。

二、数据特征扩充与分析

  1. 新增分析维度

    • 销售额:通过“单价 × 销售数量”计算销售额,为分析商品的经济价值提供依据。

    • 品牌分析:从商品标题中提取品牌名,分析不同品牌的销售表现,了解市场占有率和消费者偏好。

    • 产品分类:将产品分为护肤品和化妆品两大类,并进一步细分小类,如护肤品中的眼部护理、面膜等,化妆品中的口红、底妆等,以便更精准地分析市场需求。

    • 价格区间:分析平价产品(0-300元)与贵价产品(>300元)对销量的影响,探究价格与销售的关系。

    • 适用人群:根据商品标题中的关键词,如“男”“女士”等,划分产品适用人群,了解不同性别的消费偏好。
      强调通过数据挖掘扩充特征,而非无中生有,例如无法新增“浏览量”字段。

  2. 中文分词与文本处理
    使用结巴库(jieba)对商品标题(title列)进行中文分词,采用“搜索引擎模式”切分长词语,提高分词的准确性。
    创建分类字典,主类分为“护肤品”和“化妆品”,子类进一步细化。通过关键词匹配将分词结果映射到主类和子类,确保关键词覆盖全面,避免分类错误。

  3. 后续处理逻辑
    遍历分词结果,根据分类字典为每条数据标注主类和子类。例如,若标题包含“面膜”关键词,则主类为“护肤品”,子类为“面膜”。对未识别的关键词归类为“其他”,确保数据分析的完整性。新增“是否为男士专用”列,通过关键词筛选(如“男”“男士”且排除“女”“斩男”等)标记男性专用产品。计算销售额(单价×数量),观察到高销售额商品(如面霜)的数值表现突出。

三、数据分析与可视化

  1. 品牌分析

    • 相宜本草销量和销售额均领先,但单价亲民(200元以内)。

    • 雅诗兰黛单价最高(>500元),但销量低。

    • SK-II、玉兰油等品牌商品数量在500-1500件,但销量趋近于零。

  2. 价格区间影响
    将商品按均价分为A(0-100元)、B(100-200元)、C(200-300元)、D(>300元)四类。分析发现,平价商品(A、B类)销售额占比最高,高价商品(D类)占比最低。

  3. 品类分析

    • 大类中护肤品占比最高(71.7%),化妆品次之(18.77%)。

    • 小类中清洁类和补水类销量占比最高,修容、眼部护理等占比低。

  4. 性别分析

    • 男士专用产品中清洁类(61.54%)和补水类(16.87%)为主。

    • 非男士专用产品品类分布更均衡。

    • 女性消费者贡献81.83%的销量,男性仅占18.16%。

四、结论与建议

  1. 平价商品优势
    平价商品(尤其是清洁、补水类)更易获得高销售额,建议优先开发性价比高的产品,满足大众消费需求。

  2. 品类开发建议

    • 针对女性消费者需提供多样化品类,如彩妆、护肤全系列,以满足其广泛需求。

    • 男性产品可聚焦清洁和补水功能,开发针对性强的产品。

  3. 可视化优化
    可视化需结合分析结论,明确图表服务于业务决策,如定价策略、品类规划等。使用matplotlib绘制柱状图、饼图,通过排序和分组优化图表可读性,强调代码中自适应调整、中文显示等细节设置的重要性。例如,df.groupby('店名')['销售额'].sum().sort_values().plot.bar()用于品牌销售额排序展示。

五、后续方向

  1. 探索单价与销量的非线性关系
    分析促销活动对单价与销量关系的影响,挖掘潜在的销售增长点。

  2. 细分品类增长空间
    深入分析细分品类(如“眼部护理”)的潜在增长空间,为品类拓展提供数据支持

import numpy as np
import pandas as pd
df = pd.read_csv('双十一淘宝美妆数据.csv')
df.head()
df.info()#数据特征
df.shape
df.describe()

数据初步了解:数据集数据数量

示例代码 对数据进行处理,查看数据分布,使得数据更加直观。

http://www.dtcms.com/a/327142.html

相关文章:

  • Linux磁盘空间逻辑卷扩容
  • 服务器service托管java服务
  • 【无标题】centos 配置阿里云的yum源
  • 如何区分类的关系是关联和聚合?
  • 【数据结构】二叉树经典OJ题与OJ题解析
  • 【传奇开心果系列】Flet框架实现的多人访问web数据表高并发前后端自定义框架模板
  • iPhone 17 Pro 为何被指像充电宝?
  • 【2025最新版】视频转换软件VideoProc Converter Al 便携版 功能强大的视频转换工具 百度网盘
  • iPad 引导式访问(Guided Access)完整指南
  • 26 届秋招建议指南
  • Web 安全之互联网暴露面管理
  • python调研本地 DeepSeek API的例子
  • Java 22 新特性:字符串模板(String Templates)让拼接更优雅、更安全
  • iOS混淆工具有哪些?团队协作视角下的分工与防护方案
  • 飞算JavaAI 2.0.0深度测评:自然语言编程如何重塑Java开发范式
  • 给商品换背景--指令改图,主图场景随心换
  • 【Allegro SKILL代码解析】添加Pin Number
  • NetworkManager配置热点
  • Springboot注册过滤器的三种方式(Order 排序)
  • 如何用codeBuddy20分钟处理一单数据分析
  • 10. React组件间的通信
  • MySQL——MySQL引擎层BufferPool工作过程原理
  • K8s 1.32.6版本部署文档
  • Ansible 基础到实操笔记
  • 【Redis在数据治理与数据隐私保护策略中的优化】
  • 新手向:Python编写简易翻译工具
  • 移动端调用大模型详解
  • 【运维进阶】Ansible 自动化
  • 西门子 S7-200 与 S7-1200 借 PPI 以太网模块通讯,赋能食品行业进步
  • 【pxe】通过pxe批量安装centos系统(传统Legacy启动+uefi启动)