当前位置：首页 > news >正文

电商双 11 美妆数据分析总结

news 2025/8/14 13:31:07

数据概况与清洗

1. 数据基础

原始数据包含 27598 条双 11 美妆商品记录，共 7 个特征：update_time（更新时间）、id（商品 ID）、title（商品标题）、price（价格）、sale_count（销量）、comment_count（评论数）、店名（店铺名称）。
数据类型：3 个数值型（price、sale_count、comment_count），4 个字符型。

2. 核心清洗代码

python

运行

import numpy as np
import pandas as pd# 读取数据
df = pd.read_csv('双十一淘宝美妆数据.csv')# 去重
data = df.drop_duplicates(inplace=False)  # 删除重复行，保留27512条
data.reset_index(inplace=True, drop=True)  # 重置索引# 缺失值处理（用0填补销量和评论数的缺失）
data = data.fillna(0)

特征工程（新增关键特征）

1. 文本分词（标题解析）

python

运行

import jieba# 对标题分词（搜索引擎模式）
subtitle = []
for each in data['title']:k = jieba.lcut_for_search(each)  # 细粒度分词，适合提取商品特征subtitle.append(k)
data['subtitle'] = subtitle  # 新增分词列

2. 商品分类（大类 / 小类）

python

运行

# 定义分类规则（大类、小类、关键词映射）
basic_data = """护肤品	乳液类	乳液	美白乳	润肤乳	...化妆品	口红类	唇釉	口红	唇彩	唇膏	..."""  # 完整分类见原文# 构建分类字典
dcatg = {}
catg = basic_data.split('\n')
for i in catg:main_cat = i.strip().split('\t')[0]  # 大类（如护肤品）sub_cat = i.strip().split('\t')[1]   # 小类（如乳液类）o_cat = i.strip().split('\t')[2:]    # 关键词（如乳液、美白乳）for j in o_cat:dcatg[j] = (main_cat, sub_cat)# 为商品匹配分类
sub_type = []  # 小类
main_type = []  # 大类
for i in range(len(data)):exist = Falsefor j in data['subtitle'][i]:if j in dcatg:sub_type.append(dcatg[j][1])main_type.append(dcatg[j][0])exist = Truebreakif not exist:sub_type.append('其他')main_type.append('其他')
data['sub_type'] = sub_type
data['main_type'] = main_type

3. 性别标识与销售额

python

运行

# 标记是否男士专用
sex = []
for i in range(len(data)):if '男士' in data['subtitle'][i] or '男生' in data['subtitle'][i] or \('男' in data['subtitle'][i] and '女' not in data['subtitle'][i] and '斩男' not in data['subtitle'][i]):sex.append('是')else:sex.append('否')
data['是否男士专用'] = sex# 计算销售额
data['销售额'] = data['price'] * data['sale_count']

核心分析结论（附关键代码）

1. 品牌表现分析

python

运行

# 各品牌销量、销售额对比
brand_sale = data.groupby('店名')['sale_count'].sum().sort_values()  # 销量排名
brand_rev = data.groupby('店名')['销售额'].sum().sort_values()      # 销售额排名# 关键发现：
# - 相宜本草销量、销售额均第一（低价策略见效）
# - 悦诗风吟商品数量最多，但销量仅第三
# - SKII、植村秀销量为0（定位或活动问题）

2. 价格与销量关系

python

运行

# 按均价分组（0-100元/A类，100-200元/B类，等）
avg_price = data.groupby('店名')['销售额'].sum() / data.groupby('店名')['sale_count'].sum()
A = avg_price[(avg_price <= 100) & (avg_price > 0)].index  # 低价品牌
# 结论：A类品牌销售额占比最高，低价更受消费者青睐

3. 时间趋势（双 11 前后销量）

python

运行

import matplotlib.pyplot as plt
from datetime import datetime# 每日销量趋势
sale_day = data.groupby('update_time')['sale_count'].sum()
sale_day.index = [datetime.strptime(i, '%Y/%m/%d') for i in sale_day.index]
sale_day.plot()  # 9日达峰，11日骤降（预热提前消费）

4. 性别细分市场

python

运行

# 男士专用商品销量占比
male_sale_ratio = data.groupby('是否男士专用')['sale_count'].sum() / data['sale_count'].sum()
# 结论：男士专用商品占比低（约8%），核心为清洁类和补水类，妮维雅、欧莱雅主导市场

查看全文

http://www.dtcms.com/a/327491.html

自然语言处理（ NLP）基础

Elasticsearch Node.js 客户端连接指南（Connecting）

机器学习算法篇(十)：TF-IDF算法详解与应用实战

成都影像产业园实训考察：重庆五一职院关注技能就业

人大BABEC地平线高效率具身导航！Aux-Think：探索视觉语言导航中数据高效的推理策略

PaddlePaddle 模型训练技巧

深入C#异步编程基石：BeginInvoke与EndInvoke全解析

代码随想录算法训练营四十二天|单调栈part02

【Activiti】要点初探

迈向具身智体人工智能：LLM 和 VLM 驱动的机器人自主性和交互性

11-docker单机版的容器编排工具docker-compose基本使用

Qt中定时器介绍和使用

文字转语音 edge_tts

Spring IoC实现原理详解

[激光原理与应用-251]：理论 - 几何光学 - 长焦与短焦的比较

晶片与电路板的桥梁-封装

回归预测 | Matlab实现CNN-BiLSTM-self-Attention多变量回归预测

外卖投诉：差评转复购的3步攻略

DOM2 Style的隐藏武器：getComputedStyle()的使用指南

idea git commit特别慢，cpu100%

dag实现案例 02、实现简易版dag调度系统（基于01之上升级）

GeoScene 空间大数据产品使用入门（6）进阶模型

软考备考（三）

jupyter notebook中查看kernel对应环境的解决方案

RK3568 Linux驱动学习——Linux LED驱动开发

安全合规5--终端安全检测和防御技术

【1】Transformers快速入门：自然语言处理（NLP）是啥？

肖臻《区块链技术与应用》第九讲：比特币交易的“智能”核心：深入解析脚本语言Script

常见的设计模式（2）单例模式

数据概况与清洗

1. 数据基础

2. 核心清洗代码

特征工程（新增关键特征）

1. 文本分词（标题解析）

2. 商品分类（大类 / 小类）

3. 性别标识与销售额

核心分析结论（附关键代码）

1. 品牌表现分析

2. 价格与销量关系

3. 时间趋势（双 11 前后销量）

4. 性别细分市场

相关文章：