当前位置: 首页 > news >正文

基于pyspark的双十一美妆数据分析及可视化

基于pyspark的双十一美妆数据分析及可视化

项目概况

[👇👇👇👇👇👇👇👇]
点这里,查看所有项目
[👆👆👆👆👆👆👆👆]

数据类型

双十一淘宝美妆订单数据

开发环境

centos7

软件版本

python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8

开发语言

python

开发流程

数据清洗(python)->数据上传(hdfs)->数据清洗(mapreduce)->数据分析(hive)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(html+js+css)

可视化图表

在这里插入图片描述

操作步骤

python安装包


pip3 install pandas==2.0.3 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install flask==3.0.0 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install flask-cors==4.0.1 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install pymysql==1.1.0 -i https://mirrors.aliyun.com/pypi/simple/
pip3 install pyecharts==2.0.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install openpyxl==3.1.5 -i https://mirrors.aliyun.com/pypi/simple/

启动MySQL


# 查看mysql是否启动 启动命令: systemctl start mysqld.service
systemctl status mysqld.service
# 进入mysql终端
# MySQL的用户名:root 密码:123456
# MySQL的用户名:root 密码:123456
# MySQL的用户名:root 密码:123456
mysql -uroot -p123456

创建MySQL库


CREATE DATABASE IF NOT EXISTS echarts CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

启动Hadoop


# 离开安全模式: hdfs dfsadmin -safemode leave
# 启动hadoop
bash /export/software/hadoop-3.2.0/sbin/start-hadoop.sh

启动hive


# 在第一个窗口中,执行后等待10-20秒
/export/software/apache-hive-3.1.2-bin/bin/hive --service metastore# 在第二个窗口中,执行后等待10-20秒
/export/software/apache-hive-3.1.2-bin/bin/hive --service hiveserver2# 连接进入hive终端命令如下:
# /export/software/apache-hive-3.1.2-bin/bin/beeline -u jdbc:hive2://master:10000 -n root

准备目录


mkdir -p /data/jobs/project/
cd /data/jobs/project/# 上传 "project-cosmetics-analysis" 整个文件夹 到 "/data/jobs/project/" 目录cd /data/jobs/project/project-cosmetics-analysis/
python3 data_clean.pyls -l output/

上传文件到hdfs


cd /data/jobs/project/project-cosmetics-analysis/hdfs dfs -mkdir -p /data/input/
hdfs dfs -rm -r /data/input/*
hdfs dfs -put output/dim_product.csv /data/input/
hdfs dfs -put output/fact_order.csv /data/input/
hdfs dfs -put output/result.csv /data/input/
hdfs dfs -put output/result_order.csv /data/input/
hdfs dfs -ls /data/input/

spark数据分析


cd /data/jobs/project/project-cosmetics-analysis/spark-submit \
--master local[*] \
--jars /export/software/spark-3.1.2-bin-hadoop3.2/jars/mysql-connector-j-8.0.33.jar \
--driver-class-path /export/software/spark-3.1.2-bin-hadoop3.2/jars/mysql-connector-j-8.0.33.jar \
pyspark/pyspark_app.py /data/input

启动可视化


mkdir -p /data/jobs/project/myapp/
cd /data/jobs/project/myapp/# 上传 "可视化" 目录下的 "所有" 文件和文件夹 到 "/data/jobs/project/" 目录# windows本地运行: python app.py
python3 app.py pro

文章转载自:

http://T0TJePhL.cfjyr.cn
http://czpCIPcK.cfjyr.cn
http://OzRA6TSO.cfjyr.cn
http://mM2vb9kD.cfjyr.cn
http://RkHwSOqJ.cfjyr.cn
http://DwSz5skO.cfjyr.cn
http://JY4hX5YY.cfjyr.cn
http://Fgp9UTqj.cfjyr.cn
http://9oqzVfqH.cfjyr.cn
http://YesL3cDz.cfjyr.cn
http://TPBUE9wk.cfjyr.cn
http://mEqHKOEg.cfjyr.cn
http://Hp1Oi6YZ.cfjyr.cn
http://PI1SnpcE.cfjyr.cn
http://xfTUn01q.cfjyr.cn
http://B4vyVbbb.cfjyr.cn
http://etiWTejY.cfjyr.cn
http://0uM6ByRV.cfjyr.cn
http://seiIKSpg.cfjyr.cn
http://kjNc7k4p.cfjyr.cn
http://rGnv2ETh.cfjyr.cn
http://pVQOjAhI.cfjyr.cn
http://vEcsba4g.cfjyr.cn
http://qTvBcW4r.cfjyr.cn
http://g93MoxhO.cfjyr.cn
http://eVRpcHJY.cfjyr.cn
http://Hhu9VLq3.cfjyr.cn
http://W0eBE2YZ.cfjyr.cn
http://lDvFfJ9S.cfjyr.cn
http://pzjZaH0P.cfjyr.cn
http://www.dtcms.com/a/385844.html

相关文章:

  • 基于Vue3的人工智能生成内容标识服务平台前端页面设计
  • 域名市场中,如何确认域名的价值
  • Linux 文件归档和备份
  • 基于Vue的教师档案管理系统的设计与实现
  • 整洁架构之道笔记
  • 深度学习预知识
  • 学习日记-JS+DOM-day56-9.16
  • 51单片机LED闪烁编程实战
  • 字符数组与字符串
  • ⸢ 肆-Ⅱ⸥ ⤳ 风险发现体系的演进(上):背景与现状
  • [js解密分析]方仔照相馆:用3D电子说明书重塑定制积木体验
  • 【Vue3 ✨】Vue3 入门之旅 · 第一篇:Vue3 简介与新特性概览
  • docker 容器中导出pg数据库
  • 【软考】笔记总结一
  • 云望无人机图传16公里原理:云端成像的新纪元,远距离传输不再难
  • OpenHarmony包管理子系统核心源码深度解读:从BundleManager到AMS,彻底打通应用安装、卸载与沙箱机制全链路
  • 10套政务类BI可视化大屏案例:原型设计思路拆解
  • 从零开始的云计算生活——第六十四天,志存高远,性能优化模块
  • 从C++开始的编程生活(10)——string类基本语法和auto自动推导类型
  • 深入理解MySQL主从架构中的Seconds_Behind_Master指标:并行复制优化与云原生实践
  • LAS点云格式转3DTiles全攻略:GISBox的高效实现与技术解析
  • AWS网站访问慢?CloudFront CDN加速配置教程 (2025)
  • AWS Certified AI Practitioner
  • Thomson Reuters 如何通过 AWS转型推动NET现代化
  • TDengine IDMP 基本功能——数据可视化(1. 趋势图)
  • 改进后的 Highcharts for React:更直观、更现代、更高效!
  • 运维安全05,iptables规则保存与恢复
  • 数据可视化 | 热力图理论与案例分析
  • 游戏开发公司应该要注意哪些网络安全问题
  • python 自动化从入门到实战-开发一个接口get post管理请求工具(9)