当前位置: 首页 > wzjs >正文

网站用什么框架做怎样做一个网页

网站用什么框架做,怎样做一个网页,四川住房建设厅网站,网站架构演变流程工具:Jupyter notebook # 一、需求分析 (1)分析美妆商品信息,找出每个“商品小类”中价格最高的前5个商品。 (2)每月订购情况,统计每个月订单的订购数量情况和消费金额。 (3&#x…

工具:Jupyter notebook

# 一、需求分析

     (1)分析美妆商品信息,找出每个“商品小类”中价格最高的前5个商品。

    (2)每月订购情况,统计每个月订单的订购数量情况和消费金额。

    (3)按订单的地区,统计各地在订购数量上的排行情况,取最高的前20个城市。

    (4)按商品的类型,分别统计各美妆产品的订购数量排行,以了解产品的畅销程度和需求情况。

    (5)分析各省的美妆订购数量,以了解哪些地方的商品需求量最大。

    (6)通过RFM模型挖掘客户价值。

# 二、准备工作

   1.数据清洗(Pandas)

    2.窗口操作(Spark SQL)

    3.数据可视化(pyecharts)

###  1.数据清洗(Pandas)

#### (1)模块库的安装

pip install pandas==1.1.5

pip list

pip show pandas

pip install pyecharts==1.9.0

pip show pyecharts

pip install pyspark-stubs==2.4.0

pip show pyspark-stubs

#### (1)导入库

import pandas as pd

如果pandas导入错误执行图上代码,否则跳过此步骤

#### (2)记载数据文件信息

prod_info=pd.read_csv('beauty_prod_info.csv')

prod_info=pd.read_csv('/home/spark/beauty_prod_info.csv')

prod_info.head(10)

prod_sales=pd.read_csv('/home/spark/beauty_prod_sales.csv')

prod_sales.head()

#### (3、4)查看加载进来的数据文件基本信息

print(prod_info)

print(prod_sales)

prod_info.info()

prod_sales.info()

#### (5)检查是否存在完全重复的数据行

prod_info[prod_info.duplicated()]

prod_info[prod_info.duplicated()].count()

prod_sales[prod_sales.duplicated()]

prod_sales[prod_sales.duplicated()].count()

#### (6)检查美妆商品信息中的“商品编号”是否存在重复值

prod_info[prod_info['商品编号'].duplicated()]

prod_sales[prod_sales['订单编码'].duplicated()]

(7)统计美妆商品信息数据是否存在“空值”字段

因为如果商品编号有重复,后面在关联两个数据文件时就会遇到问题

prod_info.isnull()

prod_info.isnull().sum()

prod_sales.isnull().sum()

至此,美妆商品信息数据文件的初步分析工作就结束了,结论是不存在数据异常的情况。接下来继续分析美妆商品订单数据文件,加载美妆商品订单数据文件beauty_prod_sales.csv,并查看前5行的数据

(8)将重复数据去除并重建Pandas内部的索引,再查看重复数据是否成功去除

prod_sales.drop_duplicates(inplace=True) #删除重复的数据并保留一条

prod_sales[prod_sales.duplicated()].count() #查看是否有重复数据

prod_sales.head()

prod_sales.reset_index(drop=True,inplace=True) #重建记录的索引,确定没有重复数据

prod_sales[prod_sales.duplicated()].count()

print(prod_sales)  #31452变为31446

(9)采取“bfill向后”和“ffill向前”的填充方式,即当出现“空值”时,分别参考上一条数据和下一条数据的值

(此时有两种解决方案:一是将“空值”字段的数据行直接删除;二是参考其他正常的数据进行填充,或者 以某种数学手段进行填充。)

prod_sales.fillna(method='ffill',inplace=True)  #参考前向数据填充 保证不重复

prod_sales.fillna(method='bfill',inplace=True)  #参考后向数据填充 保证不重复

prod_sales.isnull().sum()

prod_sales.info()

(10)下面对存在问题的订单日期、订购数量、订购单价这几个字段进行处理
错误原因:

prod_sales['订单日期'].astype('datetime64')        #转换类型 说明有非法字符

 prod_sales['订购数量'].astype('int64')    #多了文字(个)    

prod_sales['订购单价'].astype('float64')  #多了元

转换类型:

prod_sales['订单日期'] =prod_sales['订单日期'].apply(lambda x :pd.to_datetime(x,format='%Y#%m#%d') \

                                             if isinstance (x,str) and '#' in x else x)   #将有#和字符串的转换为日期格式

prod_sales['订单日期']=prod_sales['订单日期'].astype('datetime64')

prod_sales['订购数量']=prod_sales['订购数量'].apply(lambda x :x.strip('个') if isinstance(x,str) else x)

prod_sales['订购数量']=prod_sales['订购数量'].astype('int64')

prod_sales['订购单价']=prod_sales['订购单价'].apply(lambda x :x.strip('元') if isinstance(x,str) else x)

prod_sales['订购单价']=prod_sales['订购单价'].astype('int64')

prod_sales.info()

http://www.dtcms.com/wzjs/187267.html

相关文章:

  • 珠海网站建设尚古道策略软文营销实施背景
  • 增城哪家网站建设好做个网页需要多少钱?
  • 以美食为主的网站栏目怎么做seo营销课程培训
  • 石家庄做网站比较好的公司有哪些app拉新推广怎么做
  • 室内装饰设计培训机构seo手机关键词网址
  • 网站编程好学吗微信营销软件哪个好用
  • 网站建设用到的技术国际新闻最新消息10条
  • html 创意网站app开发自学教程
  • 游戏推广员如何推广引流网站优化排名提升
  • 深圳flash网站建设百度关键词收录
  • 美国专门做特卖的网站微商刚起步怎么找客源
  • 成都注册公司核名网站网站推广内容
  • 做跨境电商网站的意义seo优化培训机构
  • 网站建设一条龙百度关键词优化企业
  • wordpress_子网站重命名哈尔滨关键词优化报价
  • 合肥企业网站模板建站seo网站优化技术
  • 网站建设最新教程视频教程刷外链网站
  • 委托网络公司做的网站侵权武汉武汉最新
  • 官方做任务网站360收录提交入口
  • 长沙房产集团网站建设seo什么职位
  • wordpress链接提交seo关键词找29火星软件
  • 玻璃钢产品哪个网站做推广好西安网站seo公司
  • 东营做网站建设的公司seo优化网站
  • 天津做网站好的公司企业网站搭建
  • 怎么做消费一卡通网站网络推广外包公司
  • 网站建设选超速云建站全国疫情一览表
  • web网站开发参考文献甘肃网站推广
  • 做视频网站利润如何郑州seo技术服务
  • wordpress 洛神的主题seo专业培训机构
  • 网站建设首选公司免费的自媒体一键发布平台