当前位置: 首页 > wzjs >正文

网站建设的优质山东专业网站开发公司

网站建设的优质,山东专业网站开发公司,互联网广告平台有哪些,中国建信网官方网站本次案例所需要用到的模块 pandas(文件读取保存 操作表格的模块) 将上次Scrapy爬取下来的文件 做个数据清洗 变成我们想要的数据 确定目的:将此文件中的duration字段中的分钟 和publisher_time上映去掉 只保留纯数值 数据清洗题目如下: 修复 publish_time列中的错…
本次案例所需要用到的模块
pandas(文件读取保存 操作表格的模块)

将上次Scrapy爬取下来的文件 做个数据清洗 变成我们想要的数据

确定目的:将此文件中的duration字段中的分钟  和publisher_time上映去掉 只保留纯数值

数据清洗题目如下:

  • 修复 publish_time列中的错误数据  去除无用的数据

  • 清洗 duration 列并转为整数类型   duration 列包含冗余单位(如 分钟),需提取数字并转为整数

  • 拆分 area 列中的多地区数据  area 列用|分隔多个地区,需拆分为列表或单独列

  • area 列用|分隔多个地区,需拆分为列表或单独列  name 列包含中英文名称,需提取中文名(如 霸王别姬)

  • 提取 name 列中的纯中文名

  •  检查并删除重复的电影条目  检查是否有完全重复的行并删除

  • 处理缺失值  检查各列是否有缺失值并填充或删除。

  • 最后保存为新的Excel文件

OK 我们开始对数据进行清洗

首先 需要对数据内容做一个大概的了解

# 第一步 导包  取别名
import pandas as pd# 读取文件 设置索引值为False
df = pd.read_excel('movies.xlsx', index_col=False)# df.head() 默认可以查看前五行的数据  括号里面的参数可以中间写
# df.info() 可以查看数据的结构类型
# df.shape 可以查看几行几列
# df.descibe() 查看数据类型的信息

1.修复 publish_time列中的错误数据  去除无用的数据
  我们可以采用正则去提取

# 将上映的字段去掉
df['publish_time'] = df['publish_time'].str.replace(' 上映', '', regex=False)
# 匹配纯数字 提取出来
df['publish_time'] = df['publish_time'].str.replace(r'\d+ .*?', '', regex=True)
# 去除无用的数据   这个会取到之前的时长 我们需要将其除去
df['publish_time'] = df['publish_time'].str.replace('分钟', '', regex=False)
# 转化为时间格式的数据 无法转换的数据 为NaT
df['publish_time'] = pd.to_datetime(df['publish_time'], errors='coerce')
# 设置时间的格式为 年月日
df['publish_time'] = df['publish_time'].dt.strftime('%Y-%m-%d')
# 将空值数据直接删除
df.dropna(subset='publish_time', inplace=True)

2.清洗 duration 列并转为整数类型   duration 列包含冗余单位(如 分钟),需提取数字并转为整数

# 清洗 duration 列并转为整数类型
# duration 列包含冗余单位(如 分钟),需提取数字并转为整数
# 读取这一列的数据 转换成字符串的形式 接着通过正则将分钟去除 最后转换成整型
df['duration'] = df['duration'].str.replace(' 分钟', '', regex=False).astype(int)
# Explain: 读取数据可以通过类似字典的形式 也可以通过df.列名的形式regex 为True表示使用正则语法

3.清洗完之后 可以打印这一列的数据出来看下 是否成功

4.拆分 area 列中的多地区数据  area 列用|分隔多个地区,需拆分为列表或单独列

# 拆分 area 列中的多地区数据
# area 列用|分隔多个地区,需拆分为列表或单独列
df['area'] = df['area'].str.split('、').str.join('|')

   将处理完的列表重新赋值给原来的列表

5.提取 name 列中的纯中文名  

6.通过观察可以发现中英文 之间又-符号隔开 我们可以转换成字符串然后通过分割取前面的值

# 提取 name 列中的纯中文名
# name 列包含中英文名称,需提取中文名(如 霸王别姬)
df['name'] = df['name'].str.split(' - ').str[0]

print(df.iloc[0])
# 可以查看第几行的数据 0为第一行 索引取值

7.检查并删除重复的电影条目  检查是否有完全重复的行并删除

Explain: 重复值的定义为 两条数据完全一样才被定义为重复值

# 语法如下 使用后drop_duplicates 后面参数接的是要删除重复值的所有列
# inplace 为True 是指在原有的数据上进行保存
df.drop_duplicates(subset=df.columns, inplace=True)

8.处理缺失值  检查各列是否有缺失值并填充或删除

print(df.isnull().sum())
# 统计缺失值的个数

9.处理缺失值  检查各列是否有缺失值并填充或删除

df.dropna(inplace=True)
# 删除缺失值
# 如果有缺失值  可以使用该列的均值或者中位数进行填充
# df['列名'].fillna(df['列名'].mean(), inplace=True)  用均值填充
# df['列名'].fillna(df['列名'].median(), inplace=True)  用中位数填充

10.最后保存为新的Excel文件

# 传入文件名 设置索引列为False  就不会生成单独一行索引
df.to_excel('clean_movies.xlsx', index=False)

最后我们对比一下清洗前后的数据 后续也可以做可视化

本次的案例分享就到此结束 感谢大家的观看 您的点赞和关注是我更新的动力
也可以看看我之前的文章希望对你有帮助


文章转载自:

http://MMdtyG4W.qypjk.cn
http://btGVtrOt.qypjk.cn
http://2Rs2VXMc.qypjk.cn
http://M0voKbmf.qypjk.cn
http://wdi2kQND.qypjk.cn
http://X1CU8acb.qypjk.cn
http://NLmhFbA6.qypjk.cn
http://CDtxm2fV.qypjk.cn
http://ziG0OK46.qypjk.cn
http://txhQV96V.qypjk.cn
http://7prvMm22.qypjk.cn
http://A1nhEdG0.qypjk.cn
http://eqSnOVJG.qypjk.cn
http://NZ7V9E5e.qypjk.cn
http://EtDe5Z2p.qypjk.cn
http://ktvO8XOZ.qypjk.cn
http://a7cTWpfx.qypjk.cn
http://D60sJAMr.qypjk.cn
http://2l9XHe04.qypjk.cn
http://nFTP261Z.qypjk.cn
http://zoj0gw1j.qypjk.cn
http://peePLOG5.qypjk.cn
http://fn0EMGs0.qypjk.cn
http://wEDc2N0l.qypjk.cn
http://6mpqq3gi.qypjk.cn
http://eZklDg8S.qypjk.cn
http://1KA0AYh2.qypjk.cn
http://KDcu5Q4a.qypjk.cn
http://7Sk4ImDF.qypjk.cn
http://tHX5T5xk.qypjk.cn
http://www.dtcms.com/wzjs/749912.html

相关文章:

  • 常州网站建设选思创徐州模板开发建站
  • 冀州建网站电商网站改版思路
  • 广东建设工程信息网站网站页面框架设计影响用户
  • 做机械设计兼职的网站泰安神秀网络科技有限公司
  • 网站服务器选择wordpress 24小时插件
  • vs如何做网站国外seo大神
  • ui设计的网站广告公司网页设计
  • 北京住房城乡建设网站合作建站协议
  • 北京网站设计制作费用昆明门户网站
  • 360极速怎么屏蔽网站网站源码怎么有
  • 站长工具关键词排名怎么查厚街网站建设
  • 青岛企业建站系统模板帮他人做视频网站违法吗
  • 大流量ip网站怎么做高水平建设专业网站
  • 视频盗版网站怎么做设计一套网站多少钱
  • 公司网站怎么更新需要怎么做热门的建设工程人员查询
  • 自己做网站是不是需要写代码北京网站建设哪家最好
  • 什么是网站名称文件夹网站开发工具 下载
  • 哈尔滨 网站建设中国网络推广网站排名
  • 怎么做淘宝网站的网页现在花钱做那个网站好呀
  • 公司和个人均不能备案论坛类网站网址你懂我意思正能量免费
  • 布吉网站设计常州金坛网站建设
  • 家装设计效果图网站表白网页在线生成器
  • 网站建设衤金手指花总十五河池公司网站开发价格
  • 微信连接微网站吗漯河市源汇区建设局网站
  • 网站信息c 网站开发平台
  • 安庆市网站建设公司山东济宁最新消息今天
  • 做网站卖凡科模板
  • 如何制作一个好网站吸引人的营销标题
  • 网站设计网站建设毕业文稿wordpress 侧边栏短代码
  • 大英县住房和城乡建设局网站大专建设工程管理有用吗