当前位置：首页 > wzjs >正文

专业模板网站制作多少钱网络搜索工具

wzjs 2025/7/23 4:16:48

专业模板网站制作多少钱,网络搜索工具,wordpress $wpdb 查询,网站流量达到多少本次案例所需要用到的模块 pandas(文件读取保存操作表格的模块) 将上次Scrapy爬取下来的文件做个数据清洗变成我们想要的数据确定目的：将此文件中的duration字段中的分钟和publisher_time上映去掉只保留纯数值数据清洗题目如下: 修复 publish_time列中的错…

**本次案例所需要用到的模块**
pandas(文件读取保存操作表格的模块)

将上次Scrapy爬取下来的文件做个数据清洗变成我们想要的数据

确定目的：将此文件中的duration字段中的分钟和publisher_time上映去掉只保留纯数值

数据清洗题目如下:

修复 publish_time列中的错误数据去除无用的数据
清洗 duration 列并转为整数类型 duration 列包含冗余单位（如分钟），需提取数字并转为整数
拆分 area 列中的多地区数据 area 列用|分隔多个地区，需拆分为列表或单独列
area 列用|分隔多个地区，需拆分为列表或单独列 name 列包含中英文名称，需提取中文名（如霸王别姬）
提取 name 列中的纯中文名
检查并删除重复的电影条目检查是否有完全重复的行并删除
处理缺失值检查各列是否有缺失值并填充或删除。
最后保存为新的Excel文件

OK 我们开始对数据进行清洗

首先需要对数据内容做一个大概的了解

# 第一步 导包  取别名
import pandas as pd# 读取文件 设置索引值为False
df = pd.read_excel('movies.xlsx', index_col=False)# df.head() 默认可以查看前五行的数据  括号里面的参数可以中间写
# df.info() 可以查看数据的结构类型
# df.shape 可以查看几行几列
# df.descibe() 查看数据类型的信息

1.修复 publish_time列中的错误数据去除无用的数据
我们可以采用正则去提取

# 将上映的字段去掉
df['publish_time'] = df['publish_time'].str.replace(' 上映', '', regex=False)
# 匹配纯数字 提取出来
df['publish_time'] = df['publish_time'].str.replace(r'\d+ .*?', '', regex=True)
# 去除无用的数据   这个会取到之前的时长 我们需要将其除去
df['publish_time'] = df['publish_time'].str.replace('分钟', '', regex=False)
# 转化为时间格式的数据 无法转换的数据 为NaT
df['publish_time'] = pd.to_datetime(df['publish_time'], errors='coerce')
# 设置时间的格式为 年月日
df['publish_time'] = df['publish_time'].dt.strftime('%Y-%m-%d')
# 将空值数据直接删除
df.dropna(subset='publish_time', inplace=True)

2.清洗 duration 列并转为整数类型 duration 列包含冗余单位（如分钟），需提取数字并转为整数

# 清洗 duration 列并转为整数类型
# duration 列包含冗余单位（如 分钟），需提取数字并转为整数
# 读取这一列的数据 转换成字符串的形式 接着通过正则将分钟去除 最后转换成整型
df['duration'] = df['duration'].str.replace(' 分钟', '', regex=False).astype(int)
# Explain： 读取数据可以通过类似字典的形式 也可以通过df.列名的形式regex 为True表示使用正则语法

3.清洗完之后可以打印这一列的数据出来看下是否成功

4.拆分 area 列中的多地区数据 area 列用|分隔多个地区，需拆分为列表或单独列

# 拆分 area 列中的多地区数据
# area 列用|分隔多个地区，需拆分为列表或单独列
df['area'] = df['area'].str.split('、').str.join('|')

将处理完的列表重新赋值给原来的列表

5.提取 name 列中的纯中文名

6.通过观察可以发现中英文之间又-符号隔开我们可以转换成字符串然后通过分割取前面的值

# 提取 name 列中的纯中文名
# name 列包含中英文名称，需提取中文名（如 霸王别姬）
df['name'] = df['name'].str.split(' - ').str[0]

print(df.iloc[0])
# 可以查看第几行的数据 0为第一行 索引取值

7.检查并删除重复的电影条目检查是否有完全重复的行并删除

Explain：重复值的定义为两条数据完全一样才被定义为重复值

# 语法如下 使用后drop_duplicates 后面参数接的是要删除重复值的所有列
# inplace 为True 是指在原有的数据上进行保存
df.drop_duplicates(subset=df.columns, inplace=True)

8.处理缺失值检查各列是否有缺失值并填充或删除

print(df.isnull().sum())
# 统计缺失值的个数

9.处理缺失值检查各列是否有缺失值并填充或删除

df.dropna(inplace=True)
# 删除缺失值
# 如果有缺失值  可以使用该列的均值或者中位数进行填充
# df['列名'].fillna(df['列名'].mean(), inplace=True)  用均值填充
# df['列名'].fillna(df['列名'].median(), inplace=True)  用中位数填充

10.最后保存为新的Excel文件

# 传入文件名 设置索引列为False  就不会生成单独一行索引
df.to_excel('clean_movies.xlsx', index=False)

最后我们对比一下清洗前后的数据后续也可以做可视化

本次的案例分享就到此结束感谢大家的观看您的点赞和关注是我更新的动力
也可以看看我之前的文章希望对你有帮助

查看全文

http://www.dtcms.com/wzjs/57941.html

工信部网站备案进度查询徐州网站设计

免费拥有自己的网站郑州seo优化公司

在线购物网站建设软文写作发布

高端网站建设信息专业seo网络营销公司

网站建设实训意见百度认证证书

上海到北京机票久久seo综合查询

如何做传奇私服网站bt磁力搜索器

年轻人必备的十大网站怎么制作网页里面的内容

做进化树的在线网站山东济南最新消息

网站建设价格是哪些方面决定的模板建站流程

wordpress文章中添加视频说说seo论坛

网站建设实训的方法今日头条十大新闻最新

中英文网站用同域名企业网站制作步骤

单页网站的域名厦门seo排名公司

做网站买一个域名多少钱关键词数据分析工具有哪些

太原疫情防控最新通知大众点评seo关键词优化

网站目录结构权限在哪里可以免费自学seo课程

公司做网站推广的价格市场推广专员

聊城做网站推广地方营销推广软件有哪些

做网站单独接单百度广告联盟网站

武汉做网站的视频剪辑培训班一般学费多少

wordpress图片多选seo sem关键词优化

厦门商城网站建设班级优化大师官方网站

适合推广的网站公司网站设计的内容有哪些

官方网站建设源码系统广州线上教学

电商公司的网上设计上海搜索排名优化公司

seo是做网站源码还是什么360竞价推广开户多少钱

网络科技公司网站制作seo关键词排名价格

香港主机网站充值软文发布推广平台

网站建设嘉定微信朋友圈软文大全

OK 我们开始对数据进行清洗

相关文章：