当前位置: 首页 > wzjs >正文

韩城网站建设网站做的好的公司

韩城网站建设,网站做的好的公司,14年网站开发经验,网站反向链接思路: 1、发送请求,解析html里面的数据 2、保存到csv文件 3、数据处理 4、数据可视化 需要用到的库: import requests,csv #请求库和保存库 import pandas as pd #读取csv文件以及操作数据 from lxml import etree #解析html库 from …

思路:

1、发送请求,解析html里面的数据

2、保存到csv文件

3、数据处理

4、数据可视化

需要用到的库:

import requests,csv  #请求库和保存库
import pandas as pd  #读取csv文件以及操作数据
from lxml import etree #解析html库
from pyecharts.charts import *  #可视化库

注意:后续用到分词库jieba以及词频统计库nltk 

环境:

python  3.10.5版本

编辑器:vscode -jupyter

使用ipynb文件的扩展名 vscode会提示安装jupyter插件

一、发送请求、获取html

#请求的网址
url='https://ssr1.scrape.center/page/1'#请求头
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}#发起请求,获取文本数据  
reponse=requests.get(url,url,headers=headers)
print(reponse)

二、使用xpath提取html里面的数据并存到csv

#创建csv文件
with open('电影数据.csv',mode='w',encoding='utf-8',newline='') as f:#创建csv对象csv_save=csv.writer(f)#创建标题csv_save.writerow(['电影名','电影上映地','电影时长','上映时间','电影评分'])for page in range(1,11):  #传播关键1到10页的页数#请求的网址url='https://ssr1.scrape.center/page/{}'.format(page)print('当前请求页数:',page)#请求头headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}response=requests.get(url,url,headers=headers,verify=False)print(response)html_data=etree.HTML(response.text)#获取电影名title=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/a/h2/text()')#获取电影制作地gbs=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[2]/span[1]/text()')#获取电影时长time=html_data.xpath('//div[@class="m-v-sm info"]/span[3]/text()')#获取电影上映时间move_time=html_data.xpath('//div[@class="p-h el-col el-col-24 el-col-xs-9 el-col-sm-13 el-col-md-16"]/div[3]/span/text()')#电影评分numder=html_data.xpath('//p[@class="score m-t-md m-b-n-sm"]/text()')for name,move_gbs,times,move_times,numders in zip(title,gbs,time,move_time,numder):print('电影名:',name,'  电影上映地址:',move_gbs,'   电影时长:',times,'   电影上映时间:',move_times,'   电影评分:',numders)#name,move_gbs,times,move_times,numders#写入csv文件csv_save.writerow([name,move_gbs,times,move_times,numders])

效果:

三、使用pandas打开爬取的csv文件

data=pd.read_csv('电影数据.csv',encoding='utf-8')
print(data)

四、对电影名进行分词以及词频统计

注意:使用jieba分词,nltk分词  

这里的停用此表可以自己创建一个  里面放无意义的字,比如:的、不是、不然这些

每个字独占一行即可

import jiebatitle_list=[]for name in data['电影名']:#进行精准分词lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)for i in lcut :
#         print(i)#去除无意义的词#打开停用词表文件file_path=open('停用词表.txt',encoding='utf-8')#将读取的数据赋值给stop_words变量stop_words=file_path.read()#遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面if i not in stop_words:title_list.append(i)
# print(title_list)#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('The这个词',出现185次)

效果:

五、词云可视化

# 创建一个 WordCloud类(词云) 实例  
word_cloud = WordCloud()  # 添加数据和词云大小范围    add('标题', 数据, word_size_range=将出现频率最高的单词添加到词云图中,并设置单词的大小范围为 20 到 100。)  
word_cloud.add('词云图', most_common_words, word_size_range=[20, 100])  # 设置全局选项,包括标题  
word_cloud.set_global_opts(title_opts=opts.TitleOpts(title='电影数据词云图'))  # 在 Jupyter Notebook 中渲染词云图  
word_cloud.render_notebook()#也可以生成html文件观看
word_cloud.render('result.html')

运行效果:

 

六、对电影时长进行统计并做柱形图可视化

#电影时长   去除分钟和,号这个 转为int  然后再转为列表  只提取20条数据,总共100条
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:20]
# print(move_time)#电影名   只提取20条数据
move_name=data['电影名'].tolist()[0:20]
# print(move_name)#创建Bar实例
Bar_obj=Bar()#添加x轴数据标题
Bar_obj.add_xaxis(move_name)#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据柱形图可视化'})# 显示图表
Bar_obj.render_notebook()

效果:

七、电影时长折线图可视化


#去除分钟和,号这个 转为int  然后再转为列表  只提取25条数据
move_time=data['电影时长'].apply(lambda x: x.replace('分钟', '').replace(',', '')).astype('int').tolist()[0:25]
# print(move_time)#电影名   只提取25条数据
move_name=data['电影名'].tolist()[0:25]
# print(move_name)#创建Bar实例
Bar_obj=Line()#添加x轴数据标题
Bar_obj.add_xaxis(move_name)#添加y轴数据
Bar_obj.add_yaxis('电影时长数据(单位:分钟)',move_time)#设置标题
Bar_obj.set_global_opts(title_opts={'text': '电影时长数据折线图可视化'})# 显示图表
Bar_obj.render_notebook()

效果:

 

八、统计每个国家电影上映的数量

import jiebatitle_list=[]#遍历电影上映地这一列
for name in data['电影上映地']:#进行精准分词lcut=jieba.lcut(name,cut_all=False)
#     print(lcut)for i in lcut :
#         print(i)#去除无意义的词#打开停用词表文件file_path=open('停用词表.txt',encoding='utf-8')#将读取的数据赋值给stop_words变量stop_words=file_path.read()#遍历后的值 如果没有在停用词表里面 则添加到net_data列表里面if i not in stop_words:title_list.append(i)
# print(title_list)#计算词语出现的频率
from nltk import FreqDist #该模块提供了计算频率分布的功能#FreqDist对象将计算net_data中每个单词的出现频率,,并将结果存储在freq_list中
freq_list=FreqDist(title_list)
print(freq_list)  #结果:FreqDist 有1321个样本和5767个结果 #该方法返回一个包含最常出现单词及其出现频率的列表。将该列表赋值给most_common_words变量。
most_common_words=freq_list.most_common()
print(most_common_words)  #结果:('单人这个词',出现185次)#电影名 使用列表推导式来提取most_common_words中每个元素中的第一个元素,即出现次数,然后将它们存储在一个新的列表中
map_data_title = [count[0] for count in most_common_words]  
print(map_data_title)#电影数
map_data=[count[1] for count in most_common_words]  
print(map_data)

效果:

九、对每个国家电影上映数量饼图可视化

#获取map_data_title的长度,决定循环次数,赋值给遍历i 在通过下标取值 
result = [[map_data_title[i], map_data[i]] for i in range(len(map_data_title))]
print(result)# 创建Pie实例
chart=Pie()#添加标题和数据   radius=['圆形空白处百分比','色块百分比(大小)'] 可不写
chart.add('电影上映数饼图(单位:个)',result,radius=['50%','60%'])#显示
chart.render_notebook()

效果:

觉得有帮助的话,点个赞!


文章转载自:

http://M6MEEXhD.rmLtt.cn
http://UivTviaH.rmLtt.cn
http://zkvA3Nlk.rmLtt.cn
http://VnyPOo4H.rmLtt.cn
http://OGrfZbdx.rmLtt.cn
http://Fz3IxvPY.rmLtt.cn
http://WQ1DRNrc.rmLtt.cn
http://WJEyMJg2.rmLtt.cn
http://oUG35qDf.rmLtt.cn
http://DvPm4uIq.rmLtt.cn
http://D0aCXOwl.rmLtt.cn
http://CDt2QUOl.rmLtt.cn
http://twOYdDWz.rmLtt.cn
http://DIMPi2W9.rmLtt.cn
http://alLw0hCW.rmLtt.cn
http://Cu6c9YuZ.rmLtt.cn
http://ZMjVRi9C.rmLtt.cn
http://1Y1XMvjN.rmLtt.cn
http://R7oQaRHP.rmLtt.cn
http://bwg8Smtk.rmLtt.cn
http://1NNWfnT3.rmLtt.cn
http://Fs3HTkzU.rmLtt.cn
http://hfRKUL5R.rmLtt.cn
http://RNACRGYs.rmLtt.cn
http://DZrWviE1.rmLtt.cn
http://go0yWpss.rmLtt.cn
http://dPELhk1i.rmLtt.cn
http://jsNi2xB7.rmLtt.cn
http://yIByb7dq.rmLtt.cn
http://WxKsDDpm.rmLtt.cn
http://www.dtcms.com/wzjs/710856.html

相关文章:

  • 公司策划是做什么的wordpress标签链接优化
  • 试描述一下网站建设的基本流程沽源网站建设案例
  • 国外源代码网站响应式网站的优缺点
  • 如何制作一个简单的网页西安官网seo公司
  • html怎么做网站首页淄博乐达网站建设
  • 甘肃住房与城乡建设部网站如何制作logo
  • 建设五证在那个网站可以查马云为啥说2025年房价如葱
  • 小马网站建设wordpress是哪个国家的
  • 个人网站icp备案网企业新网站seo推广
  • 盐城高端网站建设简单大方网站
  • 找图片素材的网站有哪些济南将开展治堵十大行动
  • 永清县建设局 网站深圳网站 建设
  • 做网站专业做门用什么网站好
  • 网站建设平台官网河间米各庄网站建设怎么收费呀
  • 紫金网站建设维港豪宅项目网站建设
  • 中文手机网站设计案例ppt成品免费下载
  • 建网站源码建站详解免费空间申请2018
  • 福州专业网站建设建设网站怎么收费标准
  • 网站建设对网络营销的影响搜索引擎营销的过程
  • 微网站建设包括哪些国外设计素材网
  • 免费网站怎么做排名线上投票怎么做
  • 网站做优化南宁百度推广电话
  • 中国建设银行网站如何注册网上最好的网站模块
  • 网站运维服务内容网站备案撤销
  • 玉泉路做网站吴中网页设计报价
  • 一对一视频网站建设合肥网页设计方法
  • 厦门手机网站制作用哪个软件做网站好
  • 贵州网站开发wordpress 评论已关闭
  • 移动网站设计防城港网站建设
  • 手机网站内容设计方案网站的排名与权重