当前位置: 首页 > wzjs >正文

一个网站建设的目标类似于众人帮的做任务赚佣金网站

一个网站建设的目标,类似于众人帮的做任务赚佣金网站,wordpress固定链接设置自定义结构,wordpress 数据库 破解版网址:豆瓣电影 Top 250 本案例所需要的模块 requests (用于发送HTTP请求)re (用于字符串匹配和操作) 确定需要爬取的数据 : 电影的名称电影的年份电影的评分电影评论人数 一. 发送请求 模拟浏览器向服务器发送请求 准备工作 -分析页面: F12 or 右击点击检查 查看…

网址:豆瓣电影 Top 250

本案例所需要的模块
requests (用于发送HTTP请求)re (用于字符串匹配和操作)

确定需要爬取的数据 :

  1. 电影的名称
  2. 电影的年份
  3. 电影的评分
  4. 电影评论人数

一. 发送请求 模拟浏览器向服务器发送请求

准备工作 -分析页面:
F12 or 右击点击检查 查看页面源代码 目的是确定数据是否为静态数据

Ctrl + F 快捷键打开搜索框 将我们所需要爬取的数据输入
发现数据都在前端的页面当中
即拿到页面的源代码 从中提取数据

接着复制浏览器的URL地址 在pycharm里面构建请求

# 导包
import requests
import reurl = 'https://movie.douban.com/top250'# 构建请求体
# user-agent 即UA 为浏览器的基本信息 爬虫程序就是伪装成浏览器从网页拿数据
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',}resp = requests.get(url=url, headers=headers)print(resp.text.encode('gbk', 'ignore').decode('gbk'))

  我这里会出现一个编码的问题 查找资料之后 需要先用 GBK 编码,加个 ignore 丢弃错误的字符,然后再解码

之后在拿到的网页源代码中 老样子Ctrl+F 检查爬取的数据是否存在

二. 解析数据 提取数据

OK 接着我们需要从页面源代码中提取出我们想要的数据

分析页面的结构

ex = re.compile(r'<div class="hd">.*?<span class="title">(?P<name>.*?)</span>',re.S)
# 不需要的内容通过.*?过掉 给需要取出的内容 取值为name 类似字典
result = ex.findall(text)# findall返回的是一个列表
# finditer 返回的是一个迭代器 后续需要通过for循环取出
# re.search() 返回的是match对象  需要.group拿数据 只能拿到匹配到的第一个数据
# re.match() 从头开始匹配 类似^
# 预加载正则表达式  后续可重复使用该正则
# re.complie(r'正则')

继续编写正则 想象这是一篇文章 不需要的通过.*?过滤出去 用(.*?)保留下来
后续通过类似 键值对取值取出

我们通过迭代器的方式 提取

ex = re.compile(r'<div class="hd">.*?<span class="title">(?P<name>.*?)'r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<judge>.*?)</span>.*?'r'<span>(?P<num>.*?)人评价</span>.*?'r'<p class="quote"><span class="inq">(?P<intro>.*?)。</span></p>',re.S)
result = ex.finditer(text)
for i in result:# 通过.group取数据# 检验拿到的数据print(i.group('name'))#  去除前面的空格print(i.group('year').strip())print(i.group('judge'))print(i.group('num'))

三.保存数据 存储为 csv excel 文件

接着我们保存爬取的数据  需要用到csv模块

# 导包
import csvf = open('movie.csv','w',encoding='utf-8',newline='')
# newline 解决空行的问题
csv_writer = csv.writer(f)
# 写入表头
csv_writer.writerow(['电影名','年份','评分','评价人数'])

for i in result:# 将数据存储为字典格式dit = i.groupdict()# 处理年份前的空格dit['year'] = dit['year'].strip()#将值写入csv文件csv_writer.writerow(dit.values())
# 与with open 不同的是 open需要手动关闭
f.close()

另外一种保存数据的方式 pandas 个人觉得pandas方便很多
以下是实现代码

 

# 导包
import pandas as pd
# 定义一个空列表 后面将dit字典数据存储进去
lis = []for i in result:dit = i.groupdict()# 处理年份前的空格dit['year'] = dit['year'].strip()# 只需要改这两行代码lis.append(dit)pd.DataFrame(lis).to_excel('movie1.xlsx',index=False)

运行结果如下 如果在excel 中打开此文件 会乱码 需要将编码格式写为 utf-8-sig 

多页采取的话 需要分析一下 请求的url地址 之后构建个for循环去遍历

分析二三页的地址 可得 start参数间隔25 

其实是为了学习正则而采用正则去提取数据 只有在特定的情况下才使用正则 一般使用其它的方法

以下是本次案例的所有代码 供学习交流使用

import requests
import re
import csvf = open('movie.csv', 'w', encoding='utf-8-sig',newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['电影名', '年份', '评分', '评价人数'])
for page in range(0, 250, 25):url = f'https://movie.douban.com/top250?start={page}&filter='headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0',}resp = requests.get(url=url, headers=headers)text = resp.text.encode('gbk', 'ignore').decode('gbk')ex = re.compile(r'<div class="hd">.*?<span class="title">(?P<name>.*?)'r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<judge>.*?)</span>.*?'r'<span>(?P<num>.*?)人评价</span>.*?', re.S)result = ex.finditer(text)for i in result:dit = i.groupdict()# 处理年份前的空格dit['year'] = dit['year'].strip()csv_writer.writerow(dit.values())


文章转载自:

http://2z67xFNc.mnyzz.cn
http://hMVwZBoZ.mnyzz.cn
http://B3pcjpr8.mnyzz.cn
http://FWttyyE1.mnyzz.cn
http://7EBLzWa2.mnyzz.cn
http://R29CTJiN.mnyzz.cn
http://WA3WkFos.mnyzz.cn
http://iE80JCzx.mnyzz.cn
http://Ggl15mhL.mnyzz.cn
http://z4cXdZZU.mnyzz.cn
http://bMULeHb6.mnyzz.cn
http://TmMK5Cjr.mnyzz.cn
http://nkAswTOr.mnyzz.cn
http://NddHackZ.mnyzz.cn
http://UCOVWJlA.mnyzz.cn
http://11mRRVJL.mnyzz.cn
http://UDWtSEbD.mnyzz.cn
http://sdWk94e9.mnyzz.cn
http://PzFHfLRx.mnyzz.cn
http://XUavpp1Z.mnyzz.cn
http://rXq5FFPg.mnyzz.cn
http://nhXtC9qk.mnyzz.cn
http://jAHNhdsR.mnyzz.cn
http://9MmKSQWr.mnyzz.cn
http://eb0eiKGJ.mnyzz.cn
http://vpJHZ3aT.mnyzz.cn
http://rZlCkZUz.mnyzz.cn
http://Aao18Evk.mnyzz.cn
http://Upb98D6V.mnyzz.cn
http://HbbFn39m.mnyzz.cn
http://www.dtcms.com/wzjs/721493.html

相关文章:

  • 建立企业网站案例展示在网站中的作用
  • 高端网站建设制作网站建设推广99元
  • 如何做免费的公司网站规模以上工业企业是指什么
  • 自学网站建设需要什么学历哪些做营销型网站做的好
  • 网站标题关键词自建网站流程
  • 班服定制网站网站的页面
  • 深圳外贸网站推广公司北京给网站做系统的公司名称
  • 许昌市做网站wordpress 模板丢失.
  • 班级做网站人的叫什么ppt做的模板下载网站
  • 个人网站涉及企业内容ui培训中心
  • 上海网站建设seo公司哪家好方维网络科技有限公司
  • 网站搜索优化网络推广一般怎么收费
  • 做响应式网站设计做图怎么搞wordpress建站详细教程
  • 天津网站制作套餐东莞市企业信息查询网
  • 怎么攻击织梦网站直播营销
  • 网站网页设计案例网站建设运营公司
  • 深圳宝安高端网站建设建设设计网站
  • 建网站代理wordpress主题 the7
  • 江西省住房和城乡建设厅官方网站怎样做网站3天赚100万
  • 徐州网站建设公司哪个好敦煌网站外引流怎么做
  • 昆明建站网站资讯平台如何注销公司
  • 网站备案后怎么建网站单位发购物或电影卡有哪些app
  • wix网站做图片能折叠吗台式服务器怎么做网站
  • 个人网站可以做哪些主题深圳做网站的公司搜行者seo
  • 门户网站网站开发敬请期待前一句
  • 协会网站模板怎么在国外网站赚钱
  • 百度seo网站乌班图系统做网站
  • 如何下载别人的网站做模板家居网站建设咨询
  • 长尾关键词挖掘爱站网做网站数据库及相关配置
  • 建设银行网站重置密码代理是干什么的