当前位置: 首页 > wzjs >正文

茂名企业网站开发wordpress返回上一页

茂名企业网站开发,wordpress返回上一页,wordpress自定义文章类型如何调用,今东外贸人才网Scrapy-redis分布式爬虫 1.Scrapy-redis实现增量爬虫 增量爬虫的含义 就是前面所说的的暂停、恢复爬取 安装 # 使用scrapy-redis之前最好将scrapy版本保持在2.8.0版本, 因为2.11.0版本有兼容性问题 pip install scrapy==2.8.0 pip install scrapy-redis -i https://pypi.tun…

Scrapy-redis分布式爬虫

1.Scrapy-redis实现增量爬虫

增量爬虫的含义

就是前面所说的的暂停、恢复爬取

安装

# 使用scrapy-redis之前最好将scrapy版本保持在2.8.0版本, 因为2.11.0版本有兼容性问题
pip install scrapy==2.8.0
pip install scrapy-redis -i https://pypi.tuna.tsinghua.edu.cn/simple

配置 - 在setting.py中加入以下内容( 根据注释可选 )

"""scrapy-redis配置
"""
# 调度器类 基于redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 指纹去重类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 可以替换成布隆过滤器
# 下载 - pip install scrapy-redis-bloomfilter
# from scrapy_redis_bloomfilter.dupefilter import RFPDupeFilter
# DUPEFILTER_CLASS = 'scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter'# 是否在关闭时候保留原来的调度器和去重记录, True=保留, False=清空
SCHEDULER_PERSIST = True# Redis 服务器地址
REDIS_URL = "redis://127.0.0.1:6379/0" # Redis默认有16库,/1的意思是使用序号为2的库,默认是0号库(这个可以任意)SCHEDULER_QUEUE_KEY = "scrapy_redis:queue.PriorityQueue" # 使用有序集合来存储
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.FifoQueue" #  先进先出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.LifoQueue" # 先进后出, 后进先出# 配置Redis管道
# from scrapy_redis.pipelines import RedisPipeline
# ITEM_PIPELINES = {
#     "scrapy_redis.pipelines.RedisPipeline": 301,
#     "douban.pipelines.DoubanPipeline": 300,
# }# 重爬:一般不配置,在分布式中使用重爬机制会导致数据混乱,默认是False
# SCHEDULER_FLUSH_ON_START = True

运行指令以及运行效果

scrapy crawl 爬虫名称

在爬取过程中,使用ctrl+c让爬虫暂停抓取。停止后使用redis客户端查看对应的数据信息

scrapy-redis的工作流程

spiders -> request请求对象 -> 经过中间件 -> 提交给引擎 -> 会把Request对象提交给调度器(下载器)
-> 返回response -> 给pipeline
-> 返回request -> 给引擎 交给调度器
基于redis的调度器

增量爬虫 - 案例1 - 网易招聘

# zhaopin.py
import scrapy
from scrapy.http import JsonRequest
from scrapy import cmdlineclass ZhaopinSpider(scrapy.Spider):name = "zhaopin"allowed_domains = ["hr.163.com"]# start_urls = ["https://hr.163.com/api/hr163/position/queryPage"]def start_requests(self):api_url = "https://hr.163.com/api/hr163/position/queryPage"for page in range(1, 229):json_data = {"currentPage": page,"pageSize": 10,}yield JsonRequest(api_url, data=json_data)def parse(self, response, **kwargs):print(response.json()["data"][
http://www.dtcms.com/wzjs/565664.html

相关文章:

  • 如何将aaa云主机做网站品牌视觉设计
  • dw网站建设云羽网络做网站怎么样
  • 汽配网站建设免费建设网站怎么样
  • 网站备案ip查询网站公司手机网站效果图
  • 国内设计师个人网站设计logo免费图片
  • 帮别人做网站赚钱新泰做网站
  • 官网站内推广内容做企业画册网站有
  • 济南网站制作定制公司云南网站开发培训机构
  • 国外可以做推广的网站有哪些wordpress评论通知
  • 个人域名备案做企业网站上海的室内设计公司
  • 建设通网站登录不进去企业固定ip做网站
  • 怎样做类似于优酷的视频网站建设企业网站官网企业网银
  • 做网站建设公司排名大庆医院网站建设方案
  • 网站不备案不能访问文化馆互联网站建设方案
  • 新站加快网站收录计算机网站建设实训总结
  • 网站空间和数据库wordpress免费响应式
  • 哪个网站找住宿的便宜wordpress评论发邮件
  • 湖北网站设计制作多少钱余姚本地网站排名
  • 做网站的组要具备哪些素质网站开发深圳
  • 柳州做网站的企业建设公司网站标题
  • 网站建设与开发定制html网页制作完整代码
  • 建设银行贵金属网站网站设计的流程
  • wordpress用户注册邮件内容自定义临沂seo网站推广
  • 网站扫二维码怎么做天津制作企业网站的
  • 建设网站花都区wordpress怎么设置侧滑栏
  • 怎么样建网站啊潍坊网站排名推广
  • 许昌做网站公司哪家专业网站制作定制18
  • 广告网站建设实训报告惠州市企业网站seo营销工具
  • WordPress注册不提示推广关键词优化公司
  • 软件定制网站建设静态网站建设的技术运用