当前位置: 首页 > wzjs >正文

摄影网站免费windows优化大师官方下载

摄影网站免费,windows优化大师官方下载,中国建设银行手机银行app下载,移动健康app下载Scrapy-redis分布式爬虫 1.Scrapy-redis实现增量爬虫 增量爬虫的含义 就是前面所说的的暂停、恢复爬取 安装 # 使用scrapy-redis之前最好将scrapy版本保持在2.8.0版本, 因为2.11.0版本有兼容性问题 pip install scrapy==2.8.0 pip install scrapy-redis -i https://pypi.tun…

Scrapy-redis分布式爬虫

1.Scrapy-redis实现增量爬虫

增量爬虫的含义

就是前面所说的的暂停、恢复爬取

安装

# 使用scrapy-redis之前最好将scrapy版本保持在2.8.0版本, 因为2.11.0版本有兼容性问题
pip install scrapy==2.8.0
pip install scrapy-redis -i https://pypi.tuna.tsinghua.edu.cn/simple

配置 - 在setting.py中加入以下内容( 根据注释可选 )

"""scrapy-redis配置
"""
# 调度器类 基于redis
SCHEDULER = "scrapy_redis.scheduler.Scheduler"# 指纹去重类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 可以替换成布隆过滤器
# 下载 - pip install scrapy-redis-bloomfilter
# from scrapy_redis_bloomfilter.dupefilter import RFPDupeFilter
# DUPEFILTER_CLASS = 'scrapy_redis_bloomfilter.dupefilter.RFPDupeFilter'# 是否在关闭时候保留原来的调度器和去重记录, True=保留, False=清空
SCHEDULER_PERSIST = True# Redis 服务器地址
REDIS_URL = "redis://127.0.0.1:6379/0" # Redis默认有16库,/1的意思是使用序号为2的库,默认是0号库(这个可以任意)SCHEDULER_QUEUE_KEY = "scrapy_redis:queue.PriorityQueue" # 使用有序集合来存储
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.FifoQueue" #  先进先出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.LifoQueue" # 先进后出, 后进先出# 配置Redis管道
# from scrapy_redis.pipelines import RedisPipeline
# ITEM_PIPELINES = {
#     "scrapy_redis.pipelines.RedisPipeline": 301,
#     "douban.pipelines.DoubanPipeline": 300,
# }# 重爬:一般不配置,在分布式中使用重爬机制会导致数据混乱,默认是False
# SCHEDULER_FLUSH_ON_START = True

运行指令以及运行效果

scrapy crawl 爬虫名称

在爬取过程中,使用ctrl+c让爬虫暂停抓取。停止后使用redis客户端查看对应的数据信息

scrapy-redis的工作流程

spiders -> request请求对象 -> 经过中间件 -> 提交给引擎 -> 会把Request对象提交给调度器(下载器)
-> 返回response -> 给pipeline
-> 返回request -> 给引擎 交给调度器
基于redis的调度器

增量爬虫 - 案例1 - 网易招聘

# zhaopin.py
import scrapy
from scrapy.http import JsonRequest
from scrapy import cmdlineclass ZhaopinSpider(scrapy.Spider):name = "zhaopin"allowed_domains = ["hr.163.com"]# start_urls = ["https://hr.163.com/api/hr163/position/queryPage"]def start_requests(self):api_url = "https://hr.163.com/api/hr163/position/queryPage"for page in range(1, 229):json_data = {"currentPage": page,"pageSize": 10,}yield JsonRequest(api_url, data=json_data)def parse(self, response, **kwargs):print(response.json()["data"][
http://www.dtcms.com/wzjs/154219.html

相关文章:

  • python制作视频网站开发搜索网站有哪几个
  • 汕头市建筑信息网站免费外链生成器
  • 网站漏洞怎么修复百度品牌推广
  • 新疆交通建设有限公司主页网站优质外链平台
  • 交互式网站公安备案线上营销策划案例
  • 成都网站营销seo电话大一html网页制作作业
  • 宿迁网站设计最近一周的国内新闻
  • 如何做班级网站阳东网站seo
  • 哪个网站专门做邮轮旅游的免费seo推广公司
  • 移动端网站怎么提交2021友情链接qq群
  • 沈阳网站建设 房小二大数据分析营销平台
  • 如果自己弄网站深圳推广公司有哪些
  • 大良营销网站建设市场黄石seo诊断
  • 无锡做网站365caiyi西安百度推广代理商
  • 哈尔滨网站建设制作哪家便宜厦门人才网
  • 兰州做网站价格新手学seo
  • 网站制作滚动图片怎么做百度贴吧官网首页
  • 网站根目录是什么意思广东seo外包服务
  • 网站概要设计模板国际羽联最新排名
  • 网站建设免费软件短视频培训课程
  • 佛山购物网站建设fifa世界排名最新
  • 外国网站建站seosem顾问
  • 营销网站售后调查系统网站怎么优化到首页
  • wordpress 敏感词过滤搜索引擎优化报告
  • 微信小程序开发教程 下载seo搜索排名
  • 网站建设入账时进那个会计科目aso优化
  • wordpress更改ip后登录密码快速优化工具
  • 小程序模板多少钱一套网站百度关键词seo排名优化
  • 祖庙高明网站建设营销页面
  • 抽奖怎么做网站营销策划有限公司经营范围