当前位置: 首页 > news >正文

【Scrapy】Scrapy教程12——中间件

中间件这部分算是一个高阶的Scrapy内容,即便不了解这部分也可以使用Scrapy,但是一些特殊情况使用中间件就比较方便处理了,比如修改请求和响应等。
通过之前的工作原理图中,我们了解到Scrapy中有两个中间件,分别是下载器中间件和爬虫中间件,本节将一一讲解如何激活、编写自己的中间件和如何使用内置中间件。

下载器中间件Downloader Middlewares

激活下载器中间件

在 Scrapy 项目的settings.py文件中进行配置,从而激活下载器中间件。具体操作是在DOWNLOADER_MIDDLEWARES字典中添加或修改相应的中间件配置。例如,如果要激活自定义的下载器中间件MyCustomDownloaderMiddleware,假设其路径为myproject.middlewares.MyCustomDownloaderMiddleware,可以这样配置:

DOWNLOADER\_MIDDLEWARES = {

	"myproject.middlewares.MyCustomDownloaderMiddleware": 543,
}

其中,数字543代表中间件的执行顺序,数值越低优先级越高。

编写自己的下载器中间件

编写自定义下载器中间件,需要创建一个 Python 类,并重写一些特定的方法。可以重写方法包括process_requestprocess_responseprocess_exceptionfrom_crawler方法。

  • process_request(self, request, spider)
    • 当每个request通过下载中间件时,该方法被调用
    • 可以返回None,表示继续处理这个请求
    • 可以返回一个scrapy.http.Response,则中间件会返回这个响应对象并跳过下载过程,直接把响应传递给爬虫;
    • 可以返回一个scrapy.http.Request,那么会停止当前请求及后面的中间件,新请求会被重新调度和下载;
    • 或者抛出scrapy.exceptions.IgnoreRequest异常,请求会被丢弃,触发spiderrequest_dropped信号
    • </
http://www.dtcms.com/a/123092.html

相关文章:

  • list的使用以及模拟实现
  • Nodejs流
  • 中美贸易摩擦背景下国家车规芯片产业应对策略
  • matplotlib.pyplot常见图形及组合基础用法文档
  • 学习threejs,使用EffectComposer后期处理组合器(采用RenderPass、FilmPass渲染通道)
  • 轻量级锁是什么?轻在哪里?重量级锁是什么?重在哪里?
  • 技术与情感交织的一生 (五)
  • 无人机隐身技术难点要点!
  • [强网杯 2019]随便注 1
  • Matter的优势#4:安全性和加密
  • RHCSA Linux系统 数据流和重定向 tee 命令
  • 【非机动车检测】用YOLOv8实现非机动车及驾驶人佩戴安全帽检测
  • MySQL 的四种社交障碍等级
  • 经济金融最优化:从理论到MATLAB实践——最大利润问题全解析
  • 程序设计竞赛1
  • java笔记03
  • 安装了VM Tools,仍无法复制拖动-解决方案
  • 如何通过前端表格控件实现自动化报表?1
  • wsl2+ubuntu22.04安装blenderproc教程
  • React 的 context 是什么?
  • GPT - 因果掩码(Causal Mask)
  • C语言复习笔记--指针(4)
  • lombok的坑
  • JVM 调试与内存优化实战详解
  • 可编辑37页PPT | 建筑行业DeepSeek日常实操培训
  • keil5使用技巧
  • 踩雷,前端一直卡在获取token中
  • GaussDB存储过程深度解析:从开发到生产实践
  • 4.9-4.10学习总结 Stream流练习+方法引用+异常
  • C/C++内存管理:从基础到进阶