当前位置：首页 > wzjs >正文

智能锁东莞网站建设亚马逊关键词工具哪个最准

wzjs 2025/7/21 9:40:44

智能锁东莞网站建设,亚马逊关键词工具哪个最准,wordpress dreamwear,政府机关网站建设的依据文章目录数据流组件引擎Engine调度器Scheduler下载器Downloader爬虫Spiders项目管道Item Pipeline下载器中间件Downloader Middlewares爬虫中间件Spider Middlewares 在学习Scrapy前，我们需要先了解其架构和工作原理，这样才能很好的去使用Scrapy。 Scra…

文章目录

数据流
组件
- 引擎Engine
- 调度器Scheduler
- 下载器Downloader
- 爬虫Spiders
- 项目管道Item Pipeline
- 下载器中间件Downloader Middlewares
- 爬虫中间件Spider Middlewares

在学习Scrapy前，我们需要先了解其架构和工作原理，这样才能很好的去使用Scrapy。
Scrapy的整体架构如下图所示，同时也标注出了其各个组件和数据流。
在这里插入图片描述

数据流

Scrapy的数据流由引擎控制，流程如下：

引擎Engine从爬虫Spiders中获得初始请求开始抓取。
引擎Engine在调度器Scheduler中调度请求，并准备对下一次的请求进行抓取。
调度器Scheduler返回下一个请求给引擎Engine。
引擎Engine通过下载器中间件Downloader Middleware发送请求到下载器Downloader
一旦下载器Downloader完成页面下载，将生成一个响应Response通过下载器中间件Downloader Middleware返回给引擎Engine。
引擎Engine收到下载器Downloader的响应，通过爬虫中间件Spiders Middleware发送给爬虫Spiders进行处理。
爬虫Spiders处理响应Response，并通过爬虫中间件Spiders Middleware返回处理后的Items，以及新的请求Request给引擎Engine。
引擎Engine发送处理后的Items给到项目管道Item Pipelines进行存储或其他处理，然后把处理后的请求Requests发送给调度器Scheduler，计划处理下一个可能抓取的请求。
流程从第3步重复，直到调度器Scheduler中没有更多的请求。

上面流程中提到了很多名词，比如引擎、调度器、下载器、爬虫、项目管道、中间件，这些是什么呢？都是Scrapy的组件。

组件

Scrapy包含了6大组件，分别是引擎(engine)、调度器(scheduler)、下载器(downloader)、爬虫(spiders)、项目管道(item pipelines)、中间件(middleware)。中间件中又分下载器中间件Downloader Middlewares和爬虫中间件Spider Middlewares

引擎Engine

引擎负责控制系统所有组件之间的数据流，并当某些操作发生时触发事件。

调度器Scheduler

调度器用来接收引擎发过来的请求，并把这些请求排入队列，当引擎需要时再返回。其作用是决定下一个要抓取的网址，并把重复的网址去除。

下载器Downloader

下载器负责取回网页内容(即响应response)返回给引擎，引擎把网页内容依次给爬虫。下载器是建立在twisted异步模型上的。

爬虫Spiders

爬虫是Scrapy的使用者自己编写的类，用来解析响应(response)，并提取出项目(items)或额外的新请求。

项目管道Item Pipeline

项目管道负责处理由爬虫提取出来的项目，典型的任务包括清理、验证和持久化(比如存储到数据库)。

下载器中间件Downloader Middlewares

下载器中间件位于引擎和下载器之间，用来处理引擎到下载的请求，和下载器到引擎的响应。遇到以下情况时请使用下载器：

在请求发送到下载器之前处理请求
在响应发生到爬虫前修改接收到的响应
不把响应发送到爬虫，而是发送一个新请求
不获取网页的情况下把响应发送给爬虫
静默的删除一些请求

爬虫中间件Spider Middlewares

爬虫中间件位于引擎和爬虫之间，能够处理爬虫的输入(responses)和输出(items and requests)。当需要做以下事情时请使用爬虫中间件：

爬虫回调的内容处理后输出，包括修改、添加、删除请求requests或项目items
处理后开始请求start_requests
处理爬虫的异常
调用 errback 代替基于响应内容的某些请求的回调

Scrapy的工作原理就讲这么多了，欢迎大家在其他平台关注我，将不定期发放各种软件或软件源码供大家使用！

在这里插入图片描述

http://www.dtcms.com/wzjs/35339.html

相关文章：

云阳做网站怎么做seo信息优化

网站子站怎么做、营销百度app下载手机版

寿县城乡建设局网站山东关键词优化联系电话

中英文 wordpress网站关键词优化的价格

盗版电影网站建设成本网站seo站长工具

用ip做网站信阳网站推广公司

教做年糕博客网站seo研究中心南宁线下

用字母做logo的网站百度seo站长工具

网站建设的基本思路网站和网页的区别

怎么做好网站百度竞价渠道代理

甘肃平凉建设局网站如皋网站制作

提高网站加载速度iis免费网站seo优化

如何将网站让百度收录长尾词挖掘工具

惠州建设工程质量监督站网站万网注册域名查询官方网站

长春网站建设双11各大电商平台销售数据

经营性网站备案网网络营销的手段包括

做企业手机网站短视频营销的发展趋势

自己买空间做网站网页设计与制作案例教程

行业门户网站建设方案全国新冠疫情最新情况

网站怎么在微博推广网站优化外包费用

360搜索怎么做网站优化百度正版下载恢复百度

建设网站都需投入哪些资源seo短视频

网站公司说我们做的网站服务器不够用无锡哪里有做网站的

手机网络加速器网站优化和网站推广

开通网站的会计科目怎么做登录百度账号

网站建设从哪几个情况去判大数据精准营销

网站做淘宝客还行吗seo岗位有哪些

如何在本地发布自己做的网站河南网站建设制作

泸州住房和城乡建设厅网站首页seo01

网站建设需求文档模板下载百度一下1688