当前位置：首页 > wzjs >正文

衡阳网络网站中国百强城市榜单

wzjs 2025/8/2 19:57:54

衡阳网络网站,中国百强城市榜单,做好中心网站建设工作总结,前端和web前端的区别1.中间件根据scrapy运行流程中所在位置不同分为下载中间件爬虫中间件自定义中间件中间件的作用预处理request和response对象如果响应状态码不是200则请求重试（重新构造Request对象返回给引擎）可以对header以及cookie进行更换和处理使用代理ip等…

1.中间件

根据scrapy运行流程中所在位置不同分为

下载中间件
爬虫中间件
自定义中间件

中间件的作用

预处理request和response对象

如果响应状态码不是200则请求重试（重新构造Request对象返回给引擎）
可以对header以及cookie进行更换和处理
使用代理ip等

但在Scrapy默认的情况下，两种中间件都在middlewares.py一个文件中。爬虫中间件使用方法和下载中间件相同，且功能重复，常使用下载中间件。

下载中间件的内部方法

Downloader Middlewares默认的方法：

process_request(self, request, spider)

1. 当每个request通过下载中间件时，该方法被调用
2. 返回None值：没有return也是返回None，该request对象传递给下载器，或通过引擎传递给其他权重低的process_request方法
3. 返回Response对象：不再请求，把response返回给引擎
4. 返回Request对象：把request对象通过引擎交给调度器，此时将不通过其他权重低的process_request方法

process_response(self, request, response, spider)

1. 当下载器完成http请求，传递响应给引擎的时候调用
2. 返回Resposne对象：通过引擎交给爬虫处理或交给权重更低的其他下载中间件的process_response方法
3. 返回Request对象：通过引擎交给调度器继续请求，此时将不通过其他权重低的process_request方法

注意：需要在settings.py文件中开启中间件，权重越小越优先执行。

原始中间件一共封装五个方法，一般以下载中间件为例

def from_crawler(cls, crawler):d

作用：发送信号

def process_request(self, request, spider):

作用：处理请求对象

def process_response(self, request, response, spider):

作用：处理响应对象

def process_exception(self, request, exception, spider):

作用：捕获异常

def spider_opened(self, spider):

作用：日志记录，爬虫开始前的准备

2.设置动态UA

scrapy自动中间件基本不用，也可以用。咱们自定义设置UA中间件，虽然说可以设置在一个py文件里，但把中间件放在一个文件夹里，方便改动。

一般中间件设在爬虫开始前，也就是def process_request(self, request, spider):里面

from scrapy import signals# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapterimport randomclass UserAgentMiddleware:USER_AGENTS_LIST = ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)","Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)","Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)","Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)","Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6","Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1","Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0","Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"]def process_request(self, request, spider):print("------下载中间件----")# 随机选择UAuser_agent = random.choice(self.USER_AGENTS_LIST)request.headers['User-Agent'] = user_agent# 不写return"""如果返回None, 表示当前的response提交下一个权重低的process_request。如果传递到最后一个process_request,则传递给下载器进行下载。"""

动态UA封装好了，下一步往中间件里开启请求中间件，注意路径，注意是下载器中间件。

DOWNLOADER_MIDDLEWARES = {# 'myspider.middlewares.MyspiderDownloaderMiddleware': 543,'myspider.middlewares.UA_middlewares.UserAgentMiddleware': 100,
}

以百度为例，测试：

测试如下:

3.设置ip代理池

以快代理文档为例，照着官方文档

往项目根目录下添加文件

#!/usr/bin/env python
# -- coding: utf-8 --
import time
import threadingimport requests
from scrapy import signals# 提取代理IP的api
api_url = 'https://dps.kdlapi.com/api/getdps/?secret_id=ognun8vlg7vrdu7v79dh&signature=m3omx2nq0e7ve3jij071jw2xbkehs6th&num=10&format=json&sep=1'
foo = Trueclass Proxy:def __init__(self, ):self._proxy_list = requests.get(api_url).json().get('data').get('proxy_list')@propertydef proxy_list(self):return self._proxy_list@proxy_list.setterdef proxy_list(self, list):self._proxy_list = listpro = Proxy()
print(pro.proxy_list)class MyExtend:def __init__(self, crawler):self.crawler = crawler# 将自定义方法绑定到scrapy信号上,使程序与spider引擎同步启动与关闭# scrapy信号文档: https://www.osgeo.cn/scrapy/topics/signals.html# scrapy自定义拓展文档: https://www.osgeo.cn/scrapy/topics/extensions.htmlcrawler.signals.connect(self.start, signals.engine_started)crawler.signals.connect(self.close, signals.spider_closed)@classmethoddef from_crawler(cls, crawler):return cls(crawler)def start(self):t = threading.Thread(target=self.extract_proxy)t.start()def extract_proxy(self):while foo:pro.proxy_list = requests.get(api_url).json().get('data').get('proxy_list')#设置每15秒提取一次iptime.sleep(15)def close(self):global foofoo = False

然后在设置一个中间件

设置好自己的账号和密码

#!/usr/bin/env python 
# -- coding: utf-8 -- """
middlewares.py 中新增 ProxyDownloaderMiddleware 即代理中间件
请注意替换代码中的部分信息：username：用户名，password：密码
"""from scrapy import signals
from myspider.myextend import pro
import randomclass ProxyDownloaderMiddleware:def process_request(self, request, spider):proxy = random.choice(pro.proxy_list)# 用户名密码认证(私密代理/独享代理)username = ""password = ""request.meta['proxy'] = "http://%(user)s:%(pwd)s@%(proxy)s/" % {"user": username, "pwd": password, "proxy": proxy}# 白名单认证(私密代理/独享代理)# request.meta['proxy'] = "http://%(proxy)s/" % {"proxy": proxy}return None

最后在setting设置

既可以成功设置ip代理池，携带代理ip在请求回调参数里的meta['proxy']里面。

原来是通过中间件设置快代理api，然后可以设置一次性获得几个ip，然后随机携带代理ip，并且还可以几秒后重新获取ip。

还是按以下测试：

结果如下：

但有一个问题是，如果并不是每一个爬虫需要代理ip。直接设置在中间件，相当于每次运行都要提取ip，造成ip浪费。

4.爬虫自设置ip代理。

第一步在setting.py注释掉ip中间件

第二步 custom_setting自定义设置ip中间件

custom_settings = {}

在爬虫添加这个，即表示添加代理

    custom_settings = {'DOWNLOADER_MIDDLEWARES': {'myspider.middlewares.ProxyDownloaderMiddleware.ProxyDownloaderMiddleware': 200,},}

效果如下：

但是注意，一旦爬虫自定义中间件的话，以爬虫自定义的中间件为主。

第四阶段，结束。

查看全文

http://www.dtcms.com/wzjs/193876.html

做的比较好的冷柜网站有哪些百度app官方下载安装

学动漫设计去哪个学校东莞搜索优化十年乐云seo

做赚钱网站有哪些一键优化清理

做任务领游戏的网站seo搜索引擎优化视频

云南网站建设哪家便宜今日中央新闻

基于web网上花店网站设计论文市场监督管理局电话

建设银行镇海支行网站上海seo外包

便宜的营销型网站建设网时代教育培训机构官网

好的版式设计网站郑州网络营销公司哪家好

哪些调查网站可以做问卷赚钱淘宝指数在线查询

计算机网络毕业设计株洲seo优化

arvixe如何做网站seo研究中心培训机构

wordpress访问密码保护文章一键优化

深圳集团网站建设官网seo优化

做网站排名大概要多少seo对网络推广的作用是什么?

国内用JSP做的网站有哪些百度广告投放价格

网站移动端适配怎么做找客户的十大方法

政府网站建设意见征集电商培训机构有哪些?哪家比较好

网站栏目描述推广方式都有哪些

免费b2b网站如何做排名九江seo优化

靠谱的建站正规公司站长工具a级

wordpress登陆图标修改武汉seo技术

手机网站模板 psd东莞seo网络培训

建设网站用什么空间服务器外包seo服务收费标准

网站上线线下推广的渠道和方法

网站如何做排名靠前营口建网站的公司

网站制作公司北京华网网站推广模式

网站设计hb软件关键词竞价排名是什么意思

建设好的网站怎么发布常用的营销策略

wordpress百度seo百度seo在哪里

1.中间件

2.设置动态UA

3.设置ip代理池

4.爬虫自设置ip代理。

相关文章：