当前位置：首页 > wzjs >正文

做外贸大一点的网站网络代理app

wzjs 2025/8/25 9:24:19

做外贸大一点的网站,网络代理app,app优化网站开发,去哪个网站可以接单做ps等等CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider 类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider 可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。 Scr…

CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider
类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider
可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。

Scrapy 创建CrawlSpider爬虫

目标网址：http://quotes.toscrape.com/

目标：匹配top10标签里面的所有quote

在这里插入图片描述
观察其他的URL链接，这些都是干扰，我们只需要匹配top10里面的链接，所有需要编写正则表达式来匹配

1.创建 Scrapy 项目：在命令行输入scrapy startproject myproject，这里的myproject是项目名。

2.进入项目目录：输入cd myproject。
3.创建 CrawlSpider：输入scrapy genspider -t crawl myspider example.com，myspider是爬虫名，example.com是初始爬取的域名。

scrapy genspider -t crawl quotes quotes.toscrape.com

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=False),)def parse_tag(self, response):tag_url = response.urlprint(f"Extracted tag URL: {tag_url}")

rules：是一个元组，包含一个或多个 Rule 对象，每个 Rule 对象定义了一个爬取规则。
LinkExtractor(allow=r'/tag/[a-z]+/$')：创建一个 LinkExtractor 对象，使用正则表达式 r'/tag/[a-z]+/$' 来提取符合规则的链接。该正则表达式的含义是：匹配含/tag/的链接，后面跟着一个或多个小写字母，最后以 / 结尾的链接。
callback='parse_tag'：当 LinkExtractor 提取到符合规则的链接并访问该链接对应的页面后，会调用 parse_tag 方法来处理该页面。
follow=False：表示不跟进从当前页面提取的符合规则的链接。也就是说，爬虫只会处理当前页面中符合规则的链接，不会继续深入这些链接对应的页面去提取更多链接。

可以看到爬取的就是top10的

相对 URL 和绝对 URL 的差异： Scrapy 的 LinkExtractor 在处理链接时，处理的是绝对 URL 而非 HTML 中的相对 URL。要是你的正则表达式是基于相对 URL 来写的，就可能会匹配失败。比如，HTML 里的相对 URL 是/tag/inspirational/，但 Scrapy 处理时会把它变成绝对 URL http://quotes.toscrape.com/tag/inspirational/
因此 r'^/tag/[a-z]+/$' 就无法匹配，因为绝对 URL 是以 http:// 开头的，并非 /tag/。
或者改为这样也是可以的 r'^http://quotes.toscrape.com/tag/[a-z]+/$'

接下来我们继续跟进，将follow=True。进入这些标签页面进一步爬取详情内容

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

在这里插入图片描述

翻页逻辑

有的标签类别不止一页数据，例如

http://quotes.toscrape.com/tag/love/page/2/

在这里插入图片描述
可以看到我们只需要匹配next里面链接，其他的为干扰。我们可以使用更精确的 CSS 选择器来配合 LinkExtractor

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

如果 Rule(LinkExtractor(restrict_css=‘li.next a’), callback=‘parse_tag’, follow=False)
那么爬虫只会处理当前页面中提取到的分页链接对应的页面，而不会进一步去跟进这些页面中的其他分页链接，所以只能获取到第二页的数据，无法获取到第二页之后的页面数据。

还可以使用 XPath 提取

    rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),# 规则3：使用XPath提取<li>标签下的分页链接Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a'), callback='parse_tag', follow=True),)

Scrapy 内部有一个链接去重机制，默认使用 scrapy.dupefilters.RFPDupeFilter 来过滤重复的请求。当 LinkExtractor 提取到链接后，Scrapy 会先检查这个链接是否已经在请求队列中或者已经被处理过，如果是，就不会再次发起请求。

规则 2 和规则 3 提取的是相同的，由于 Scrapy 的去重机制，相同的链接只会被请求和处理一次，所以不会因为规则 2 和规则 3 提取到相同的链接而导致 parse_tag 方法被重复调用并打印两次数据。

虽然 Scrapy 会对链接进行去重，但如果你的 parse_tag 方法内部存在一些逻辑，可能会导致数据重复处理。例如，如果你在 parse_tag 方法中对数据进行了一些存储操作，并且没有进行去重处理，那么可能会出现数据重复存储的情况

LinkExtractor allow参数

字符串列表：allow=['/tag/love/', '/tag/humor/']，LinkExtractor 会提取包含 /tag/love/ 或者 /tag/humor/ 的链接

编译好的正则表达式对象：

tag_pattern = re.compile(r'/tag/[a-z]+/$')
rules = (Rule(LinkExtractor(allow=tag_pattern), callback='parse_item', follow=True),
)

空列表或空字符串：如果你传入一个空列表 [] 或者空字符串 ''，LinkExtractor 会提取页面中的所有链接。

查看全文

http://www.dtcms.com/wzjs/479393.html

广州网站制作杭州seo泽成

做设计赚钱网站有哪些seo管理系统创作

腾讯企业网站建设关键词搜索排行榜

网站估值怎么做seo入门讲解

乐清网站开发公司交换友情链接的方法

中国建设银行个人网上银行网站求职seo推荐

公司注册网上核名一直提交不成功网络优化培训骗局

网站建设专利申请百度登录注册

做网站好迷茫电商网站设计

男子做网站手机百度高级搜索入口

网站代码输入文字跳出内容5118数据分析平台

淄博建网站多少钱微信搜索seo优化

网站建设公司怎么盈利淘宝代运营1个月多少钱

网站导航栏条源码我是新手如何做电商

新疆智能人社下载国内seo做最好的公司

wordpress colormag一点优化

请简述网站制作流程seo精准培训课程

做学校的网站推广发展前景人工智能培训一般多少钱

外贸网站建设560网站出租三级域名费用

怎么查询网站有没有做网站地图各大网址收录查询

电脑自带的做网站叫什么软件百度秒收录

网站服务空间网推拉新app推广平台

做网站页面用什么东莞企业网站排名优化

html好看的网站的代码潍坊seo培训

github中文官网入口苏州网站优化公司

上海建网站公司如何免费发布广告

日照便宜做网站学做网站培训班要多少钱

信息型企业网站有哪些如何创建自己的网站

遵义网站制作教程宁德市地图

常州网站制作公司有哪些搜索到的相关信息

翻页逻辑

LinkExtractor allow参数

相关文章：