当前位置：首页 > wzjs >正文

给网站做优化刷活跃要收费吗推广普通话手抄报文字

wzjs 2025/8/12 14:39:16

给网站做优化刷活跃要收费吗,推广普通话手抄报文字,肇庆各行业落实新十条要求,玩具网站建设CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider 类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider 可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。 Scr…

CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider
类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider
可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。

Scrapy 创建CrawlSpider爬虫

目标网址：http://quotes.toscrape.com/

目标：匹配top10标签里面的所有quote

在这里插入图片描述
观察其他的URL链接，这些都是干扰，我们只需要匹配top10里面的链接，所有需要编写正则表达式来匹配

1.创建 Scrapy 项目：在命令行输入scrapy startproject myproject，这里的myproject是项目名。

2.进入项目目录：输入cd myproject。
3.创建 CrawlSpider：输入scrapy genspider -t crawl myspider example.com，myspider是爬虫名，example.com是初始爬取的域名。

scrapy genspider -t crawl quotes quotes.toscrape.com

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=False),)def parse_tag(self, response):tag_url = response.urlprint(f"Extracted tag URL: {tag_url}")

rules：是一个元组，包含一个或多个 Rule 对象，每个 Rule 对象定义了一个爬取规则。
LinkExtractor(allow=r'/tag/[a-z]+/$')：创建一个 LinkExtractor 对象，使用正则表达式 r'/tag/[a-z]+/$' 来提取符合规则的链接。该正则表达式的含义是：匹配含/tag/的链接，后面跟着一个或多个小写字母，最后以 / 结尾的链接。
callback='parse_tag'：当 LinkExtractor 提取到符合规则的链接并访问该链接对应的页面后，会调用 parse_tag 方法来处理该页面。
follow=False：表示不跟进从当前页面提取的符合规则的链接。也就是说，爬虫只会处理当前页面中符合规则的链接，不会继续深入这些链接对应的页面去提取更多链接。

可以看到爬取的就是top10的

相对 URL 和绝对 URL 的差异： Scrapy 的 LinkExtractor 在处理链接时，处理的是绝对 URL 而非 HTML 中的相对 URL。要是你的正则表达式是基于相对 URL 来写的，就可能会匹配失败。比如，HTML 里的相对 URL 是/tag/inspirational/，但 Scrapy 处理时会把它变成绝对 URL http://quotes.toscrape.com/tag/inspirational/
因此 r'^/tag/[a-z]+/$' 就无法匹配，因为绝对 URL 是以 http:// 开头的，并非 /tag/。
或者改为这样也是可以的 r'^http://quotes.toscrape.com/tag/[a-z]+/$'

接下来我们继续跟进，将follow=True。进入这些标签页面进一步爬取详情内容

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

在这里插入图片描述

翻页逻辑

有的标签类别不止一页数据，例如

http://quotes.toscrape.com/tag/love/page/2/

在这里插入图片描述
可以看到我们只需要匹配next里面链接，其他的为干扰。我们可以使用更精确的 CSS 选择器来配合 LinkExtractor

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

如果 Rule(LinkExtractor(restrict_css=‘li.next a’), callback=‘parse_tag’, follow=False)
那么爬虫只会处理当前页面中提取到的分页链接对应的页面，而不会进一步去跟进这些页面中的其他分页链接，所以只能获取到第二页的数据，无法获取到第二页之后的页面数据。

还可以使用 XPath 提取

    rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),# 规则3：使用XPath提取<li>标签下的分页链接Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a'), callback='parse_tag', follow=True),)

Scrapy 内部有一个链接去重机制，默认使用 scrapy.dupefilters.RFPDupeFilter 来过滤重复的请求。当 LinkExtractor 提取到链接后，Scrapy 会先检查这个链接是否已经在请求队列中或者已经被处理过，如果是，就不会再次发起请求。

规则 2 和规则 3 提取的是相同的，由于 Scrapy 的去重机制，相同的链接只会被请求和处理一次，所以不会因为规则 2 和规则 3 提取到相同的链接而导致 parse_tag 方法被重复调用并打印两次数据。

虽然 Scrapy 会对链接进行去重，但如果你的 parse_tag 方法内部存在一些逻辑，可能会导致数据重复处理。例如，如果你在 parse_tag 方法中对数据进行了一些存储操作，并且没有进行去重处理，那么可能会出现数据重复存储的情况

LinkExtractor allow参数

字符串列表：allow=['/tag/love/', '/tag/humor/']，LinkExtractor 会提取包含 /tag/love/ 或者 /tag/humor/ 的链接

编译好的正则表达式对象：

tag_pattern = re.compile(r'/tag/[a-z]+/$')
rules = (Rule(LinkExtractor(allow=tag_pattern), callback='parse_item', follow=True),
)

空列表或空字符串：如果你传入一个空列表 [] 或者空字符串 ''，LinkExtractor 会提取页面中的所有链接。

查看全文

http://www.dtcms.com/wzjs/318348.html

动态网站开发背景网址导航怎样推广

如何做好企业推广长沙官网seo技术

深圳微商城网站设计公司安徽做网站公司哪家好

旅游网站开发文档怎么写站长工具综合查询系统

帝国网站系统做专题搜索引擎优化的方法有哪些?

企业门户网站开发要多少钱网站怎么做谷歌推广

徐州网站建设技术外包游戏代理怎么找渠道

企业做网站分哪几种站长工具在线查询

php做的网站收录专业搜索引擎seo服务商

做包装的网站网页生成器

外贸网站怎样注册杭州排名优化公司

站酷做网站营销策划案

石家庄网站开发公司电话微商已经被国家定为传销了

龙川县建设网站岳阳seo快速排名

黄页网站怎么查目前引流最好的平台

网站开发工具中的三剑客seo搜索优化费用

如何高效率的建设网站如何把品牌推广出去

淘宝店网站怎么做网络营销咨询公司

p2p网站做牛关键词爱站网

网站设置超链接如何做好网络营销推广

甘肃手机版建站系统价格广州品牌seo推广

美乐乐网站建设北京网站制作

网站建设及维护合同代写

威海网站制作服务百度ocpc如何优化

免费做微网站搜索引擎大全排名

南宁建设公司网站百度人工客服电话

网站子站建设自查报告宁波seo怎么推广

dw软件做网站个人网站规划书模板

网站开发需要怎么做精准营销

深圳分销网站设计公司营销型网站建设策划书

翻页逻辑

LinkExtractor allow参数

相关文章：