当前位置：首页 > wzjs >正文

门户网站开发的意义几年做啥网站能致富

wzjs 2025/9/22 7:39:02

门户网站开发的意义,几年做啥网站能致富,标签用wordpress,k8s wordpressCrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider 类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider 可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。 Scr…

CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类，它继承自 Spider
类，主要用于实现基于规则的网页爬取。相较于普通的 Spider 类，CrawlSpider
可以根据预定义的规则自动跟进页面中的链接，从而实现更高效、更灵活的爬取。

Scrapy 创建CrawlSpider爬虫

目标网址：http://quotes.toscrape.com/

目标：匹配top10标签里面的所有quote

在这里插入图片描述
观察其他的URL链接，这些都是干扰，我们只需要匹配top10里面的链接，所有需要编写正则表达式来匹配

1.创建 Scrapy 项目：在命令行输入scrapy startproject myproject，这里的myproject是项目名。

2.进入项目目录：输入cd myproject。
3.创建 CrawlSpider：输入scrapy genspider -t crawl myspider example.com，myspider是爬虫名，example.com是初始爬取的域名。

scrapy genspider -t crawl quotes quotes.toscrape.com

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=False),)def parse_tag(self, response):tag_url = response.urlprint(f"Extracted tag URL: {tag_url}")

rules：是一个元组，包含一个或多个 Rule 对象，每个 Rule 对象定义了一个爬取规则。
LinkExtractor(allow=r'/tag/[a-z]+/$')：创建一个 LinkExtractor 对象，使用正则表达式 r'/tag/[a-z]+/$' 来提取符合规则的链接。该正则表达式的含义是：匹配含/tag/的链接，后面跟着一个或多个小写字母，最后以 / 结尾的链接。
callback='parse_tag'：当 LinkExtractor 提取到符合规则的链接并访问该链接对应的页面后，会调用 parse_tag 方法来处理该页面。
follow=False：表示不跟进从当前页面提取的符合规则的链接。也就是说，爬虫只会处理当前页面中符合规则的链接，不会继续深入这些链接对应的页面去提取更多链接。

可以看到爬取的就是top10的

相对 URL 和绝对 URL 的差异： Scrapy 的 LinkExtractor 在处理链接时，处理的是绝对 URL 而非 HTML 中的相对 URL。要是你的正则表达式是基于相对 URL 来写的，就可能会匹配失败。比如，HTML 里的相对 URL 是/tag/inspirational/，但 Scrapy 处理时会把它变成绝对 URL http://quotes.toscrape.com/tag/inspirational/
因此 r'^/tag/[a-z]+/$' 就无法匹配，因为绝对 URL 是以 http:// 开头的，并非 /tag/。
或者改为这样也是可以的 r'^http://quotes.toscrape.com/tag/[a-z]+/$'

接下来我们继续跟进，将follow=True。进入这些标签页面进一步爬取详情内容

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

在这里插入图片描述

翻页逻辑

有的标签类别不止一页数据，例如

http://quotes.toscrape.com/tag/love/page/2/

在这里插入图片描述
可以看到我们只需要匹配next里面链接，其他的为干扰。我们可以使用更精确的 CSS 选择器来配合 LinkExtractor

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

如果 Rule(LinkExtractor(restrict_css=‘li.next a’), callback=‘parse_tag’, follow=False)
那么爬虫只会处理当前页面中提取到的分页链接对应的页面，而不会进一步去跟进这些页面中的其他分页链接，所以只能获取到第二页的数据，无法获取到第二页之后的页面数据。

还可以使用 XPath 提取

    rules = (# 规则1：提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2：使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),# 规则3：使用XPath提取<li>标签下的分页链接Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a'), callback='parse_tag', follow=True),)

Scrapy 内部有一个链接去重机制，默认使用 scrapy.dupefilters.RFPDupeFilter 来过滤重复的请求。当 LinkExtractor 提取到链接后，Scrapy 会先检查这个链接是否已经在请求队列中或者已经被处理过，如果是，就不会再次发起请求。

规则 2 和规则 3 提取的是相同的，由于 Scrapy 的去重机制，相同的链接只会被请求和处理一次，所以不会因为规则 2 和规则 3 提取到相同的链接而导致 parse_tag 方法被重复调用并打印两次数据。

虽然 Scrapy 会对链接进行去重，但如果你的 parse_tag 方法内部存在一些逻辑，可能会导致数据重复处理。例如，如果你在 parse_tag 方法中对数据进行了一些存储操作，并且没有进行去重处理，那么可能会出现数据重复存储的情况

LinkExtractor allow参数

字符串列表：allow=['/tag/love/', '/tag/humor/']，LinkExtractor 会提取包含 /tag/love/ 或者 /tag/humor/ 的链接

编译好的正则表达式对象：

tag_pattern = re.compile(r'/tag/[a-z]+/$')
rules = (Rule(LinkExtractor(allow=tag_pattern), callback='parse_item', follow=True),
)

空列表或空字符串：如果你传入一个空列表 [] 或者空字符串 ''，LinkExtractor 会提取页面中的所有链接。

查看全文

http://www.dtcms.com/wzjs/826258.html

东营市报名系统网站设计公司云服务器便宜

站长工具劲爆wordpress算术验证

红酒公司网站建设网站开发个人博客

php根据ip 跳转网站网页设计产品介绍页面的制作

网站建设类文章要发多少片app运营费用

企业网站建设与推广范文东莞网站建设哪家公司好

如何免费做公司网站手机网站左右滑动效果

网站二级域名解析智能软件开发就业前景

国外网站设计风格做盗版电影网站后果

asp做网站的优势是什么优秀网站网址

常德建设网站网站做cdn怎么弄

网站建设的面试要求企业网站域名注册

专门做运动装备的网站推荐网站建设收费标准

使用微信做网站第三方登录怎样营销

国外域名抢注网站厦门公司建站

网站开发知识版权租网站服务器

网站设计论文结论网站建设职业情况

手机网站 jquery 特效只做网站可以在百度里收到吗

长沙网站建设案例无锡电子商务网站建设

做股东变更要上哪个网站城阳网站制作

张梅合肥网站建设爱站工具下载

鄂州网站推广优化技巧广州万户网络技术有限公司招聘

兼职建设网站免费ppt模板下载不用钱的

wordpress搭建付费网站如何弄网站

网站内容页怎么设计模板网站软文是什么

网站买源代码用vue element-ui做的网站

农村小学校园网站建设方案商丘专业做网站

什么是php网站云主机网站指南

织梦怎么制作手机网站天元建设集团有限公司招聘2022

html 网站源码卖手机深圳网络科技有限公司有哪些

翻页逻辑

LinkExtractor allow参数

相关文章：