当前位置: 首页 > wzjs >正文

给网站做优化刷活跃要收费吗推广普通话手抄报文字

给网站做优化刷活跃要收费吗,推广普通话手抄报文字,肇庆各行业落实新十条要求,玩具网站建设CrawlSpider 是 Scrapy 框架中一个非常实用的爬虫基类,它继承自 Spider 类,主要用于实现基于规则的网页爬取。相较于普通的 Spider 类,CrawlSpider 可以根据预定义的规则自动跟进页面中的链接,从而实现更高效、更灵活的爬取。 Scr…

CrawlSpiderScrapy 框架中一个非常实用的爬虫基类,它继承自 Spider
类,主要用于实现基于规则的网页爬取。相较于普通的 Spider 类,CrawlSpider
可以根据预定义的规则自动跟进页面中的链接,从而实现更高效、更灵活的爬取。

Scrapy 创建CrawlSpider爬虫

目标网址:http://quotes.toscrape.com/
在这里插入图片描述
目标:匹配top10标签里面的所有quote

在这里插入图片描述
观察其他的URL链接,这些都是干扰,我们只需要匹配top10里面的链接,所有需要编写正则表达式来匹配

1.创建 Scrapy 项目:在命令行输入scrapy startproject myproject,这里的myproject是项目名。

2.进入项目目录:输入cd myproject
3.创建 CrawlSpider:输入scrapy genspider -t crawl myspider example.commyspider是爬虫名,example.com是初始爬取的域名。

scrapy genspider -t crawl quotes quotes.toscrape.com
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=False),)def parse_tag(self, response):tag_url = response.urlprint(f"Extracted tag URL: {tag_url}")
  • rules:是一个元组,包含一个或多个 Rule 对象,每个 Rule 对象定义了一个爬取规则。
  • LinkExtractor(allow=r'/tag/[a-z]+/$'):创建一个 LinkExtractor 对象,使用正则表达式 r'/tag/[a-z]+/$' 来提取符合规则的链接。该正则表达式的含义是:匹配含/tag/的链接,后面跟着一个或多个小写字母,最后以 / 结尾的链接。
  • callback='parse_tag':当 LinkExtractor 提取到符合规则的链接并访问该链接对应的页面后,会调用 parse_tag 方法来处理该页面。
  • follow=False:表示不跟进从当前页面提取的符合规则的链接。也就是说,爬虫只会处理当前页面中符合规则的链接,不会继续深入这些链接对应的页面去提取更多链接。
    在这里插入图片描述
    可以看到爬取的就是top10的

相对 URL 和绝对 URL 的差异: Scrapy 的 LinkExtractor 在处理链接时,处理的是绝对 URL 而非 HTML 中的相对 URL。要是你的正则表达式是基于相对 URL 来写的,就可能会匹配失败。比如,HTML 里的相对 URL 是/tag/inspirational/,但 Scrapy 处理时会把它变成绝对 URL http://quotes.toscrape.com/tag/inspirational/
因此 r'^/tag/[a-z]+/$' 就无法匹配,因为绝对 URL 是以 http:// 开头的,并非 /tag/
或者改为这样也是可以的 r'^http://quotes.toscrape.com/tag/[a-z]+/$'

接下来我们继续跟进,将follow=True。进入这些标签页面进一步爬取详情内容

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

在这里插入图片描述

翻页逻辑

有的标签类别不止一页数据,例如

http://quotes.toscrape.com/tag/love/page/2/

在这里插入图片描述
可以看到我们只需要匹配next里面链接,其他的为干扰。我们可以使用更精确的 CSS 选择器来配合 LinkExtractor

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Ruleclass QuotesSpider(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ["http://quotes.toscrape.com/"]rules = (# 规则1:提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2:使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),)def parse_tag(self, response):# 打印当前页面的URLtag_url = response.urlprint(f"Extracted tag URL: {tag_url}")# 提取名言和作者quotes = response.css('div.quote')for quote in quotes:text = quote.css('span.text::text').get()author = quote.css('small.author::text').get()print(f"Quote: {text}, Author: {author}")

如果 Rule(LinkExtractor(restrict_css=‘li.next a’), callback=‘parse_tag’, follow=False)
那么爬虫只会处理当前页面中提取到的分页链接对应的页面,而不会进一步去跟进这些页面中的其他分页链接,所以只能获取到第二页的数据,无法获取到第二页之后的页面数据。

还可以使用 XPath 提取

    rules = (# 规则1:提取所有标签链接Rule(LinkExtractor(allow=r'/tag/[a-z]+/$'), callback='parse_tag', follow=True),# 规则2:使用CSS选择器提取<li>标签下的分页链接Rule(LinkExtractor(restrict_css='li.next a'), callback='parse_tag', follow=True),# 规则3:使用XPath提取<li>标签下的分页链接Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a'), callback='parse_tag', follow=True),)

Scrapy 内部有一个链接去重机制,默认使用 scrapy.dupefilters.RFPDupeFilter 来过滤重复的请求。当 LinkExtractor 提取到链接后,Scrapy 会先检查这个链接是否已经在请求队列中或者已经被处理过,如果是,就不会再次发起请求。

规则 2 和规则 3 提取的是相同的,由于 Scrapy 的去重机制,相同的链接只会被请求和处理一次,所以不会因为规则 2 和规则 3 提取到相同的链接而导致 parse_tag 方法被重复调用并打印两次数据。

虽然 Scrapy 会对链接进行去重,但如果你的 parse_tag 方法内部存在一些逻辑,可能会导致数据重复处理。例如,如果你在 parse_tag 方法中对数据进行了一些存储操作,并且没有进行去重处理,那么可能会出现数据重复存储的情况

LinkExtractor allow参数

  • 字符串列表allow=['/tag/love/', '/tag/humor/']LinkExtractor 会提取包含 /tag/love/ 或者 /tag/humor/ 的链接

  • 编译好的正则表达式对象

    tag_pattern = re.compile(r'/tag/[a-z]+/$')
    rules = (Rule(LinkExtractor(allow=tag_pattern), callback='parse_item', follow=True),
    )
    
  • 空列表或空字符串:如果你传入一个空列表 [] 或者空字符串 ''LinkExtractor 会提取页面中的所有链接。

http://www.dtcms.com/wzjs/318348.html

相关文章:

  • 动态网站开发背景网址导航怎样推广
  • 如何做好企业推广长沙官网seo技术
  • 深圳微商城网站设计公司安徽做网站公司哪家好
  • 旅游网站开发文档怎么写站长工具综合查询系统
  • 帝国网站系统做专题搜索引擎优化的方法有哪些?
  • 企业门户网站开发要多少钱网站怎么做谷歌推广
  • 徐州网站建设技术外包游戏代理怎么找渠道
  • 企业做网站分哪几种站长工具在线查询
  • php做的网站收录专业搜索引擎seo服务商
  • 做包装的网站网页生成器
  • 外贸网站怎样注册杭州排名优化公司
  • 站酷做网站营销策划案
  • 石家庄网站开发公司电话微商已经被国家定为传销了
  • 龙川县建设网站岳阳seo快速排名
  • 黄页网站怎么查目前引流最好的平台
  • 网站开发工具中的三剑客seo搜索优化费用
  • 如何高效率的建设网站如何把品牌推广出去
  • 淘宝店网站怎么做网络营销咨询公司
  • p2p网站做牛关键词爱站网
  • 网站设置超链接如何做好网络营销推广
  • 甘肃手机版建站系统价格广州品牌seo推广
  • 美乐乐 网站建设北京网站制作
  • 网站建设及 维护合同代写
  • 威海网站制作服务百度ocpc如何优化
  • 免费做微网站搜索引擎大全排名
  • 南宁建设公司网站百度人工客服电话
  • 网站子站建设自查报告宁波seo怎么推广
  • dw软件做网站个人网站规划书模板
  • 网站开发需要怎么做精准营销
  • 深圳分销网站设计公司营销型网站建设策划书