当前位置: 首页 > wzjs >正文

注册了域名之后如何建立一个网站企业建站系统cms

注册了域名之后如何建立一个网站,企业建站系统cms,wordpress 设计套程序,长沙seo优化公司Scrapy框架的概念与执行流程 简介 学习Scrapy的原因 1、Scrapy不能解决剩下的10%的爬虫需求 2、能够让开发过程方便、快速 3、Scrapy框架能够让我们的爬虫效率更高 什么是Scrapy 文档地址: 中文:https://www.osgeo.cn/scrapy/ 英文:https://docs.scrapy.org/en/latest…

Scrapy框架的概念与执行流程

简介

学习Scrapy的原因

1、Scrapy不能解决剩下的10%的爬虫需求
2、能够让开发过程方便、快速
3、Scrapy框架能够让我们的爬虫效率更高

什么是Scrapy

文档地址:

中文:https://www.osgeo.cn/scrapy/
英文:https://docs.scrapy.org/en/latest/

Scrapy使用了Twisted['twistid']异步网络框架、可以加快我们的下载速度
Scrapy是一个为了爬虫网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取

异步与非阻塞的区别

使用Scrapy

scrapy startproject my_spiderscrapy genspider baidu baidu.com运行Scrapy脚本,要在根目录下
scrapy crawl baidu

案例 - 抓取蜻蜓FM

scrapy startproject fm
cd fm
scrapy genspider qingting https://m.qingting.fm/rank/
cd fm # 切换到有spiders的目录
scrapy crawl qingting # 运行

通过cmdline来快速启动

from scrapy import cmdline
pass
if __name__ == '__main__':cmdline.execute("scrapy crawl qingting".split())

解析函数中的yield能够传递的对象只能是:BaseItemRequestdictNone

执行流程

Spiders(类) -> requests(对象) -> ScrapyEngine(引擎) -> Scheduler(队列)[ request, request, request ] -> Downloader(下载器) -> 返回给引擎 -> 提交给Spider -> 执行parse函数
SpiderMiddlewares(过滤和发送请求之前 可以运行的代码)
DownloaderMiddlewares( 下载器中间件 )
Item( 数据校验 )
Pipeline( 数据保存 )

使用scrapy进行爬虫

案例 - 蜻蜓FM

qingting.py

import scrapy
from scrapy import cmdline
from scrapy.http import HtmlResponseclass QingtingSpider(scrapy.Spider):name = "qingting"allowed_domains = ["m.qingting.fm", "pic.qtfm.cn"]start_urls = ["https://m.qingting.fm/rank/"]def parse(self, response, **kwargs):a_list = response.xpath('//div[@class="rank-list"]/a')# print(a_list)for a_temp in a_list:rank_number = a_temp.xpath('./div[@class="badge"]/text()').extract_first()title = a_temp.xpath('.//div[@class="title"]/text()').extract_first()rank_desc = a_temp.xpath('.//div[@class="desc"]/text()').extract_first()img_url = a_temp.xpath('./img/@src').extract_first()# print(rank_number, title, rank_desc, img_url)yield {'type' : 'info','rank_number' : rank_number,'title' : title,'img_url' : img_url,'desc' : rank_desc}# 需要在parse函数中 重新构建一个新的request对象并对图片地址发送请求# 如果解析函数中存在自定义形参 则 需要cb_kwargs进行传参,key值必须和形参名相同yield scrapy.Request(img_url, callback=self.image_parse, cb_kwargs={'image_name' : title})# 图片解析函数@staticmethoddef image_parse(response: HtmlResponse, image_name):yield{'type' : 'image','image_name' : image_name+'.jpg','image_content' : response.body,}if __name__ == '__main__':cmdline.execute("scrapy crawl qingting".split())

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# useful for handling different item types with a single interface
from itemadapter import ItemAdapterimport os
import pymongoclass FmPipeline:def process_item(self, item, spider):# 1. 获取yieldtype = item.get('type')if type == 'image':download_url = os.getcwd() + '/download/'if not os.path.exists(download_url):os.mkdir(download_url)image_name = item.get('image_name')

文章转载自:

http://WJXwMr9Y.bLfLL.cn
http://FzVinOs2.bLfLL.cn
http://ShhlG8SE.bLfLL.cn
http://HxVkfLdH.bLfLL.cn
http://2xyi5OXG.bLfLL.cn
http://xUBp845H.bLfLL.cn
http://wqZP7LE3.bLfLL.cn
http://ol1CzQ47.bLfLL.cn
http://kIJ9Bktl.bLfLL.cn
http://8L7Ewp6g.bLfLL.cn
http://yKnIYb7D.bLfLL.cn
http://09g1wVG5.bLfLL.cn
http://Sj5qDsGh.bLfLL.cn
http://VNZrD82c.bLfLL.cn
http://UEZbPaGI.bLfLL.cn
http://ImO8DNnU.bLfLL.cn
http://CyLyzDV5.bLfLL.cn
http://r8mlJ3VH.bLfLL.cn
http://qx0UXNHF.bLfLL.cn
http://JGnxtqqI.bLfLL.cn
http://6SYgJ9Gd.bLfLL.cn
http://FEmrHhx9.bLfLL.cn
http://LezGLchJ.bLfLL.cn
http://VeoN6ZOY.bLfLL.cn
http://upphtmrm.bLfLL.cn
http://l87Vsjtw.bLfLL.cn
http://gcbpKiJt.bLfLL.cn
http://vIzJzRvK.bLfLL.cn
http://aeaIL7HD.bLfLL.cn
http://ouA4P3XP.bLfLL.cn
http://www.dtcms.com/wzjs/644826.html

相关文章:

  • 网站建设网站制作有限厦门石材网站建设
  • 黔东南购物网站开发设计怎么做网站实惠
  • 响应式网站的好处机械厂网站建设方案
  • 食品类网站设计网站建站网站看看
  • div做网站排版广告公司设计
  • 可以做高中题目的网站如何做网站效果图
  • 网站建设中数据字典国外设计网站 绿色的
  • 二维码制作网站链接仿58同城分类信息网站源码
  • 深圳建网站 (报价)如何做网站seo
  • 如何做一个网站平台网站建设技能培训
  • 互联网网站建设公司做网站累吗
  • 如何看访问网站的dns标志设计公司网站
  • 工程信息网哪个好seo关键词优化排名哪家好
  • 合肥企业网站排名优化小程序开发费用分析
  • 网站安全代维北京网站建设公司 蓝纤科技 网络服务
  • 网站主机推荐定制制作网站哪家好
  • 杭州做网站hzfwwlwordpress ckeditor
  • 网站pv怎么统计word与wordpress
  • 说一说网站建设的含义wordpress小看板娘
  • 江西威乐建设集团有限公司企业网站手机网站建设规范
  • 科技公司网站响应式以下什么是常用的可视化网页制作工具
  • 西安有哪些网站建设外包公司好wordpress 修改头像大小
  • 西安做网站印象网络如何做网站页面
  • iis7如何部署网站如何搭建网站教程视频
  • 中学生设计的网站洋气的广告公司名字
  • 建设聚美优品网站收流量费吗房价下跌最惨10大城市
  • 成都网站设计得多少钱移动端网站的重要性
  • 关于icp备案信息中注销网站的通知找个可以直接看的网站
  • 免费企业网站程序asp成都搜索优化整站优化
  • 深圳做网站网络营销公司哪家好佛山自助建站软件