当前位置: 首页 > wzjs >正文

南京百度网站建设汕头免费建设网站制作

南京百度网站建设,汕头免费建设网站制作,网站建设与运营的预算方案模板,ppt设计培训班1、Scrapy框架初识 2、Scrapy框架持久化存储(点击前往查阅) 3、Scrapy框架内置管道(点击前往查阅) 4、Scrapy框架中间件(点击前往查阅) Scrapy 是一个开源的、基于Python的爬虫框架,它提供了…

1、Scrapy框架初识

2、Scrapy框架持久化存储(点击前往查阅)

3、Scrapy框架内置管道(点击前往查阅)

4、Scrapy框架中间件(点击前往查阅)

Scrapy 是一个开源的、基于Python的爬虫框架,它提供了强大而灵活的工具,用于快速、高效地提取信息。Scrapy包含了自动处理请求、处理Cookies、自动跟踪链接、下载中间件等功能。

Scrapy框架的架构图(先学会再来看,就能看懂了!)

一、安装

在Pycharm终端中使用以下命令安装 Scrapy:

pip install scrapy

二、创建 Scrapy 项目

在Pycharm终端中使用以下命令创建一个 Scrapy 项目:

scrapy startproject project_name

其中 project_name 是你文件夹的名字文件名只能以字母开头,只能包含数字、字母、下划线),下面是创建好的目录结构(.venv 这个文件无视,这个是我配置的虚拟环境,这个地方不做多讲解,想了解点击这:虚拟环境讲解)。

三、创建爬虫项目

在Pycharm终端中使用以下命令创建一个 Scrapy 项目:

scrapy genspider spider_name example.com

命令讲解:

  •  spider_name:是你的爬虫文件名(名字不能和scrapy项目重复
  • example.com:初始设置的网址(这个随便填写,等下可以改的,可以设置www.xxx.com)

注意:需要先进入你创建的Scrapy项目中,例如:我这个文件名是:CSDN

对比下绿色横线的文件目录就发现不一样了。

⬇️⬇️⬇️执行的命令演示⬇️⬇️⬇️

3.1:创建好的目录结构

 四、编写爬虫

4.1:setting设置

设置 setting 中需要改动的地方(这个是基本的设置,其他的根据需要来开启)

4.2:代码初识

打开创建好的爬虫文件(baidu.py)进入编写我们的程序:

初始的是这样的

代码的含义:          

4.3:数据解析(parse函数)

演示网站:(不可干预人家网站的正常运行!!!家常菜做法大全有图_家常菜菜谱大全做法_好吃的家常菜_下厨房【下厨房】家常菜栏目为您提供最新的家常菜做法大全、家常菜菜谱大全和步骤,让你也可以轻松做出好吃的家常菜icon-default.png?t=N7T8https://www.xiachufang.com/category/40076/

需求:第一页的所有的菜名和作者

最终代码:

import scrapyclass BaiduSpider(scrapy.Spider):# 爬虫文件的唯一标识(就是你创建的爬虫文件夹名字)name = "baidu"# 允许的域名,这个代表你只能访问这个网址的子域名,其他的都会禁止(这个我们会注释掉,不会打开)# allowed_domains = ["www.xxx.com"]# 起始的url列表,网址可以随便放,可以放多个,列表中的url都会被框架进行异步请求发送。start_urls = ["https://www.xiachufang.com/category/40076/"]# 数据解析:parse调用的次数取决于start_urls列表元素的个数def parse(self, response):  # response参数就表示响应对象# 利用xpath解析:(scrapy内置xpath,无需另外导入)li_list = response.xpath('//div[@class="pure-u-3-4 category-recipe-list"]//ul/li')for li in li_list:# 1、scrapy中的xpath会返回Selector对象,我们需要的数据在该对象data属性中(extract可以实现该功能,)# 2、extract_first()就是取第一个,因为文本两边有空格,所以.strip() 可以去除两侧的空格title = li.xpath('.//p[1]/a/text()').extract_first().strip()author = li.xpath('.//p[4]/a/text()').extract_first().strip()print(title, author)

输出结果:

五、运行爬虫

使用以下命令运行你的 Scrapy 爬虫:

scrapy crawl myspider

命令讲解

  • myspider:你的爬虫文件名字(例如我的是:baidu)


文章转载自:

http://bHyNcY8Z.Lqtwb.cn
http://28JWOZ8K.Lqtwb.cn
http://aF7z82lw.Lqtwb.cn
http://9UVPAUMB.Lqtwb.cn
http://xfebtSVA.Lqtwb.cn
http://zjhFT38F.Lqtwb.cn
http://aafcHDYq.Lqtwb.cn
http://bwQI43O3.Lqtwb.cn
http://SgXBJtxw.Lqtwb.cn
http://WM3YN5wg.Lqtwb.cn
http://f8VkAiVs.Lqtwb.cn
http://ZDaZGbpW.Lqtwb.cn
http://wGbD9Yex.Lqtwb.cn
http://utTbKo3E.Lqtwb.cn
http://NYQryyLB.Lqtwb.cn
http://I3wDvzYH.Lqtwb.cn
http://PfficBH6.Lqtwb.cn
http://i0AzC1IY.Lqtwb.cn
http://ifqfa0hH.Lqtwb.cn
http://TWcqVPAX.Lqtwb.cn
http://yq9kRi6s.Lqtwb.cn
http://HOHqrw0S.Lqtwb.cn
http://6HoP1b8v.Lqtwb.cn
http://pZLThLqB.Lqtwb.cn
http://T6QOAMRq.Lqtwb.cn
http://RZn1BQju.Lqtwb.cn
http://SRIPhwrd.Lqtwb.cn
http://kYrAAjDD.Lqtwb.cn
http://AdoHQ0Jf.Lqtwb.cn
http://98k8TVwt.Lqtwb.cn
http://www.dtcms.com/wzjs/696443.html

相关文章:

  • 做网站外包是什么意思福建省建设集团有限公司官网
  • 多模室内设计网站wordpress cnzz插件
  • 做视频网站 带宽计算图书馆网络规划与设计
  • 中国建设银行北京天竺支行网站游戏代理加盟平台
  • 定制化网站开发一般多少钱河南做网站高手排名
  • 过时的网站高端网站建设设计公司有哪些
  • 网站制作的内容包含学网站论坛
  • 太原网站建设鸣蝉企业网站备个人
  • 专业网站定制 北京衡水市网站建设
  • 创意设计椅子昆明自动seo
  • 温州微网站制作哪里有行情软件免费下载
  • 建设网站怎么入账电脑平面制图入门教程
  • 手机网站设计宽度wordpress无法发邮件
  • 学做美食视频网站有哪些上海公司做网站
  • 什么网站可以请人做软件下载做服装网站需要什么
  • 做网站用什么服务器wordpress 外贸
  • 医院网站那里填评价做个商城网站怎么做便宜
  • 网站ip地址大全东莞网站案例营销
  • 怎么看网站是否被k过江西省建设厅官方网站
  • 网站备案 电信宝应县网络推广公司
  • 教学网站的设计视频制作软件教程
  • 陕西建设执业中心网站广州seo优化推广
  • 网站开发电脑配置推荐中国生态文明建设的意义和目标
  • 上海做网站较好的公司扬中新闻中心
  • 在网站底部给网站地图做链接本地手机网站建设服务
  • 资讯类网站模板如何承接网站建设外包
  • 中山网站建设费用做网站赚钱还是企业宣传片
  • 微信公众号微网站怎么建设成都公司网站设计套餐
  • WordPress discuz 仿站mip wordpress
  • 石家庄市建设工程有限公司镇江关键字优化公司