当前位置: 首页 > wzjs >正文

可做商业用途的图片网站危机公关

可做商业用途的图片网站,危机公关,比较著名的网站用javaweb做的,香港私服网站大全一、安装Scrapy框架 pip install scrapy 二、 创建scrapy框架默认目录 scrapy startproject tutorial #tutorial为你的项目的名称 该炒作会为您自动创建项目目录 三、项目目录介绍 tutorial/scrapy.cfg # deploy configuration filetutorial/ # p…

一、安装Scrapy框架

pip install scrapy

二、 创建scrapy框架默认目录

scrapy startproject tutorial
#tutorial为你的项目的名称

该炒作会为您自动创建项目目录

三、项目目录介绍

tutorial/scrapy.cfg            # deploy configuration filetutorial/             # project's Python module, you'll import your code from here__init__.pyitems.py          # project items definition filemiddlewares.py    # project middlewares filepipelines.py      # project pipelines filesettings.py       # project settings filespiders/          # a directory where you'll later put your spiders__init__.py

四、先从第一只爬虫开始吧

爬虫用来定义爬取网站和相应结果处理是在Spider类定义的初始请求,我们开始第一次爬取数据新建一个文件在 tutorial/spiders 下的quotes_spider.py 

import scrapyclass QuotesSpider(scrapy.Spider):#标记爬虫程序,他在项目是唯一的,不同的爬行器用不同的名称name = "quotes"#该方法必须返回一个请求的可迭代数据,爬虫会从第一个数据开始爬取def start_requests(self):urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]for url in urls:yield scrapy.Request(url=url, callback=self.parse)#在每一个请求成功后处理相应数据的方法Response参数是 TextResponse 它保存页面内容def parse(self, response):page = response.url.split("/")[-2]filename = f'quotes-{page}.html'with open(filename, 'wb') as f:f.write(response.body)self.log(f'Saved file {filename}')

如何运行我们的爬虫代码呢?

跳转到项目顶级目录下运行:

scrapy crawl quotes
#quotes为爬虫文件的名称

代码会生成两个文件,类似于这样:、

这种方式可能不是那么快捷,有些操作是没有必要的,我们可以直接这样写

from pathlib import Pathimport scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"#变量名为start_urls  会默认实现start_requests方法,无需书写该方法start_urls  = ["https://quotes.toscrape.com/page/1/","https://quotes.toscrape.com/page/2/",]def parse(self, response):page = response.url.split("/")[-2]filename = f"quotes-{page}.html"with open(filename, 'wb') as f:f.write(response.body)

个人理解就是省却了写一个方法通过命名变量的方式来默认实现 start_urls  方法

五、提取数据

最好的学习方式是使用shell进行学习

在终端上运行:

scrapy shell "http://quotes.toscrape.com/page/1/"

 你可以看到这样的结果:

http://www.dtcms.com/wzjs/323793.html

相关文章:

  • 小程序网站建设最近三天的国际新闻大事
  • java做网站有什么优势手机百度官网
  • 国外网站导航域名交易
  • 网站建设中html中关于图片显示的标签有哪些网页设计学生作业模板
  • 山东省专业群建设网站百度助手app下载安装
  • 公司网站优化网站建设问一问公司
  • 定制鞋子哪个网站好镇江网站建设方案
  • 建设网站模式今日热搜
  • 买网站模板百度推广售后客服电话
  • 美国网站服务器百度链接收录
  • 上海杨浦区网站建设百度营销客户端
  • 用织梦软件如何做网站培训
  • java怎么做网站流量统计关键词优化靠谱推荐
  • 湖南省郴州市永兴县邮政编码优化营商环境条例心得体会
  • 做游戏的网站有哪些win7系统优化大师
  • 手机做网站对比路由器做网站百度识图搜索网页版
  • 做网站需要哪些框架头条新闻今日头条官方版本
  • 域名备案怎么注销seo公司 引擎
  • 收到网站代码后怎么做网站推广的四个阶段
  • iis5.1发布网站友情链接购买
  • wordpress彩色标签云设置方法站内seo的技巧
  • 做淘宝设计能做网站吗如何查看一个网站的访问量
  • 乐清网站推广seo知名公司
  • 网站死链怎么办宁波seo怎么做推广渠道
  • 正规网站制作公司哪家好廊坊关键词优化报价
  • 西安哪些做网站的公司好如何在百度上投放广告
  • 做网站杭州镇江网络
  • 受欢迎的徐州网站建设重庆人社培训网
  • 手机网站建设广告推销网站
  • 重庆工程招标投标交易信息网seo点击排名