scrapy项目开发流程
1.创建项目:
scrapy startproject mySpider
2.生成一个爬虫:
scrapy genspider itcast itcast.cn
3.提取数据:
根据网站结构在spider中实现数据采集相关内容
4.保存数据
使用pipeline进行数据后续处理和保存
1.创建项目
items.py-->自己预计需要爬取的内容
middlewares.py-->自定义中间件的文件
pipelines.py-->管道,保存数据
settings.py-->设置文件,UA,启动管道
spiders-->自己定义的spider的文件夹
2.创建爬虫
scrapy startproject <爬虫名字><允许爬取的域名>
itcast.py-->定义spider的文件
import scrapyclass ItcastSpider(scrapy.Spider):name = "itcast"allowed_domains = ["itcast.cn"]start_urls = ["https://itcast.cn"]def parse(self, response):#定义对于网站的相关操作pass
爬虫文件的介绍
三个参数
name allowed_domains start_urls(设置起始的url,请求会被自动的发送出去,然后 返回parse方法做解析)
一个方法
parse方法 —— 解析方法,通常用于起始url对于响应的解析
运行爬虫需在爬虫项目路径下
scrapy crawl <爬虫名字>