当前位置：首页 > news >正文

scrapy项目开发流程

news 2025/7/13 13:45:02

1.创建项目：

scrapy startproject mySpider

2.生成一个爬虫：

scrapy genspider itcast itcast.cn

3.提取数据：

根据网站结构在spider中实现数据采集相关内容

4.保存数据

使用pipeline进行数据后续处理和保存

1.创建项目

items.py-->自己预计需要爬取的内容

middlewares.py-->自定义中间件的文件

pipelines.py-->管道，保存数据

settings.py-->设置文件，UA，启动管道

spiders-->自己定义的spider的文件夹

2.创建爬虫

scrapy startproject <爬虫名字><允许爬取的域名>

itcast.py-->定义spider的文件

import scrapyclass ItcastSpider(scrapy.Spider):name = "itcast"allowed_domains = ["itcast.cn"]start_urls = ["https://itcast.cn"]def parse(self, response):#定义对于网站的相关操作pass

爬虫文件的介绍

三个参数

name allowed_domains start_urls(设置起始的url，请求会被自动的发送出去，然后返回parse方法做解析)

一个方法

parse方法 —— 解析方法，通常用于起始url对于响应的解析

运行爬虫需在爬虫项目路径下

scrapy crawl <爬虫名字>

查看全文

http://www.dtcms.com/a/276632.html

jQuery 头像裁剪实现

若依前后端分离Vue3版本接入阿里云OSS

GoC之汉诺塔绘制

JavaSE重点知识

【文献阅读】DEPTH PRO: SHARP MONOCULAR METRIC DEPTH IN LESS THAN A SECOND

【王树森推荐系统】行为序列02：DIN模型（注意力机制）

第10讲——一元函数积分学的几何应用

第八讲~~数据库技术

【InnoDB内存结构】缓冲池，变更缓冲区，自适应哈希索引，日志缓冲区

【项目】GraphRAG基于知识图谱的检索增强技术-实战入门

代码随想录算法训练营65期第17天

余电快速泄放电路

【InnoDB磁盘结构1】系统表空间，独立表空间，双写缓冲区

C语言基础知识--动态内存管理

贪心算法题解——划分字母区间【LeetCode】

操作系统—第三章内存管理

169. 多数元素

二分搜索（左程云）

【Docker基础】Dockerfile核心概念解析：什么是Dockerfile？与镜像、容器的关系

shiro550反序列化漏洞复现（附带docker源）

AV1比特流结构

zynq-PS篇——bperez77中DMA驱动注意事项

车载以太网-旁路配置

MyBatis基于XML配置详细使用指南

IMU姿态传感器

栈题解——最小栈【LeetCode】

学历一般，基础一般还有必要刷算法题吗

一种Φ325海底管道机械三通结构设计cad【1张】三维图＋设计说明书

python学习笔记【1】对字符串的处理

网络安全day1-2笔记

相关文章：