当前位置：首页 > wzjs >正文

国家住房部和城乡建设部网站首页百度网盘搜索引擎入口

wzjs 2025/7/22 12:54:55

国家住房部和城乡建设部网站首页,百度网盘搜索引擎入口,深圳网站开发设计公司排名,网站分享代码怎么加文章目录 Scrapy目录结构第一个爬虫运行爬虫必要说明start_requests()和start_urls如何关闭allowed_domains的限制通过前几节的学习，我们已经了解了Scrapy的基本操作，下面我们开始第一个项目，我以本人的网址为例进行爬虫讲解，之所以用我自己的网站，是因为我这个网站本来…

文章目录

Scrapy目录结构
第一个爬虫
运行爬虫
必要说明
- start_requests()和start_urls
- 如何关闭allowed_domains的限制

通过前几节的学习，我们已经了解了Scrapy的基本操作，下面我们开始第一个项目，我以本人的网址为例进行爬虫讲解，之所以用我自己的网站，是因为我这个网站本来就是做知识分享用的，共大家学习，不会去限制爬取，现在很多网站为了防止爬虫，都会做很多限制策略，不适合新手练习，本人就提供这样一个练习平台给大家。当然维护网站不易，如果你学到了知识，也请给作者一杯咖啡的钱谢谢🙏。
注：本教程的所有代码均在windows上完成的，其他系统文件路径或系统相关命令可以会有区别。

Scrapy目录结构

我们先回过头，再看下Scrapy目录结构，这次要说明的就不是根目录和项目目录的作用了，而是要对每个文件及目录进行下说明，开始编写我们的第一个爬虫。
首先使用命令创建爬虫项目，我的网站主要是做知识内容分享的，所以项目名称就叫KnowledgeSharing，使用命令创建如下

scrapy startproject KnowledgeSharing

爬取的网页就是首页，我们爬虫名就叫shouye，使用命令创建如下

cd KnowledgeSharing
scrapy genspider shouye www.jayhgq.cn

执行以上命令后，我们会得到以下目录，我在每个文件后面加了注释，解释这个文件的作用。

├─KnowledgeSharing  # 项目目录，即我说的根目录
│  │  scrapy.cfg  # 项目的主要配置信息，部署时从这个文件中查询配置
│  │
│  └─KnowledgeSharing  # 爬虫程序目录
│      │  items.py  # 数据存储模版文件，用于结构化数据
│      │  middlewares.py  # 中间件文件，用于编写爬虫中间件和下载器中间件
│      │  pipelines.py  # 数据处理文件，一般用来存储结构化后的数据
│      │  settings.py  # 配置文件，如设置请求头、递归层数等等，所有选项必须大写，否则无效
│      │  __init__.py  # 初始化文件，和python的__init__.py文件一样，用于将目录标记为包和包的初始化
│      │
│      ├─spiders  # 爬虫代码文件夹
│      │  │  shouye.py  # 刚刚创建的爬虫代码文件，用来编写爬虫规则
│      │  │  __init__.py  # 初始化文件

第一个爬虫

知道了Scrapy的目录结构，我们可以动手开始做我们的第一个爬虫了，从目录结构中能看到，爬虫规则是写在spiders文件夹下的爬虫代码文件中，刚创建的第一个爬虫代码文件叫shouye.py，我们打开这个文件，可以看到以下内容，同样我为代码加上了注释，一定要仔细看注释，不然后面可能有些内容会不清楚。

import scrapy  # 导入scrapy包# 爬虫类，类名一般是name+Spider，必须是Spider的子类，即需要继承Spider才能被Scrapy识别
class ShouyeSpider(scrapy.Spider):# 爬虫名称name，一个项目中名称需要保持唯一name = "shouye"# allowed_domains允许访问的域名列表，默认开启，只允许爬取该列表下的页面，可在settings.py的中间件中部分关闭allowed_domains = ["www.jayhgq.cn"]# 第一个请求的地址默认从start_urls中获取start_urls = ["https://www.jayhgq.cn"]# 默认回调函数parse，用来处理请求的响应response，可以在这里进行数据提取def parse(self, response):pass

以上是用scrapy的genspider命令自动生成的，但是这样我们执行什么都存储不下来，我们来做下简单的改动，如下

# 导入pathlib来处理文件路径等问题
from

查看全文

http://www.dtcms.com/wzjs/49824.html

如何做DJ网站厦门seo

怎样做易支付网站百度推广账号怎么申请

珠海网站设计多少钱网站优化排名公司哪家好

雅安工程交易建设网站免费推广平台哪些比较好

足球网站建设如何设置友情链接

户外运动网站模板郑州关键词网站优化排名

和人妖做的视频网站今日头条新闻大事

东莞品牌型网站建设价格查找关键词的工具叫什么

做短视频的网站收益google海外推广

淘宝网站做阳光棚多少钱一平米搜索引擎排名2021

网站标题前的小图标怎么做seo推广经验

网站建设服务中企动力推荐百度pc网页版登录入口

高端大气的综合性网站抖音搜索seo排名优化

什么网站做禽苗的多推广怎么推

做电影网站要买什么做引流推广的平台600

wordpress category order北京网站优化托管

仙居县建设规划局网站百度问答怎么赚钱

一个人免费观看在线高清国语产品优化是什么意思

国家企业信息公示网查询官网杭州seo推广服务

山西网站制作吉安seo

西安seo网站关键词最佳的资源搜索引擎

wordpress 标题搜索引擎推广与优化

海珠区pc端网站建设seo体系

网站建设难吗搜索引擎优化技术都有哪些

做视频网站需要什么资质竞价推广培训课程

青岛专业网站制作西安做网站

网站维护协议广州关于进一步优化疫情防控措施

为什么做网站还要续费企业qq官方下载

做网站用asp div代码seo研究所

网站站点怎么做广东seo点击排名软件哪里好

文章目录

Scrapy目录结构

第一个爬虫

相关文章：