当前位置: 首页 > news >正文

南京做网站的客户电话河源城乡规划建设局网站

南京做网站的客户电话,河源城乡规划建设局网站,网站开发中遇到的主要问题,怎么制作网站域名Scrapy框架 官网概念 Scrapy 是一个强大的 Python 网络爬虫框架。 最新版本学习 安装 pip install scrapy 使用 # 创建名称为myscrapy的爬虫项目 scrapy starpoject myscrapy # 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行…

Scrapy框架

官网概念

        Scrapy 是一个强大的 Python 网络爬虫框架。

        最新版本学习

安装

pip install scrapy

使用

# 创建名称为myscrapy的爬虫项目
scrapy starpoject myscrapy
# 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行的网址:http://quotes.toscrape.com
cd myscrapy/myscrapy/spider
scrapy genspider toscrape http://quotes.toscrape.com
# 运行cd到spiders目录下执行
scrapy crawl toscrape

常见命令

命令使用 -h(或者--help) 查看帮助示例描述
scrapyscrapy -h查看所有可用的Scrapy命令
scrapy startprojectscrapy startproject -h创建一个新的Scrapy项目
scrapy genspiderscrapy genspider -h在当前项目中生成一个新的爬虫
scrapy crawlscrapy crawl -h运行一个爬虫
scrapy checkscrapy check -h检查爬虫代码是否有错误
scrapy listscrapy list -h列出当前项目中所有可用的爬虫
scrapy editscrapy edit -h在编辑器中编辑爬虫(需配置EDITOR环境变量)
scrapy fetchscrapy fetch -h使用Scrapy下载器下载URL,并输出内容
scrapy viewscrapy view -h在浏览器中打开URL,查看Scrapy如何识别它
scrapy shellscrapy shell -h启动Scrapy shell,用于调试和测试选择器
scrapy parsescrapy parse -h解析给定的URL并使用处理它的爬虫
scrapy settingsscrapy settings -h获取Scrapy设置的值
scrapy runspiderscrapy runspider -h运行一个独立的爬虫Python文件,而无需创建项目
scrapy versionscrapy version -h显示Scrapy版本,结合-v显示可用的Python、Twisted和平台信息
scrapy benchscrapy bench -h运行基准测试(需安装scrapy-bench

示例

import scrapyclass ToscrapeSpider(scrapy.Spider):name = "toscrape"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]def parse(self, response):print("hello world")page = response.url.split("/")[-2]filename = f'quotes-{page}.html'with open(filename, 'wb') as f:f.write(response.body)

项目结构

myscrapy/scrapy.cfg            # 部署配置文件myscrapy/             # 项目的Python模块,您将从这里导入代码__init__.pyitems.py          # 项目定义文件middlewares.py    # 项目中间件文件pipelines.py      # 项目管道文件settings.py       # 项目设置文件spiders/          # 放置蜘蛛的目录__init__.pytoscrape.py   # 爬虫实际执行文件 从这里执行 scrapy crawl toscrape

scrapy shell

     官网概念:scrappyshell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python外壳。

配置

在scrapy.cfg下配置

[settings]
shell = bpython

常用方法

命令/方法说明示例
scrapy shell <url>启动Scrapy Shell并自动下载URL,生成response对象scrapy shell "https://example.com"
fetch(url)在Shell中重新下载指定URL,更新response对象(需先启动Shell)fetch("https://example.com/page2")
response.css() / .xpath()用CSS/XPath选择器提取数据(最常用)response.css("h1::text").get()
.get() / .getall()提取单个结果(字符串)或所有结果(列表)response.xpath("//a/@href").getall()
view(response)在浏览器中打开当前response,检查页面渲染效果view(response)
response.url / .status查看当前响应的URL和HTTP状态码print(response.status)
request.headers查看请求头信息(用于调试反爬)print(request.headers)
shelp()查看Shell内置帮助(列出所有可用对象和函数)shelp()
vars()查看当前Shell的全局变量(如responserequestcrawlervars()
from scrapy import Selector手动创建Selector对象解析文本(非实时请求时使用)

sel = Selector(text="<html>...</html>")

exit()退出exit()
http://www.dtcms.com/a/484036.html

相关文章:

  • 任务推荐系统的本质:在规则的边界内做最优决策
  • 手机网站 自适应屏幕怎么运营网站
  • 潍坊网站制作软件微信对接网站
  • LangChain4J实战,高效速通
  • 万万州州微微网站网站建建设设做ppt图片网站 知乎
  • 20251014 区间DP总结
  • 商城系统网站模板免费下载浙江平台网站建设公司
  • html5:拖放 / demo / 拖放事件(Drag Events)/ DataTransfer 对象方法
  • 早期小软件与现代大软件的区别与发展问题
  • 图解网络(第二集)
  • 做外贸服装的网站微信如何引流推广精准加人
  • 多态:C++面向对象编程的“灵魂”所在
  • 大连网站快速排名提升深圳互联网公司网站
  • 建设银行广西分行网站做自媒体的网站有哪些
  • 楼市南京做凶宅的网站郑州营销网站建设公司
  • 搭建网站需要备案吗上海网站工作室
  • 学校网站建设计入哪个会计科目类似于wordpress的网站
  • 网站seo其应用买的网站模板怎么做
  • 【GESP】C++五级考试大纲知识点梳理, (3-4) 链表-双向循环链表
  • wordpress打开网站前广告怎样免费建设个人网站
  • 网站logo更换旅游做攻略用什么网站好
  • 天津黑曼巴网站建设无锡网站排名公司
  • 【鸿蒙5.0】Scroll左右滑动
  • 抢购网站源码dz门户 WordPress
  • 百度官方网站网址wordpress微博登陆
  • 团购网站 设计方案那些网站可以做行测题
  • Spring Boot中Spring Data JPA的常用注解
  • 02117 信息组织【第四章】
  • 做带会员后台的网站用什么软件建设工程信息网一体化平台
  • 做刷单网站违法吗win7 asp.net网站架设