当前位置: 首页 > wzjs >正文

北海网站建设网seo01

北海网站建设网,seo01,珠海网站建设 金碟,led网站建设方案模板Scrapy框架 官网概念 Scrapy 是一个强大的 Python 网络爬虫框架。 最新版本学习 安装 pip install scrapy 使用 # 创建名称为myscrapy的爬虫项目 scrapy starpoject myscrapy # 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行…

Scrapy框架

官网概念

        Scrapy 是一个强大的 Python 网络爬虫框架。

        最新版本学习

安装

pip install scrapy

使用

# 创建名称为myscrapy的爬虫项目
scrapy starpoject myscrapy
# 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行的网址:http://quotes.toscrape.com
cd myscrapy/myscrapy/spider
scrapy genspider toscrape http://quotes.toscrape.com
# 运行cd到spiders目录下执行
scrapy crawl toscrape

常见命令

命令使用 -h(或者--help) 查看帮助示例描述
scrapyscrapy -h查看所有可用的Scrapy命令
scrapy startprojectscrapy startproject -h创建一个新的Scrapy项目
scrapy genspiderscrapy genspider -h在当前项目中生成一个新的爬虫
scrapy crawlscrapy crawl -h运行一个爬虫
scrapy checkscrapy check -h检查爬虫代码是否有错误
scrapy listscrapy list -h列出当前项目中所有可用的爬虫
scrapy editscrapy edit -h在编辑器中编辑爬虫(需配置EDITOR环境变量)
scrapy fetchscrapy fetch -h使用Scrapy下载器下载URL,并输出内容
scrapy viewscrapy view -h在浏览器中打开URL,查看Scrapy如何识别它
scrapy shellscrapy shell -h启动Scrapy shell,用于调试和测试选择器
scrapy parsescrapy parse -h解析给定的URL并使用处理它的爬虫
scrapy settingsscrapy settings -h获取Scrapy设置的值
scrapy runspiderscrapy runspider -h运行一个独立的爬虫Python文件,而无需创建项目
scrapy versionscrapy version -h显示Scrapy版本,结合-v显示可用的Python、Twisted和平台信息
scrapy benchscrapy bench -h运行基准测试(需安装scrapy-bench

示例

import scrapyclass ToscrapeSpider(scrapy.Spider):name = "toscrape"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]def parse(self, response):print("hello world")page = response.url.split("/")[-2]filename = f'quotes-{page}.html'with open(filename, 'wb') as f:f.write(response.body)

项目结构

myscrapy/scrapy.cfg            # 部署配置文件myscrapy/             # 项目的Python模块,您将从这里导入代码__init__.pyitems.py          # 项目定义文件middlewares.py    # 项目中间件文件pipelines.py      # 项目管道文件settings.py       # 项目设置文件spiders/          # 放置蜘蛛的目录__init__.pytoscrape.py   # 爬虫实际执行文件 从这里执行 scrapy crawl toscrape

scrapy shell

     官网概念:scrappyshell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python外壳。

配置

在scrapy.cfg下配置

[settings]
shell = bpython

常用方法

命令/方法说明示例
scrapy shell <url>启动Scrapy Shell并自动下载URL,生成response对象scrapy shell "https://example.com"
fetch(url)在Shell中重新下载指定URL,更新response对象(需先启动Shell)fetch("https://example.com/page2")
response.css() / .xpath()用CSS/XPath选择器提取数据(最常用)response.css("h1::text").get()
.get() / .getall()提取单个结果(字符串)或所有结果(列表)response.xpath("//a/@href").getall()
view(response)在浏览器中打开当前response,检查页面渲染效果view(response)
response.url / .status查看当前响应的URL和HTTP状态码print(response.status)
request.headers查看请求头信息(用于调试反爬)print(request.headers)
shelp()查看Shell内置帮助(列出所有可用对象和函数)shelp()
vars()查看当前Shell的全局变量(如responserequestcrawlervars()
from scrapy import Selector手动创建Selector对象解析文本(非实时请求时使用)

sel = Selector(text="<html>...</html>")

exit()退出exit()
http://www.dtcms.com/wzjs/466703.html

相关文章:

  • 四川省住房和城乡建设网站宣城网站seo
  • 巨野网站定制群排名优化软件
  • wordpress网站维护长尾关键词搜索网站
  • 网站建设公司如何开拓客户怎么推广销售
  • 做网站开发工资怎样品牌运营公司
  • 简约的网站怎么打广告宣传自己的产品
  • 医院网站 整站源码外链链接平台
  • 建设官方网站需要那些人员网站权重划分
  • 毕业设计代做网站推荐最有效的线下推广方式
  • 杭州网站设计公司联系亿企邦全国新冠疫苗接种率
  • 沈阳网站优化建设爱站网怎么使用
  • 网站建设设计公营销战略包括哪些方面
  • 厦门外贸商城网站建设会计培训班的费用是多少
  • 网站开通微信支付接口开发友情链接的形式有哪些
  • 康定网站建设品牌营销理论
  • 咸阳做网站开发公司哪家好私人做网站
  • 上海代办网站备案西安关键词优化平台
  • 网站建设氺金手指排名15快速建网站
  • 北京建设局网站最新疫情新闻100字
  • 个人网站电商怎么做网络科技公司骗了我36800
  • oa系统登录上海牛巨微seo
  • 杭州做销售去哪个网站好定制网站建设
  • 大德通网站建设新网站推广方案
  • 响应式网站可以做缩放图吗制作一个网站的全过程
  • 艾辰做网站百度推广后台登陆
  • 网站制作人员seo优化需要多少钱
  • 专门做艺术字的网站网络推广网站建设
  • 网络公司怎样推广网站会计培训班需要学多长时间
  • 开发公司资质查询上海搜索优化推广哪家强
  • 合肥网版制作电脑优化