当前位置: 首页 > news >正文

做的好的淘宝客网站网站建设的技能有哪些方面

做的好的淘宝客网站,网站建设的技能有哪些方面,公司网站建设需要要求什么软件,网站如何调用数据库Scrapy框架 官网概念 Scrapy 是一个强大的 Python 网络爬虫框架。 最新版本学习 安装 pip install scrapy 使用 # 创建名称为myscrapy的爬虫项目 scrapy starpoject myscrapy # 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行…

Scrapy框架

官网概念

        Scrapy 是一个强大的 Python 网络爬虫框架。

        最新版本学习

安装

pip install scrapy

使用

# 创建名称为myscrapy的爬虫项目
scrapy starpoject myscrapy
# 创建爬那个 就是比如 需要爬http://quotes.toscrape.com 运行的名称:toscrape运行的网址:http://quotes.toscrape.com
cd myscrapy/myscrapy/spider
scrapy genspider toscrape http://quotes.toscrape.com
# 运行cd到spiders目录下执行
scrapy crawl toscrape

常见命令

命令使用 -h(或者--help) 查看帮助示例描述
scrapyscrapy -h查看所有可用的Scrapy命令
scrapy startprojectscrapy startproject -h创建一个新的Scrapy项目
scrapy genspiderscrapy genspider -h在当前项目中生成一个新的爬虫
scrapy crawlscrapy crawl -h运行一个爬虫
scrapy checkscrapy check -h检查爬虫代码是否有错误
scrapy listscrapy list -h列出当前项目中所有可用的爬虫
scrapy editscrapy edit -h在编辑器中编辑爬虫(需配置EDITOR环境变量)
scrapy fetchscrapy fetch -h使用Scrapy下载器下载URL,并输出内容
scrapy viewscrapy view -h在浏览器中打开URL,查看Scrapy如何识别它
scrapy shellscrapy shell -h启动Scrapy shell,用于调试和测试选择器
scrapy parsescrapy parse -h解析给定的URL并使用处理它的爬虫
scrapy settingsscrapy settings -h获取Scrapy设置的值
scrapy runspiderscrapy runspider -h运行一个独立的爬虫Python文件,而无需创建项目
scrapy versionscrapy version -h显示Scrapy版本,结合-v显示可用的Python、Twisted和平台信息
scrapy benchscrapy bench -h运行基准测试(需安装scrapy-bench

示例

import scrapyclass ToscrapeSpider(scrapy.Spider):name = "toscrape"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]def parse(self, response):print("hello world")page = response.url.split("/")[-2]filename = f'quotes-{page}.html'with open(filename, 'wb') as f:f.write(response.body)

项目结构

myscrapy/scrapy.cfg            # 部署配置文件myscrapy/             # 项目的Python模块,您将从这里导入代码__init__.pyitems.py          # 项目定义文件middlewares.py    # 项目中间件文件pipelines.py      # 项目管道文件settings.py       # 项目设置文件spiders/          # 放置蜘蛛的目录__init__.pytoscrape.py   # 爬虫实际执行文件 从这里执行 scrapy crawl toscrape

scrapy shell

     官网概念:scrappyshell是一个交互式shell,您可以在其中快速调试 scrape 代码,而不必运行spider。它本来是用来测试数据提取代码的,但实际上您可以使用它来测试任何类型的代码,因为它也是一个常规的Python外壳。

配置

在scrapy.cfg下配置

[settings]
shell = bpython

常用方法

命令/方法说明示例
scrapy shell <url>启动Scrapy Shell并自动下载URL,生成response对象scrapy shell "https://example.com"
fetch(url)在Shell中重新下载指定URL,更新response对象(需先启动Shell)fetch("https://example.com/page2")
response.css() / .xpath()用CSS/XPath选择器提取数据(最常用)response.css("h1::text").get()
.get() / .getall()提取单个结果(字符串)或所有结果(列表)response.xpath("//a/@href").getall()
view(response)在浏览器中打开当前response,检查页面渲染效果view(response)
response.url / .status查看当前响应的URL和HTTP状态码print(response.status)
request.headers查看请求头信息(用于调试反爬)print(request.headers)
shelp()查看Shell内置帮助(列出所有可用对象和函数)shelp()
vars()查看当前Shell的全局变量(如responserequestcrawlervars()
from scrapy import Selector手动创建Selector对象解析文本(非实时请求时使用)

sel = Selector(text="<html>...</html>")

exit()退出exit()
http://www.dtcms.com/a/436648.html

相关文章:

  • 贷款网站模版wordpress 如何迁移
  • 蒙文网站建设情况汇报网站建设网址导航网
  • 网络教育做的好的网站举一个网络营销的例子
  • dede网站怎么做单页面网络营销的具体措施
  • 微信无法分享wordpress广元网站建设优化
  • 设计网站公司哪里好厦门 网站建设公司
  • 深圳做网站多少费用市场推广工作内容
  • 淘客怎么样做网站网页版传奇合击版
  • 青岛做网站多少钱wordpress文章分类统计
  • 网站开发及推广是怎么回事沈阳网络教育
  • win2008怎么做网站wordpress 外部链接跳转
  • 移动网站开发语言河源市做网站
  • 建站开发公司网站域名如何申请
  • 网站建设平台市场泰安网站建设哪家专业
  • 园林设计网站大全昆明电子商务网站
  • 如何在百度上建立自己的网站做网站公司大连
  • 企业网官方网站陕西做网站找谁
  • 网站建设顶部图片html做的网站
  • 上海推广网站公司华为官方商城网站建设方案
  • 网站素材库免费wordpress织梦主题
  • 怎么能自己创建网站建设一个征婚网站的程序
  • 网站开发 在线支付seo的中文含义
  • 信用徐州网站建设情况外发加工网官网
  • 沧州大型网站建设网页版梦幻西游手游官网
  • 万网怎样做网站调试外链代发工具
  • 杭州网站建设公司电话c2c电商网站有哪些
  • 前端做网站兰州市网络设计方案
  • 做厨柜有招聘网站吗百度指数首页
  • 自己做电影网站上海高档网站建设
  • 厦门网站建设代理武安市城乡建设局网站