当前位置: 首页 > wzjs >正文

微信商城开发报价神马搜索seo优化排名

微信商城开发报价,神马搜索seo优化排名,羽毛球赛事级别分类,网站广告布局日志 日志级别 DEBUG - 调试信息 INFO - 一般信息 WARNING - 警告信息 ERROR - 错误信息 CRITICAL - 严重错误 使用 settings中引入 # 设置日志级别 LOG_LEVEL INFO# 日志文件路径 log/ 需要提前建立 如果没有会报错No such file or directory: LOG_FILE ../log/…

日志

日志级别    

  • DEBUG - 调试信息

  • INFO - 一般信息

  • WARNING - 警告信息

  • ERROR - 错误信息

  • CRITICAL - 严重错误

使用

        settings中引入

# 设置日志级别
LOG_LEVEL = 'INFO'# 日志文件路径 log/ 需要提前建立 如果没有会报错No such file or directory:
LOG_FILE = '../log/scrapy-test.log'# 日志格式
LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'# 日志日期格式
LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'# 是否覆盖现有日志文件
LOG_FILE_APPEND = False
def parse(self, response):self.logger.debug('This is a debug message')self.logger.info('This is an info message')self.logger.warning('This is a warning')self.logger.error('This is an error')

日志格式

参数描述
%(asctime)s日志记录时间
%(name)s记录器名称 (通常是spider名称)
%(levelname)s日志级别 (DEBUG, INFO等)
%(message)s日志消息文本
%(pathname)s产生日志的源文件路径
%(filename)s文件名部分
%(module)s模块名部分
%(funcName)s函数名
%(lineno)d源代码行号
%(process)d进程ID
%(thread)d线程ID
%(threadName)s线程名称

异常

异常分类

  • CloseSpider - 主动关闭爬虫

  • DropItem - 丢弃 item

  • IgnoreRequest - 忽略请求

  • NotConfigured - 组件未配置

常见异常

异常类别异常类名触发场景典型处理方式使用示例
爬虫控制CloseSpider需要主动终止爬虫运行时记录日志后停止爬虫raise CloseSpider('达到最大页数')
NotConfigured组件缺少必要配置时跳过该组件加载raise NotConfigured('缺少API密钥')
数据处理DropItemItem数据不符合要求时丢弃该Item并记录raise DropItem('缺失必要字段')
ItemErrorItem处理过程中的通用错误根据具体子类处理raise ItemError('数据格式错误')
请求控制IgnoreRequest需要过滤特定请求时跳过该请求raise IgnoreRequest('黑名单域名')
RetryRequest需要重试请求时延迟后重新调度raise RetryRequest('服务不可用')
下载错误TimeoutError请求超时重试或记录failure.check(TimeoutError)
ConnectionError连接失败检查网络或重试except ConnectionError:
DNSLookupErrorDNS解析失败检查域名或重试failure.check(DNSLookupError)
响应处理HttpError非200状态码响应检查状态码处理raise HttpError(response)
ResponseNeverReceived未收到任何响应检查网络或重试failure.check(ResponseNeverReceived)

使用

import scrapy
import osfrom scrapy.exceptions import NotConfigured, CloseSpider# 异常测试
class TestExceptSpider(scrapy.Spider):def __init__(self):# 初始化为0self.item_count = 0name = "test_except"# 或者直接卸载头部的strt_url中 一样的 为什么知道这个方法  查看父类的spider 集成了 所以使用子类会自动覆盖父类相同方法def start_requests(self):# 获取当前目录的绝对路径current_dir = os.path.dirname(os.path.abspath(__file__))file_path = os.path.join(current_dir, 'test.html')# 替换反斜杠为正斜杠,并添加 file:/// 前缀file_url = 'file:///' + file_path.replace('\\', '/')# 使用http.request和request一样 使用request更多一些yield scrapy.http.Request(url=file_url, callback=self.parse)def parse(self, response):# 条件满足时停止爬虫if self.item_count >= 1000:raise CloseSpider('已达到1000条数据限制')# 组件配置检查class MyExtension:def __init__(self, api_key):if not api_key:raise NotConfigured('API key必须配置')
http://www.dtcms.com/wzjs/561004.html

相关文章:

  • 石家庄市城乡建设局网站做网站不花钱
  • wordpress熊掌号百度主动提交做seo网站 公司
  • 空间站做网站什么版本全球做的比较好的网站
  • 关于建立公司网站的申请厦门网站建设培训
  • 网站是指什么静态网页模板下载后怎么修改
  • 一比一高仿手表网站建筑工程网 装修
  • 能在线做英语题目的网站国际快递网站建设
  • 常州网站制作市场第八章 电子商务网站建设课件
  • 学校网站风格优秀网站案例
  • 网站框架有哪些免费企业查询
  • 外国手机网站设计做网站前端开发的必备软件
  • 网站建设上传图片不显示有利于seo的网站底部
  • 云服务器怎么做多个网站nike官网宣传片
  • 本地的天津网站建设实名网站审核中心
  • 大型网站建设服务公司做科技的网站
  • 海口网站制作设计公共资源交易中心招标公告
  • wordpress全站广告位中小微企业名录库查询
  • 图书馆网站建设目标上传空间网站
  • 太原网站开发定制昨天军事新闻最新消息
  • 如何在网上做自己的网站电影网页制作素材
  • 玩具网站建设策划行业网站
  • 从来没做过网站如何做阳江网站seo服务
  • 怎样提高网站收录90设计网站最便宜终身
  • 大气宽屏网站模板企业源码带后台wordpress版微信小程序群3
  • 中国做出口的网站平台电子商务的网站建设设计书
  • 山东华泰建设集团有限公司官方网站做房地产自己要花钱开网站
  • 丽江手机网站建设wordpress 个人资料
  • 网站建设需要注意哪些细节推广优化工具
  • 佛山外贸网站建设资讯网站售后
  • 印度做网站需要备案吗定制开发app