当前位置: 首页 > wzjs >正文

做网站的公司都有哪些网站演示程序

做网站的公司都有哪些,网站演示程序,之前做的网站推广怎么删除,平面广告设计要学的软件No20: 网络爬虫开发:Scrapy框架详解 摘要 本文深入解析Scrapy核心架构,通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术,结合政府数据爬取与动态API逆向工程实战案例,构建企业级爬虫系统。…

No20: 网络爬虫开发:Scrapy框架详解

摘要

本文深入解析Scrapy核心架构,通过中间件链式处理布隆过滤器增量爬取Splash动态渲染分布式指纹策略四大核心技术,结合政府数据爬取与动态API逆向工程实战案例,构建企业级爬虫系统。提供完整代码与运行结果,包含法律合规设计与反爬对抗方案。


Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

在这里插入图片描述

运行环境与依赖说明

# 环境要求
Python 3.8+
Redis 6.0+ (分布式场景)# 依赖安装
pip install scrapy==2.8.0 scrapy-splash==0.9.0 scrapy-redis==0.7.2
pip install redis==4.5.5 requests==2.31.0 beautifulsoup4==4.12.2

核心概念与实战代码

1. 中间件链式处理机制

核心逻辑:通过process_requestprocess_response实现请求/响应预处理

# 中间件实现示例:随机User-Agent
class RandomUserAgentMiddleware:def __init__(self):self.user_agents = ["Mozilla/5.0 (Windows NT 10.0...)","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15...)"]def process_request(self, request, spider):request.headers['User-Agent'] = random.choice(self.user_agents)spider.logger.info(f"Using User-Agent: {request.headers['User-Agent']}")# settings.py配置
DOWNLOADER_MIDDLEWARES = {'myproject.middlewares.RandomUserAgentMiddleware': 543,
}

输出日志

[scrapy.core.engine] INFO: Using User-Agent: Mozilla/5.0 (Windows NT 10.0...

2. 增量爬取与布隆过滤器

实现方案:基于Scrapy-Redis的BloomFilter去重

# 布隆过滤器配置(settings.py)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.BloomFilter"
REDIS_URL = 'redis://localhost:6379'# 启动爬虫(保留历史指纹)
scrapy crawl gov_spider -s SCHEDULER_PERSIST=True

运行效果

[scrapy_redis.scheduler] INFO: Resuming crawl (5678 requests scheduled)

3. Splash渲染与自动代理池

动态页面处理:集成Splash渲染JavaScript

# 使用SplashRequest爬取动态页面
import scrapy
from scrapy_splash import SplashRequestclass DynamicSpider(scrapy.Spider):name = 'dynamic_spider'def start_requests(self):yield SplashRequest(url="https://example.com/ajax-page",callback=self.parse,args={'wait': 2})def parse(self, response):yield {'content': response.xpath('//div[@class="dynamic-content"]/text()').get()}

输出结果

{'content': '这是动态加载的内容'}

4. 分布式爬虫指纹策略

分布式架构:通过Redis共享指纹和队列

# 分布式配置(settings.py)
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.FifoQueue'
REDIS_HOST = '192.168.1.100'

运行命令

# 在多台机器上启动
scrapy runspider myspider.py -a slave_id=1
scrapy runspider myspider.py -a slave_id=2

在这里插入图片描述

实战案例

案例1:政府公开数据结构化爬取

目标:爬取国家统计局季度GDP数据

# items.py定义结构
class GovDataItem(scrapy.Item):quarter = scrapy.Field()gdp = scrapy.Field()growth_rate = scrapy.Field()# spiders/gov_spider.py
class GovSpider(scrapy.Spider):name = 'gov_spider'start_urls = ['http://www.stats.gov.cn/tjsj/zxfb/']def parse(self, response):for row in response.css('table.data-table tr'):yield GovDataItem({'quarter': row.xpath('td[1]/text()').get(),'gdp': row.xpath('td[2]/text()').get(),'growth_rate': row.xpath('td[3]/text()').get()})

输出示例

[{"quarter": "2023-Q1", "gdp": "284997", "growth_rate": "4.5%"},{"quarter": "2023-Q2", "gdp": "308038", "growth_rate": "6.3%"}
]

案例2:动态API逆向工程

目标:破解某电商商品列表加密参数

# 逆向分析加密参数
import requests
from bs4 import BeautifulSoupdef get_token():response = requests.get('https://api.example.com/init')soup = BeautifulSoup(response.text, 'html.parser')return soup.find('script')['data-token']# 在Scrapy中使用
class ApiSpider(scrapy.Spider):def parse(self, response):token = get_token()yield scrapy.FormRequest(url="https://api.example.com/data",formdata={'token': token, 'page': '1'},callback=self.parse_data)

响应示例

{"data": [{"id": 1001, "name": "智能手机", "price": 2999},{"id": 1002, "name": "笔记本电脑", "price": 8999}]
}

扩展思考

1. 法律合规设计

# robots.txt遵守中间件
class RobotsTxtMiddleware:def process_request(self, request, spider):if not spider.allowed_domains:return# 校验robots协议rp = RobotFileParser()rp.set_url(f"http://{spider.allowed_domains[0]}/robots.txt")rp.read()if not rp.can_fetch("*", request.url):spider.logger.warning(f"Blocked by robots.txt: {request.url}")return scrapy.Request(url=request.url, dont_filter=True, callback=lambda _: None)

2. 反爬虫对抗测试框架

测试方案:模拟IP封禁、验证码场景

# 使用Selenium测试反爬
from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
driver.get("https://example.com/protected-page")# 检测是否出现验证码
if "验证码" in driver.page_source:print("触发验证码防护")# 调用第三方验证码识别APIcaptcha = solve_captcha(driver.find_element(By.ID, "captcha-img"))driver.find_element(By.ID, "captcha-input").send_keys(captcha)

总结

本文构建了完整的Scrapy技术体系:

  1. 中间件系统:实现请求指纹管理、动态渲染、代理切换
  2. 增量机制:通过Redis+BloomFilter实现百亿级URL去重
  3. 合规设计:内置robots协议校验与速率限制
  4. 分布式扩展:支持跨服务器协同爬取

📌 实战建议:

  • 优先使用scrapy shell调试Selector
  • 动态页面优先尝试逆向API而非直接渲染
  • 企业级项目建议结合Scrapy-Redis+Gerapy分布式部署

相关阅读:No19-时间序列预测 | No21-微服务架构设计


文章转载自:

http://ymzsF9z8.rkqzx.cn
http://P9Nodnay.rkqzx.cn
http://Bhx5kX1U.rkqzx.cn
http://7Qp4pRuL.rkqzx.cn
http://KR58qtB1.rkqzx.cn
http://jvmwmD4t.rkqzx.cn
http://P4E5WicN.rkqzx.cn
http://Z2aTmI3H.rkqzx.cn
http://oEDRFqZB.rkqzx.cn
http://lrKzb4CH.rkqzx.cn
http://ogHdYr5t.rkqzx.cn
http://A0dTRTyt.rkqzx.cn
http://LuJuAr64.rkqzx.cn
http://HSJf33fV.rkqzx.cn
http://uFCz5GOS.rkqzx.cn
http://YUAzEJCR.rkqzx.cn
http://0GSyvsAB.rkqzx.cn
http://hODFwvKk.rkqzx.cn
http://Gk90cBbq.rkqzx.cn
http://aEEAaXKF.rkqzx.cn
http://xKOvpgeg.rkqzx.cn
http://y9pAgC9s.rkqzx.cn
http://CSaYdL43.rkqzx.cn
http://qaMIO66u.rkqzx.cn
http://yWvsfn1m.rkqzx.cn
http://y4EyPaLF.rkqzx.cn
http://R1PPlXeD.rkqzx.cn
http://XT6rpcGX.rkqzx.cn
http://ejr8p2ab.rkqzx.cn
http://v6kgMjLy.rkqzx.cn
http://www.dtcms.com/wzjs/779449.html

相关文章:

  • 浙江住建局官方网站python做网站设计
  • 网站开发简介广西城市建设学校学生网站
  • 企业网站cms平台网站应该怎样做seo
  • 什么网站程序好静态网站如何做自适应移动端
  • 大连制作网站软件免费代理ip的网站
  • 厦门网站建设哪家专业东莞百度seo排名
  • 不会做网站专业的佛山网站建设价格
  • 广东海外建设监理有限公司网站公众号运营策划书
  • 做淘宝美工的网站苏州网站建设kgu
  • 网站建设公司内幕互联网营销培训班 考证
  • 专业制作企业网站wap网站部署
  • thinkphp制作网站开发wordpress quiz
  • python可以做网站京东网上购物平台
  • 南宁建站模板厂家网件路由器做网站
  • 从化建网站电子商务公司设计网站建设
  • 关键词指数查询网站建设要哪些seo
  • 申请个人主页网站地址怎么敲代码做网站
  • 友点企业网站管理系统 模板wordpress get option
  • 未备案网站查询电商网站设计实训总结报告
  • 图书馆网站建设策划汽车配件响应式网站
  • 网站版面的图文是怎么做的在线免费视频网站推广
  • 自助建站平台设计器网址经营是什么
  • 福州网站制作哪里好网站开发工具 售价
  • 专业的高密做网站的大学生活动网站开发文案
  • 网站建设外包发展情况百度竞价推广的技巧
  • 推广 广州网站建设公司阿里巴巴法拍房官网
  • 网站小空间麻花星空影视传媒制作公司网站
  • 2狠狠做网站怎么做企业营销型网站
  • 百度 特定网站搜索wordpress iis速度慢
  • 厦门找一家做网站的公司好四川建设厅证件查询