当前位置: 首页 > news >正文

[爬虫知识] 深入理解多进程/多线程/协程的异步逻辑

相关爬虫实战案例:[爬虫实战] 多进程/多线程/协程-异步爬取豆瓣Top250

相关爬虫专栏:JS逆向爬虫实战  爬虫知识点合集  爬虫实战案例  逆向知识点合集


前言:

面对海量的目标数据,传统单线程、同步的爬取方式往往效率低下,不易采集大量数据。为了突破性能瓶颈,我们需要引入异步思想,利用多进程多线程协程这三大并发利器,将单车道拓宽成多车道,从而大幅提升爬虫的效率。

一、为什么需要异步?同步的痛点

想象一下,你用爬虫去访问一个网站,这个过程就像打电话。同步爬虫意味着你打一个电话,必须等到对方接通、说完了话、挂断电话后,你才能去打下一个电话。在这个等待过程中,你的程序(CPU)大部分时间都在空闲等待,等待网络响应(I/O 等待),而不是在处理数据。这就是I/O 密集型任务的痛点:计算资源没有得到充分利用。

异步逻辑的核心,就是让程序在等待一个任务(比如网络请求)完成的同时,能够去执行其他任务,从而提高资源的利用率,缩短总体的完成时间。

下面我们用一段测试代码来感受一下:

import time
import requestsdef fetch_sync(url):"""模拟同步网络请求"""print(f"开始同步请求: {url}")try:response = requests.get(url, timeout=5)time.sleep(1) # 模拟处理时间print(f"完成同步请求: {url}, 状态码: {response.status_code}")return len(response.text)except requests.exceptions.RequestException as e:print(f"请求失败: {url}, 错误: {e}")return 0if __name__ == "__main__":urls = ["http://www.baidu.com","http://www.qq.com","http://www.sina.com.cn"]start_time = time.time()for url in urls:fetch_sync(url)end_time = time.time()print(f"\n同步爬取总耗时: {end_time - start_time:.2f} 秒")

上述代码会逐个发起请求,一个请求未完成,下一个请求不会开始,导致总耗时是所有请求耗时之和。

二、多进程:分身术,真正的并行

工作原理

多进程是操作系统层面真正的并行。每个进程都有自己独立的内存空间,互不干扰,就像是你的多个“分身”,每个分身都在独立的电脑上工作。Python 的全局解释器锁(GIL) 限制了单个 Python 进程在任何给定时间只能执行一条 Python 字节码。但多进程能绕过 GIL,因为每个进程都有自己的 Python 解释器和 GIL,因此它们可以同时利用多核 CPU。

适用场景

  • CPU 密集型任务: 例如大数据处理、复杂计算、图像识别等,这些任务需要大量的 CPU 计算。

  • 数据独立、互不干扰的爬取任务: 当你需要爬取不同网站,或者网站的不同部分,且这些任务之间没有共享状态或复杂依赖时,多进程是理想选择。比如,同时爬取豆瓣电影 Top 250 的不同页,每页数据之间独立。

  • 规避网站反爬: 通过多进程配合代理 IP,可以分散请求来源,降低被封禁的风险。

优缺点

  • 优点: 真正的并行,能充分利用多核 CPU;隔离性强,一个进程崩溃通常不会影响其他进程;能规避 GIL 限制。

  • 缺点: 资源开销大,创建和管理进程的开销较大;进程间通信(如数据共享)相对复杂;不适合大量并发。

多进程爬取示例:

import time
import requests
import multiprocessing # 导入 multiprocessing 模块def fetch_multiprocess(url):"""模拟多进程网络请求"""print(f"进程 {multiprocessing.current_process().pid} 开始请求: {url}")try:response = requests.get(url, timeout=5)time.sleep(1) # 模拟处理时间print(f"进程 {multiprocessing.current_process().pid} 完成请求: {url}, 状态码: {response.status_code}")return len(response.text)except requests.exceptions.RequestException as e:print(f"进程 {multiprocessing.current_process().pid} 请求失败: {url}, 错误: {e}")return 0if __name__ == "__main__":urls = ["http://www.baidu.com","http://www.qq.com","http://www.sina.com.cn","http://www.google.com", # 注意:国内可能无法访问"http://www.douban.com"]start_time = time.time()# 创建一个进程池,通常进程数等于CPU核心数with multiprocessing.Pool(processes=3) as pool: # map函数将urls列表中的每个元素作为参数传递给fetch_multiprocess函数# 并行执行,等待所有结果返回results = pool.map(fetch_multiprocess, urls)end_time = time.time()print(f"\n多进程爬取总耗时: {end_time - start_time:.2f} 秒")print(f"获取到的数据长度列表: {results}")

 Pool 会启动多个进程,同时处理 urls 列表中的任务。你会看到不同进程ID同时打印“开始请求”和“完成请求”,总耗时会显著低于同步版本。

三、多线程:微操,I/O 并发的好手

工作原理

多线程是在同一个进程内创建多个执行流。它们共享进程的内存空间,但每个线程有自己的独立栈。在 Python 中,由于 GIL 的存在,多线程并不能实现真正的并行(即同时在多个 CPU 核心上运行 Python 代码)。GIL 确保在任何时候只有一个线程执行 Python 字节码。然而,当一个线程执行 I/O 操作(如网络请求、文件读写)时,GIL 会被释放,允许其他线程运行。因此,多线程非常适合 I/O 密集型任务。

适用场景

  • I/O 密集型任务: 爬虫就是典型的 I/O 密集型任务。在等待网络响应时,CPU 可以切换到其他线程去发起新的请求,或处理已返回的数据。

  • 任务间存在共享数据或资源: 线程共享内存,数据传递相对方便,但需要注意线程安全问题(例如,对共享数据进行加锁)。

优缺点

  • 优点: 资源开销小,创建和管理比进程轻量;数据共享相对方便;在等待 I/O 时能有效利用 CPU 时间,提高 I/O 并发效率。

  • 缺点: 受 GIL 限制,无法真正利用多核 CPU 并行计算;共享数据需加锁以避免竞态条件;稳定性相对较差,一个线程崩溃可能影响整个进程。

多线程爬取示例:

import time
import requests
import threading # 导入 threading 模块
from concurrent.futures import ThreadPoolExecutor # 更推荐使用线程池def fetch_multithread(url):"""模拟多线程网络请求"""print(f"线程 {threading.current_thread().name} 开始请求: {url}")try:response = requests.get(url, timeout=5)time.sleep(1) # 模拟处理时间print(f"线程 {threading.current_thread().name} 完成请求: {url}, 状态码: {response.status_code}")return len(response.text)except requests.exceptions.RequestException as e:print(f"线程 {threading.current_thread().name} 请求失败: {url}, 错误: {e}")return 0if __name__ == "__main__":urls = ["http://www.baidu.com","http://www.qq.com","http://www.sina.com.cn","http://www.google.com","http://www.douban.com"]start_time = time.time()# 创建一个线程池,max_workers定义最大同时运行的线程数with ThreadPoolExecutor(max_workers=5) as executor: # submit方法提交任务,返回Future对象# as_completed按任务完成的顺序返回Futurefutures = [executor.submit(fetch_multithread, url) for url in urls]results = [f.result() for f in futures] # 获取所有结果end_time = time.time()print(f"\n多线程爬取总耗时: {end_time - start_time:.2f} 秒")print(f"获取到的数据长度列表: {results}")

ThreadPoolExecutor 会管理线程的创建和复用,同时发起多个网络请求。虽然仍受 GIL 影响,但在 I/O 等待时 GIL 会释放,允许其他线程执行,因此对于网络爬虫这种 I/O 密集型任务,效率提升依然显著。

四、协程:轻量级调度,I/O 异步的极致

工作原理

协程(Coroutines)是一种用户态的轻量级线程,它不受 GIL 限制。协程的切换是由程序自身控制的,而非操作系统。当一个协程遇到 I/O 操作(如网络请求)时,它会主动让出 CPU 控制权,允许另一个协程运行,直到 I/O 操作完成。这个过程是非阻塞的,而且上下文切换的开销极小。Python 3.5+ 引入的 async/await 语法让协程的使用更加方便。

适用场景

  • 高并发 I/O 密集型任务: 爬虫、网络服务器等。当需要同时处理成千上万个网络请求时,协程的效率远超多线程。

  • 对响应时间敏感的任务: 协程的低开销切换能更快地响应 I/O 事件。

优缺点

  • 优点: 极高的并发能力和极低的开销;避免 GIL 限制,实现高效 I/O 并发;编码通过 async/await 语法更接近同步逻辑。

  • 缺点: 存在异步传染性,相关代码可能都需要是 async/await 风格;依赖支持异步的库(如 aiohttp);调试相对复杂。

协程爬取示例:

import time
import asyncio # 导入 asyncio 模块
import aiohttp # 导入异步HTTP客户端库,需要 pip install aiohttpasync def fetch_coroutine(url, session):"""模拟协程网络请求"""print(f"协程开始请求: {url}")try:async with session.get(url, timeout=5) as response: # 注意这里是 async withtext = await response.text() # await 等待I/O完成# await asyncio.sleep(1) # 模拟处理时间print(f"协程完成请求: {url}, 状态码: {response.status}")return len(text)except aiohttp.ClientError as e:print(f"协程请求失败: {url}, 错误: {e}")return 0async def main_coroutine():urls = ["http://www.baidu.com","http://www.qq.com","http://www.sina.com.cn","http://www.google.com","http://www.douban.com"]start_time = time.time()async with aiohttp.ClientSession() as session: # 创建一个异步会话tasks = []for url in urls:task = asyncio.create_task(fetch_coroutine(url, session)) # 创建并调度协程任务tasks.append(task)results = await asyncio.gather(*tasks) # 等待所有协程任务完成end_time = time.time()print(f"\n协程爬取总耗时: {end_time - start_time:.2f} 秒")print(f"获取到的数据长度列表: {results}")if __name__ == "__main__":asyncio.run(main_coroutine()) # 运行主协程

协程通过 async/await 语法,在 session.get()response.text() 等 I/O 操作时主动让出控制权,允许其他协程运行。asyncio.gather 会同时运行所有任务,并等待它们全部完成。这是最高效的 I/O 并发方式,尤其适合处理成千上万个并发请求。


总结与选择

特性/方案

多进程 (multiprocessing.Pool)

多线程 (ThreadPoolExecutor)

协程 (asyncio/aiohttp)

并行/并发

真正的并行 (CPU & I/O)

并发 (仅I/O,受GIL影响)

并发 (仅I/O,不受GIL影响)

GIL 影响

不受影响

限制并行

间接规避 (I/O 让出)

资源开销

中等

适用场景

CPU密集型,独立爬取任务

I/O密集型(网络请求),小规模并发

I/O密集型,高并发请求

编码复杂度

中等

中等 (需锁)

较高 (异步语法)

数据共享

复杂 (队列/管道)

需加锁 (共享内存)

简单 (单线程内)

在选择时:

  • 对于大多数爬虫任务(I/O 密集型)且追求极致效率: 协程是最高效、最推荐的方案,尤其在需要处理大量并发请求时。

  • 如果对异步编程不熟悉,且爬虫任务是 I/O 密集型: 多线程仍然是一个非常好的入门选择,它能有效提升效率。

  • 如果爬虫中包含大量数据解析、图片处理等 CPU 密集型任务,或者需要规避某些反爬机制: 多进程是更好的选择,它可以真正利用多核 CPU 资源。

在实际应用中,你也可以结合使用这些技术,例如:多进程 + 协程,即每个进程内再运行异步协程,以达到 CPU 并行和 I/O 并发的双重加速效果。理解它们的原理和适用场景,才能为你的爬虫选择最合适的武器,让数据获取变得更快、更高效。

http://www.dtcms.com/a/275708.html

相关文章:

  • 下载 | Win11 24H2 正式版更新!(ISO映像、年度更新版本、26100.4652、Windows 11)
  • STL——vector的底层实现C++
  • 安全初级作业1
  • 深入理解 QSettings:Qt 中的应用程序配置管理
  • PID控制算法理论学习基础——单级PID控制
  • 手机识别数据集,2628张原始图片,支持yolo,coco json,pasical voc xml等格式的标注
  • Web安全-Linux基础-02-系统基础命令
  • 这个Pandas函数可以自动爬取Web图表
  • Android下一个简单的定时器,每隔一秒输出一个数字
  • 【JVM|类加载】第三天
  • monorepo 发布库 --- 打包文件
  • 多线程的区别和联系
  • 使用sqlmap的SQL Injection注入
  • CSS分层渲染与微前端2.0:解锁前端性能优化的新维度
  • Linux之Zabbix分布式监控篇(一)
  • 电商广告市场惊现“合规黑洞”,企业如何避免亿元罚单
  • phpstudy搭建pikachu靶场
  • 单链表的题目,咕咕咕
  • 区块链平台之以太坊深入解读:技术、经济与生态的全面解析
  • 从OpenMV到执行器:当PID算法开始“调教”舵机
  • 计算机视觉与深度学习 | 基于Matlab的多特征融合可视化指纹识别系统(附完整代码)
  • 迅为RK3588开发板Android13系统super.img的解包和重新组包
  • 【C++】封装红黑树模拟实现set和map
  • GESP2025年6月认证C++三级( 第三部分编程题(2)分糖果)
  • MIG_IP核的时钟系统
  • 《硬件产品经理》第七章:产品开发流程之验证
  • 【6.1.3 漫画分布式锁】
  • 【web站点安全开发】任务1:html基础表单和表格
  • C# 接口(派生成员作为实现)
  • Leaflet面试题及答案(41-60)