当前位置: 首页 > news >正文

Python 使用期物处理并发(使用concurrent.futures模块启动 进程)

使用concurrent.futures模块启动进程

concurrent.futures 模块的文档
(https://docs.python.org/3/library/concurrent.futures.html)副标题
是“Launching parallel tasks”(执行并行任务)。这个模块实现的是真正
的并行计算,因为它使用 ProcessPoolExecutor 类把工作分配给多个
Python 进程处理。因此,如果需要做 CPU 密集型处理,使用这个模块
能绕开 GIL,利用所有可用的 CPU 核心。

ProcessPoolExecutor 和 ThreadPoolExecutor 类都实现了通用的
Executor 接口,因此使用 concurrent.futures 模块能特别轻松地把
基于线程的方案转成基于进程的方案。

下载国旗的示例或其他 I/O 密集型作业使用 ProcessPoolExecutor 类
得不到任何好处。这一点易于验证,只需把示例 17-3 中下面这几行:

def download_many(cc_list):workers = min(MAX_WORKERS, len(cc_list))with futures.ThreadPoolExecutor(workers) as executor:

改成:

def download_many(cc_list):with futures.ProcessPoolExecutor() as executor:

对简单的用途来说,这两个实现 Executor 接口的类唯一值得注意的区
别是,ThreadPoolExecutor.__init__ 方法需要 max_workers 参
数,指定线程池中线程的数量。在 ProcessPoolExecutor 类中,那个
参数是可选的,而且大多数情况下不使用——默认值是
os.cpu_count() 函数返回的 CPU 数量。这样处理说得通,因为对
CPU 密集型的处理来说,不可能要求使用超过 CPU 数量的职程。而对
I/O 密集型处理来说,可以在一个 ThreadPoolExecutor 实例中使用 10个、100 个或 1000 个线程;最佳线程数取决于做的是什么事,以及可
用内存有多少,因此要仔细测试才能找到最佳的线程数。

经过几次测试,我发现使用 ProcessPoolExecutor 实例下载 20 面国
旗的时间增加到了 1.8 秒,而原来使用 ThreadPoolExecutor 的版本是
1.4 秒。主要原因可能是,我的电脑用的是四核 CPU,因此限制只能有
4 个并发下载,而使用线程池的版本有 20 个工作的线程。

ProcessPoolExecutor 的价值体现在 CPU 密集型作业上。我用两个
CPU 密集型脚本做了一些性能测试。

arcfour_futures.py
这个脚本(代码清单参见示例 A-7)纯粹使用 Python 实现 RC4 算
法。我加密并解密了 12 个字节数组,大小从 149KB 到 384KB 不等。

sha_futures.py
这个脚本(代码清单参见示例 A-9)使用标准库中的 hashlib 模块
(使用 OpenSSL 库实现)实现 SHA-256 算法。我计算了 12 个 1MB 字
节数组的 SHA-256 散列值。

这两个脚本除了显示汇总结果之外,没有使用 I/O。构建和处理数据的
过程都在内存中完成,因此 I/O 对执行时间没有影响。

我运行了 64 次 RC4 示例,48 次 SHA 示例,平均时间如表 17-1 所示。
统计的时间中包含派生工作进程的时间。

表17-1:在配有Intel Core i7 2.7 GHz四核CPU的设备中,使用Python
3.4运行RC4和SHA示例,分别使用1~4个职程得到的时间和提速倍数可以看出,对加密算法来说,使用 ProcessPoolExecutor 类派生 4 个
工作的进程后(如果有 4 个 CPU 核心的话),性能可以提高两倍。

对那个纯粹使用 Python 实现的 RC4 示例来说,如果使用 PyPy 和 4 个职
程,与使用 CPython 和 4 个职程相比,速度能提高 3.8 倍。以表 17-1 中
使用 CPython 和一个职程的运行时间为基准,速度提升了 7.8 倍。

如果使用 Python 处理 CPU 密集型工作,应该试试
PyPy(http://pypy.org)。使用 PyPy 运行 arcfour_futures.py 脚本,速
度快了 3.8~5.1 倍;具体的倍数由职程的数量决定。我测试时使用
的是 PyPy 2.4.0,这一版与 Python 3.2.5 兼容,因此标准库中有
concurrent.futures 模块。

下面通过一个演示程序来研究线程池的行为。这个程序会创建一个包含
3 个职程的线程池,运行 5 个可调用的对象,输出带有时间戳的消息。

http://www.dtcms.com/a/291419.html

相关文章:

  • 【Elasticsearch】BM25的discount_overlaps参数
  • 卷积神经网络(CNN)原理
  • 零拷贝技术(Zero-Copy)
  • OneCode 3.0 @APIEventAnnotation 注解速查手册
  • 从 Hi3861 平台到 WS63 星闪平台的程序移植全解析
  • 网络编程之 UDP:用户数据报协议详解与实战
  • 二分查找:区间内查询数字的频率
  • 网络协议(三)网络层 IPv4、CIDR(使用子网掩码进行网络划分)、NAT在私网划分中的应用
  • 大模型——上下文工程 (Context Engineering) – 现代 AI 系统的架构基础
  • c语言进阶 自定义类型 枚举,联合
  • 【LeetCode 热题 100】208. 实现 Trie (前缀树)
  • Linux下SPI设备驱动开发
  • 1.Java中的异常有哪些?异常处理机制呢?
  • C# 异常处理
  • 统计与大数据分析专业转型金融行业指南
  • makefile-- 其他函数
  • Linux PCI总线子系统
  • 网络基础DAY15-RSTP
  • OpenGL鼠标控制沿着指定轴旋转
  • linux --frp内网穿透
  • 低速信号设计之 RMII
  • 服务器系统时间不准确怎么办?
  • C++ 中的默认构造函数:非必要,不提供
  • 缓存数组,并遍历循环读取数组
  • springboot实战篇1
  • Windows VS2019 编译 Apache Thrift 0.15.0
  • DigitalOcean 云平台上线 AMD MI325X GPU Droplet 服务器
  • 如何编写假设和约束---SRS软件需求规格指南系列
  • accelerate 在Pycham中执行的设置方法
  • C语言字符串相关函数