当前位置：首页 > news >正文

【Python】Python 多进程与多线程：从原理到实践

news 2025/8/19 11:21:56

Python 多进程与多线程：从原理到实践

文章目录

Python 多进程与多线程：从原理到实践
前言
一、并发编程基础：进程与线程
- 1.1 进程（Process）
- 1.2 线程（Thread）
- 1.3 进程与线程的关系
二、Python 中的 "特殊情况"：GIL 全局解释器锁
- 2.1 GIL 的工作原理
- 2.2 GIL 对多线程的影响
三、Python 多线程：threading模块详解
- 3.1 基本使用：创建线程
- 3.2 线程同步：解决资源竞争
- 3.3 守护线程（Daemon Thread）
四、Python 多进程：multiprocessing模块详解
- 4.1 基本使用：创建进程
- 4.2 进程间通信（IPC）
- 4.3 进程池：高效管理多个进程
五、多进程与多线程的核心对比
六、最佳实践与选择建议
总结

前言

在现代软件开发中，充分利用计算机的多核资源、提高程序运行效率是核心需求之一。Python 提供了多进程和多线程两种并发编程方式，但其底层机制和适用场景存在显著差异。本文将从基础原理出发，通过代码示例、对比分析等多样形式，详细解析 Python 多进程与多线程的实现、区别及最佳实践。

一、并发编程基础：进程与线程

在深入 Python 的实现前，我们需要先明确进程和线程的核心概念 —— 这是理解两种并发方式差异的基础。

1.1 进程（Process）

定义：进程是操作系统进行资源分配和调度的基本单位，是程序的一次执行过程。每个进程拥有独立的内存空间、文件描述符、寄存器等资源。
特点：
- 进程间相互独立，一个进程崩溃不会影响其他进程；
- 进程间通信（IPC）需要通过特定机制（如管道、队列、共享内存）；
- 创建和销毁进程的开销较大（涉及资源分配与释放）。

1.2 线程（Thread）

-定义：线程是进程内的一个执行单元，一个进程可以包含多个线程，线程共享进程的内存空间和资源。

特点：
- 线程间共享进程资源（如全局变量、文件句柄），通信便捷；
- 线程切换开销小（仅需保存线程上下文）；
- 一个线程崩溃可能导致整个进程崩溃（因共享资源）。

1.3 进程与线程的关系

可以用一个形象的比喻理解：

进程 = 工厂，线程 = 工厂里的工人。

一个工厂（进程）拥有独立的厂房（内存空间）和设备（资源），多个工人（线程）在同一个工厂里协作，共享设备；而多个工厂（进程）则各自独立，需要通过外部通道（IPC）传递物资。

二、Python 中的 “特殊情况”：GIL 全局解释器锁

Python 的多线程行为与其他语言（如 Java、C++）存在显著差异，核心原因是GIL（Global Interpreter Lock，全局解释器锁）的存在。

2.1 GIL 的工作原理

GIL 是 Python 解释器（如 CPython）的一种互斥锁，其核心作用是：确保同一时刻只有一个线程在解释器中执行字节码。即使在多核 CPU 中，Python 多线程也无法实现真正的 “并行执行”，只能交替执行（并发）。

执行流程：

线程获取 GIL；
执行一定数量的字节码（或遇到 IO 操作）；
释放 GIL，让其他线程有机会执行。

2.2 GIL 对多线程的影响

CPU 密集型任务（如数学计算、数据处理）：多线程效率甚至可能低于单线程（因 GIL 切换开销）；
IO 密集型任务（如网络请求、文件读写）：多线程有效（IO 等待时线程释放 GIL，其他线程可执行）。

三、Python 多线程：threading模块详解

Python 的threading模块提供了对线程的封装，支持创建、管理线程及线程同步。

3.1 基本使用：创建线程

创建线程有两种方式：继承threading.Thread类或传入目标函数。

示例 1：通过目标函数创建线程

import threading
import timedef print_numbers(name, delay):"""线程任务：打印数字"""for i in range(5):time.sleep(delay)  # 模拟IO等待（此时释放GIL）print(f"线程{name}：{i}")# 创建线程
t1 = threading.Thread(target=print_numbers, args=("T1", 0.5))
t2 = threading.Thread(target=print_numbers, args=("T2", 0.8))# 启动线程
t1.start()
t2.start()# 等待线程结束（主线程阻塞）
t1.join()
t2.join()print("主线程结束")

输出（顺序可能因调度变化）：

线程T1：0
线程T2：0
线程T1：1
线程T1：2
线程T2：1
线程T1：3
线程T1：4
线程T2：2
线程T2：3
线程T2：4
主线程结束

3.2 线程同步：解决资源竞争

多个线程共享资源时，可能出现 “资源竞争” 问题（如同时修改全局变量）。需使用锁（Lock）保证操作的原子性。

示例 2：用 Lock 解决资源竞争

import threading# 共享资源
count = 0
lock = threading.Lock()  # 创建锁def increment():"""线程任务：增加计数"""global countfor _ in range(1000000):# 获取锁（若已被占用则阻塞）with lock:  # with语句自动释放锁，避免死锁count += 1# 创建10个线程
threads = [threading.Thread(target=increment) for _ in range(10)]# 启动所有线程
for t in threads:t.start()# 等待所有线程结束
for t in threads:t.join()print(f"最终计数：{count}")  # 若不加锁，结果可能小于10000000

说明：with lock确保count += 1（非原子操作）在一个线程执行时，其他线程无法修改count，避免数据错误。

3.3 守护线程（Daemon Thread）

守护线程是 “后台线程”，当所有非守护线程结束时，守护线程会被强制终止（如垃圾回收线程）。

示例 3：守护线程演示

import threading
import timedef daemon_task():while True:print("守护线程运行中...")time.sleep(1)def non_daemon_task():time.sleep(3)print("非守护线程结束")# 创建守护线程
daemon_thread = threading.Thread(target=daemon_task)
daemon_thread.daemon = True  # 标记为守护线程# 启动线程
daemon_thread.start()
non_daemon_thread = threading.Thread(target=non_daemon_task)
non_daemon_thread.start()non_daemon_thread.join()  # 等待非守护线程结束
print("主线程结束")  # 此时守护线程被强制终止

输出：

守护线程运行中...
守护线程运行中...
守护线程运行中...
非守护线程结束
主线程结束

四、Python 多进程：multiprocessing模块详解

由于 GIL 的限制，多线程无法利用多核 CPU 处理 CPU 密集型任务。multiprocessing模块通过创建独立进程（每个进程有独立 GIL），实现真正的并行计算。

4.1 基本使用：创建进程

与threading类似，multiprocessing.Process用于创建进程，用法基本一致，但进程间不共享内存。

示例 4：创建多进程

import multiprocessing
import timedef square_numbers(name, numbers):"""进程任务：计算平方"""for num in numbers:time.sleep(0.1)  # 模拟计算耗时print(f"进程{name}：{num}^2 = {num**2}")# 数据分块（进程间不共享内存，需显式传递数据）
data1 = [1, 2, 3, 4, 5]
data2 = [6, 7, 8, 9, 10]# 创建进程
p1 = multiprocessing.Process(target=square_numbers, args=("P1", data1))
p2 = multiprocessing.Process(target=square_numbers, args=("P2", data2))# 启动进程
p1.start()
p2.start()# 等待进程结束
p1.join()
p2.join()print("主进程结束")

输出：

进程P1：1^2 = 1
进程P2：6^2 = 36
进程P1：2^2 = 4
进程P2：7^2 = 49
...（并行执行）
主进程结束

4.2 进程间通信（IPC）

进程间不共享内存，需通过队列（Queue）或管道（Pipe）通信。

示例 5：用 Queue 实现进程间通信

import multiprocessingdef producer(queue):"""生产者进程：生成数据"""for i in range(5):queue.put(i)  # 向队列放入数据print(f"生产者：放入 {i}")def consumer(queue):"""消费者进程：处理数据"""while True:data = queue.get()  # 从队列获取数据（若为空则阻塞）print(f"消费者：处理 {data}")queue.task_done()  # 标记任务完成if __name__ == "__main__":  # 多进程必须在main模块中启动# 创建进程安全的队列queue = multiprocessing.Queue()# 创建生产者和消费者进程p_producer = multiprocessing.Process(target=producer, args=(queue,))p_consumer = multiprocessing.Process(target=consumer, args=(queue,), daemon=True)# 启动进程p_producer.start()p_consumer.start()# 等待生产者结束p_producer.join()# 等待队列中所有数据被处理queue.join()print("所有数据处理完成")

4.3 进程池：高效管理多个进程

当需要创建大量进程时，使用ProcessPoolExecutor（或multiprocessing.Pool）可避免频繁创建 / 销毁进程的开销。

示例 6：用进程池处理 CPU 密集型任务

from concurrent.futures import ProcessPoolExecutor
import timedef cpu_intensive_task(n):"""CPU密集型任务：计算斐波那契数列"""a, b = 0, 1for _ in range(n):a, b = b, a + breturn aif __name__ == "__main__":# 任务列表（大量计算任务）tasks = [1000000] * 8  # 8个相同的CPU密集型任务# 单进程执行start = time.time()for task in tasks:cpu_intensive_task(task)print(f"单进程耗时：{time.time() - start:.2f}秒")# 进程池执行（使用所有可用CPU核心）start = time.time()with ProcessPoolExecutor() as executor:executor.map(cpu_intensive_task, tasks)  # 并行执行任务print(f"进程池耗时：{time.time() - start:.2f}秒")

输出（因 CPU 核心数不同而异）：

单进程耗时：12.34秒
进程池耗时：3.12秒  # 接近单进程的1/4（假设4核CPU）

说明：进程池充分利用多核 CPU，将任务分配到不同核心并行执行，显著提升 CPU 密集型任务效率。

五、多进程与多线程的核心对比

维度	多线程（Thread）	多进程（Process）
内存共享	共享进程内存空间（全局变量可直接访问）	独立内存空间（需 IPC 机制通信）
GIL 影响	受 GIL 限制，无法并行执行 CPU 密集型任务	不受 GIL 限制（每个进程有独立 GIL），可并行利用多核
创建 / 销毁开销	开销小（仅切换线程上下文）	开销大（需分配独立资源）
容错性	一个线程崩溃可能导致整个进程崩溃	进程独立，一个崩溃不影响其他
适用场景	IO 密集型任务（如网络请求、文件读写）	CPU 密集型任务（如数据计算、图像处理）
通信复杂度	简单（直接操作共享变量，需注意同步）	复杂（需通过 Queue、Pipe 等 IPC 机制）

六、最佳实践与选择建议

根据任务类型选择：
- IO 密集型（如爬虫、API 服务）：优先用多线程（或异步 IO），因线程切换开销小，且 IO 等待时可释放 GIL；
- CPU 密集型（如数据分析、科学计算）：优先用多进程，利用多核并行计算，规避 GIL 限制。
避免过度创建：
- 线程 / 进程数量并非越多越好，过多会导致调度开销激增；
- 进程池大小建议设为 CPU 核心数（os.cpu_count()），线程池可略大（如核心数的 5-10 倍）。
混合使用：
- 复杂场景可结合多进程与多线程（如 “多进程 + 每个进程内多线程”），兼顾并行计算与 IO 效率。
优先使用高级 API：
- concurrent.futures模块（ThreadPoolExecutor/ProcessPoolExecutor）封装了底层细节，简化代码且更安全。