当前位置: 首页 > news >正文

【Python】Python 多进程与多线程:从原理到实践

Python 多进程与多线程:从原理到实践


文章目录

  • Python 多进程与多线程:从原理到实践
  • 前言
  • 一、并发编程基础:进程与线程
    • 1.1 进程(Process)
    • 1.2 线程(Thread)
    • 1.3 进程与线程的关系
  • 二、Python 中的 "特殊情况":GIL 全局解释器锁
    • 2.1 GIL 的工作原理
    • 2.2 GIL 对多线程的影响
  • 三、Python 多线程:threading模块详解
    • 3.1 基本使用:创建线程
    • 3.2 线程同步:解决资源竞争
    • 3.3 守护线程(Daemon Thread)
  • 四、Python 多进程:multiprocessing模块详解
    • 4.1 基本使用:创建进程
    • 4.2 进程间通信(IPC)
    • 4.3 进程池:高效管理多个进程
  • 五、多进程与多线程的核心对比
  • 六、最佳实践与选择建议
  • 总结


前言

在现代软件开发中,充分利用计算机的多核资源、提高程序运行效率是核心需求之一。Python 提供了多进程和多线程两种并发编程方式,但其底层机制和适用场景存在显著差异。本文将从基础原理出发,通过代码示例、对比分析等多样形式,详细解析 Python 多进程与多线程的实现、区别及最佳实践。


一、并发编程基础:进程与线程

在深入 Python 的实现前,我们需要先明确进程和线程的核心概念 —— 这是理解两种并发方式差异的基础。

1.1 进程(Process)

  • 定义:进程是操作系统进行资源分配和调度的基本单位,是程序的一次执行过程。每个进程拥有独立的内存空间、文件描述符、寄存器等资源。
  • 特点
    • 进程间相互独立,一个进程崩溃不会影响其他进程;
    • 进程间通信(IPC)需要通过特定机制(如管道、队列、共享内存);
    • 创建和销毁进程的开销较大(涉及资源分配与释放)。

1.2 线程(Thread)

-定义:线程是进程内的一个执行单元,一个进程可以包含多个线程,线程共享进程的内存空间和资源。

  • 特点
    • 线程间共享进程资源(如全局变量、文件句柄),通信便捷;
    • 线程切换开销小(仅需保存线程上下文);
    • 一个线程崩溃可能导致整个进程崩溃(因共享资源)。

1.3 进程与线程的关系

可以用一个形象的比喻理解:

进程 = 工厂,线程 = 工厂里的工人。

一个工厂(进程)拥有独立的厂房(内存空间)和设备(资源),多个工人(线程)在同一个工厂里协作,共享设备;而多个工厂(进程)则各自独立,需要通过外部通道(IPC)传递物资。


二、Python 中的 “特殊情况”:GIL 全局解释器锁

Python 的多线程行为与其他语言(如 Java、C++)存在显著差异,核心原因是GIL(Global Interpreter Lock,全局解释器锁) 的存在。

2.1 GIL 的工作原理

GIL 是 Python 解释器(如 CPython)的一种互斥锁,其核心作用是:确保同一时刻只有一个线程在解释器中执行字节码。即使在多核 CPU 中,Python 多线程也无法实现真正的 “并行执行”,只能交替执行(并发)。

执行流程:

  • 线程获取 GIL;
  • 执行一定数量的字节码(或遇到 IO 操作);
  • 释放 GIL,让其他线程有机会执行。

2.2 GIL 对多线程的影响

CPU 密集型任务(如数学计算、数据处理):多线程效率甚至可能低于单线程(因 GIL 切换开销);
IO 密集型任务(如网络请求、文件读写):多线程有效(IO 等待时线程释放 GIL,其他线程可执行)。


三、Python 多线程:threading模块详解

Python 的threading模块提供了对线程的封装,支持创建、管理线程及线程同步。

3.1 基本使用:创建线程

创建线程有两种方式:继承threading.Thread类或传入目标函数。

示例 1:通过目标函数创建线程

import threading
import timedef print_numbers(name, delay):"""线程任务:打印数字"""for i in range(5):time.sleep(delay)  # 模拟IO等待(此时释放GIL)print(f"线程{name}{i}")# 创建线程
t1 = threading.Thread(target=print_numbers, args=("T1", 0.5))
t2 = threading.Thread(target=print_numbers, args=("T2", 0.8))# 启动线程
t1.start()
t2.start()# 等待线程结束(主线程阻塞)
t1.join()
t2.join()print("主线程结束")

输出(顺序可能因调度变化):

线程T1:0
线程T2:0
线程T1:1
线程T1:2
线程T2:1
线程T1:3
线程T1:4
线程T2:2
线程T2:3
线程T2:4
主线程结束

3.2 线程同步:解决资源竞争

多个线程共享资源时,可能出现 “资源竞争” 问题(如同时修改全局变量)。需使用锁(Lock) 保证操作的原子性。

示例 2:用 Lock 解决资源竞争

import threading# 共享资源
count = 0
lock = threading.Lock()  # 创建锁def increment():"""线程任务:增加计数"""global countfor _ in range(1000000):# 获取锁(若已被占用则阻塞)with lock:  # with语句自动释放锁,避免死锁count += 1# 创建10个线程
threads = [threading.Thread(target=increment) for _ in range(10)]# 启动所有线程
for t in threads:t.start()# 等待所有线程结束
for t in threads:t.join()print(f"最终计数:{count}")  # 若不加锁,结果可能小于10000000

说明:with lock确保count += 1(非原子操作)在一个线程执行时,其他线程无法修改count,避免数据错误。

3.3 守护线程(Daemon Thread)

守护线程是 “后台线程”,当所有非守护线程结束时,守护线程会被强制终止(如垃圾回收线程)。

示例 3:守护线程演示

import threading
import timedef daemon_task():while True:print("守护线程运行中...")time.sleep(1)def non_daemon_task():time.sleep(3)print("非守护线程结束")# 创建守护线程
daemon_thread = threading.Thread(target=daemon_task)
daemon_thread.daemon = True  # 标记为守护线程# 启动线程
daemon_thread.start()
non_daemon_thread = threading.Thread(target=non_daemon_task)
non_daemon_thread.start()non_daemon_thread.join()  # 等待非守护线程结束
print("主线程结束")  # 此时守护线程被强制终止

输出:

守护线程运行中...
守护线程运行中...
守护线程运行中...
非守护线程结束
主线程结束

四、Python 多进程:multiprocessing模块详解

由于 GIL 的限制,多线程无法利用多核 CPU 处理 CPU 密集型任务。multiprocessing模块通过创建独立进程(每个进程有独立 GIL),实现真正的并行计算。

4.1 基本使用:创建进程

与threading类似,multiprocessing.Process用于创建进程,用法基本一致,但进程间不共享内存。

示例 4:创建多进程

import multiprocessing
import timedef square_numbers(name, numbers):"""进程任务:计算平方"""for num in numbers:time.sleep(0.1)  # 模拟计算耗时print(f"进程{name}{num}^2 = {num**2}")# 数据分块(进程间不共享内存,需显式传递数据)
data1 = [1, 2, 3, 4, 5]
data2 = [6, 7, 8, 9, 10]# 创建进程
p1 = multiprocessing.Process(target=square_numbers, args=("P1", data1))
p2 = multiprocessing.Process(target=square_numbers, args=("P2", data2))# 启动进程
p1.start()
p2.start()# 等待进程结束
p1.join()
p2.join()print("主进程结束")

输出:

进程P1:1^2 = 1
进程P2:6^2 = 36
进程P1:2^2 = 4
进程P2:7^2 = 49
...(并行执行)
主进程结束

4.2 进程间通信(IPC)

进程间不共享内存,需通过队列(Queue) 或管道(Pipe) 通信。

示例 5:用 Queue 实现进程间通信

import multiprocessingdef producer(queue):"""生产者进程:生成数据"""for i in range(5):queue.put(i)  # 向队列放入数据print(f"生产者:放入 {i}")def consumer(queue):"""消费者进程:处理数据"""while True:data = queue.get()  # 从队列获取数据(若为空则阻塞)print(f"消费者:处理 {data}")queue.task_done()  # 标记任务完成if __name__ == "__main__":  # 多进程必须在main模块中启动# 创建进程安全的队列queue = multiprocessing.Queue()# 创建生产者和消费者进程p_producer = multiprocessing.Process(target=producer, args=(queue,))p_consumer = multiprocessing.Process(target=consumer, args=(queue,), daemon=True)# 启动进程p_producer.start()p_consumer.start()# 等待生产者结束p_producer.join()# 等待队列中所有数据被处理queue.join()print("所有数据处理完成")

4.3 进程池:高效管理多个进程

当需要创建大量进程时,使用ProcessPoolExecutor(或multiprocessing.Pool)可避免频繁创建 / 销毁进程的开销。

示例 6:用进程池处理 CPU 密集型任务

from concurrent.futures import ProcessPoolExecutor
import timedef cpu_intensive_task(n):"""CPU密集型任务:计算斐波那契数列"""a, b = 0, 1for _ in range(n):a, b = b, a + breturn aif __name__ == "__main__":# 任务列表(大量计算任务)tasks = [1000000] * 8  # 8个相同的CPU密集型任务# 单进程执行start = time.time()for task in tasks:cpu_intensive_task(task)print(f"单进程耗时:{time.time() - start:.2f}秒")# 进程池执行(使用所有可用CPU核心)start = time.time()with ProcessPoolExecutor() as executor:executor.map(cpu_intensive_task, tasks)  # 并行执行任务print(f"进程池耗时:{time.time() - start:.2f}秒")

输出(因 CPU 核心数不同而异):

单进程耗时:12.34秒
进程池耗时:3.12秒  # 接近单进程的1/4(假设4核CPU)

说明:进程池充分利用多核 CPU,将任务分配到不同核心并行执行,显著提升 CPU 密集型任务效率。


五、多进程与多线程的核心对比

维度多线程(Thread)多进程(Process)
内存共享共享进程内存空间(全局变量可直接访问)独立内存空间(需 IPC 机制通信)
GIL 影响受 GIL 限制,无法并行执行 CPU 密集型任务不受 GIL 限制(每个进程有独立 GIL),可并行利用多核
创建 / 销毁开销开销小(仅切换线程上下文)开销大(需分配独立资源)
容错性一个线程崩溃可能导致整个进程崩溃进程独立,一个崩溃不影响其他
适用场景IO 密集型任务(如网络请求、文件读写)CPU 密集型任务(如数据计算、图像处理)
通信复杂度简单(直接操作共享变量,需注意同步)复杂(需通过 Queue、Pipe 等 IPC 机制)

六、最佳实践与选择建议

  • 根据任务类型选择:
    • IO 密集型(如爬虫、API 服务):优先用多线程(或异步 IO),因线程切换开销小,且 IO 等待时可释放 GIL;
    • CPU 密集型(如数据分析、科学计算):优先用多进程,利用多核并行计算,规避 GIL 限制。
  • 避免过度创建:
    • 线程 / 进程数量并非越多越好,过多会导致调度开销激增;
    • 进程池大小建议设为 CPU 核心数(os.cpu_count()),线程池可略大(如核心数的 5-10 倍)。
  • 混合使用:
    • 复杂场景可结合多进程与多线程(如 “多进程 + 每个进程内多线程”),兼顾并行计算与 IO 效率。
  • 优先使用高级 API:
    • concurrent.futures模块(ThreadPoolExecutor/ProcessPoolExecutor)封装了底层细节,简化代码且更安全。

总结

Python 的多进程与多线程各有优劣,核心差异源于 GIL 和内存模型:

  • 多线程适合 IO 密集型任务,依赖共享内存实现便捷通信;
  • 多进程适合 CPU 密集型任务,通过独立内存和多核并行突破 GIL 限制。

实际开发中,需结合任务特性、资源开销和容错需求选择合适的并发方式,必要时可混合使用以最大化效率。掌握两者的原理与实践,是提升 Python 程序性能的关键技能。

http://www.dtcms.com/a/338093.html

相关文章:

  • NVIDIA CWE 2025 上海直击:从 GPU 集群到 NeMo 2.0,企业 AI 智能化的加速引擎
  • 软件定义汽车---创新与差异化之路
  • C/C++ 中 str、str、*str 在指针语境下的具体含义(以 char* str 为例):
  • 深化中东战略承诺,联想集团宣布在利雅得设区域总部
  • wait / notify、单例模式
  • 【深度学习基础】PyTorch Tensor生成方式及复制方法详解
  • 【每日一题】Day 7
  • Linux——进程间、线程间的通信
  • 【C++】 using声明 与 using指示
  • 《彩色终端》诗解——ANSI 艺术解码(DeepSeek)
  • C++设计模式:建造者模式
  • 《若依》权限控制
  • ESP32小智-语音活动(VAD)检测流程
  • Pytorch GPU版本安装保姆级教程
  • 【Python面试题】描述一次解决内存泄漏的过程。如何用tracemalloc或者objgraph定位问题?什么情况下会用__slots__?
  • 【领码课堂】AI写码不再“盲跑”,方案先行,自动化高效落地
  • BOSS直聘招聘端AI辅助自动化技术研究
  • 某储备土地前期开发项目控制保护区桥梁自动化监测
  • 8.19 note
  • HashMap:源码
  • OpenLayers 入门指南【七】:加载自定义控件
  • 部署耐达讯自动化Profibus转光纤方案,变频器通信从此告别‘掉线焦虑’!“
  • Next.js数据获取
  • 飞算JavaAI智慧文旅场景实践:从景区管理到游客服务的全链路系统搭建
  • 无人机激光测距技术应用与挑战
  • 【前端进阶】UI渲染优化 - 骨架屏技术详解与多框架实现方案
  • Maven(一)
  • 做一个答题pk小程序多少钱?
  • 《红色脉-络:一部PLMN在中国的演进史诗 (1G-6G)》 第6篇 | 专题:核心网的第一次革命——从电路交换到“用户/控制面分离”
  • java17学习笔记-增强型伪随机数生成器