当前位置: 首页 > news >正文

multiprocessing.Pool 中的 pickle 详解

前言:

在 Python 的 multiprocessing.Pool 中,任务和数据需要通过序列化(pickle)传递给子进程。pickle 是 Python 的内置序列化模块,用于将 Python 对象转换为字节流,以便在进程间通信时传递。然而,pickle 有一些限制,某些对象(例如 _thread.lock)无法被序列化,这会导致 TypeError: cannot pickle ‘_thread.lock’ object 的错误。

pickle 的工作原理

序列化过程:

主进程将任务(函数和参数)序列化为字节流,通过 IPC(进程间通信)发送到子进程。
子进程接收到字节流后,反序列化(unpickle)并执行任务。

支持的对象类型:

基本数据类型(如 int、float、str)。
容器类型(如 list、dict、tuple)。
类实例(如果类定义在模块的顶层)。
函数(如果定义在模块的顶层)。

限制:

某些对象(如 _thread.lock、文件句柄、套接字等)无法被序列化,因为它们与操作系统资源相关联。
类方法隐式传递 self,其中可能包含不可序列化的属性。

msgpack 和 dill 对比 pickle 的不同

1. msgpack

msgpack 是一种高效的二进制序列化格式,适合跨语言通信,但它不支持序列化复杂的 Python 对象(如函数、类实例)。

优点:

高效的二进制格式,序列化速度快。
支持跨语言通信(如 Python 和 C++)。
适合简单数据类型(如 int、float、list、dict)。

缺点:

不支持序列化 Python 的复杂对象(如函数、类实例)。

示例:
import msgpackdata = {"key": "value", "number": 42}
packed = msgpack.packb(data)  # 序列化
unpacked = msgpack.unpackb(packed)  # 反序列化
print(unpacked)  # 输出: {'key': 'value', 'number': 42}

2. dill

dill 是 pickle 的扩展版本,支持序列化更多类型的 Python 对象,包括函数、类实例、线程锁等。

优点:

支持序列化 Python 的复杂对象(如函数、类实例、线程锁)。
与 pickle 接口兼容,易于替换。

缺点:

序列化速度比 pickle 稍慢。
不适合跨语言通信。

示例:
import dilldef example_function(x):return x * 2serialized = dill.dumps(example_function)  # 序列化
deserialized = dill.loads(serialized)  # 反序列化
print(deserialized(5))  # 输出: 10

解决 _thread.lock 的问题

方法 1: 使用 dill 替代 pickle

dill 可以序列化 _thread.lock 等复杂对象,直接替换 pickle 即可解决问题。

安装:
pip install dill
代码示例:
import multiprocessing
import dillmultiprocessing.Pool = multiprocessing.get_context("fork").Pool
multiprocessing.get_context("fork").Pickler = dill.Picklerdef run_task(lock):print("Task executed with lock:", lock)if __name__ == "__main__":lock = multiprocessing.Lock()with multiprocessing.Pool(processes=2) as pool:pool.map(run_task, [lock])  # 使用 dill 序列化 lock

方法 2: 移除不可序列化的属性

如果使用 pickle,可以避免传递不可序列化的对象。例如,将 _thread.lock 从类属性中移除。

代码示例:
class Example:def __init__(self):self.lock = threading.Lock()  # 不可序列化def run(self):print("Task executed")example = Example()
example.lock = None  # 移除不可序列化的属性
with multiprocessing.Pool(processes=2) as pool:pool.map(example.run, range(2))

方法 3: 使用 multiprocessing.Process

如果任务函数必须使用不可序列化的对象,可以使用 multiprocessing.Process 手动管理进程,而不是使用 Pool。

代码示例:
from multiprocessing import Process, Lockdef run_task(lock):print("Task executed with lock:", lock)if __name__ == "__main__":lock = Lock()processes = [Process(target=run_task, args=(lock,)) for _ in range(2)]for p in processes:p.start()for p in processes:p.join()

总结

pickle 是 Python 的默认序列化工具,但有序列化限制。
msgpack 适合跨语言通信,但不支持复杂 Python 对象。
dill 是 pickle 的扩展,支持序列化更多类型的对象(包括 _thread.lock)。
推荐使用 dill 或移除不可序列化的属性来解决 multiprocessing.Pool 中的序列化问题。

http://www.dtcms.com/a/282646.html

相关文章:

  • 文献精读:气候变化、CO2浓度提高和土地利用变化对全球陆地蒸散发的影响分析
  • C++矿井逃生游戏深度解析:迷宫生成与灯光渲染技术 | EasyX实战
  • 45. 跳跃游戏 II
  • 3.1 认识函数
  • 工作第一步建立连接——ssh
  • [MySQL基础1]数据定义语言DDL与数据操作语言DML
  • Transform的重要方法
  • sktime - 时间序列机器学习统一接口
  • Docker——Redis
  • ollama快速部署使用(windows版)
  • Linux三剑客grep、sed、awk
  • 海盗王如何拍摄和打包小地图
  • 在javaScript里删除节点以及添加节点
  • livecharts 装版本8
  • 预训练模型:大规模数据预学习范式——定义、原理与演进逻辑
  • CSS隐藏元素:display:none vs visibility:hidden
  • S7-200 SMART PLC:模拟量模块接线全解析
  • 新手向:自动化图片格式转换工具
  • PyCharm高效入门指南大纲
  • 如何在 Linux 上下载和安装 Conda/Miniconda
  • 基于 Docker 环境的 JupyterHub 详细部署手册
  • VR 污水厂初体验:颠覆传统认知​
  • 广州 VR 森林防火系统功能探究​
  • Harmony-Next鸿蒙实战开发项目-仿小米商城App----V2
  • DOM 规范中的 MutationObserver 接口
  • 【LeetCode 热题 100】543. 二叉树的直径——DFS
  • STM32 写选项字 关键要加载HAL_FLASH_OB_Launch
  • 红黑树、B树、B+树
  • 轻松将文件从 iPhone 传输到 Mac
  • 中医文化学习软件,传承国粹精华