当前位置: 首页 > news >正文

Python的collections模块:数据结构的百宝箱

Python的collections模块:数据结构的百宝箱

图片

对话实录

小白:处理数据时,Python自带的数据结构不够用,有更强大的工具吗?

专家:那可不能错过collections模块,它提供了许多高效实用的数据结构,能大幅提升数据处理的效率与灵活性。

collections功能介绍

1. Counter:统计元素出现次数

Counter用于统计可迭代对象中元素出现的频次。比如统计文本中单词出现次数:

from collections import Counter
text = "apple banana apple cherry banana apple"
word_list = text.split()
#统计次数
word_counter = Counter(word_list)
print(word_counter)
#输出为:
Counter({'apple': 3, 'banana': 2, 'cherry': 1})text2 = "apple banana apple cherry banana apple"
word_list2 = text2.split()
#使用update函数添加另一个可迭代对象,继续统计次数
word_counter.update(word_list2)
print(word_counter)
#输出为
Counter({'apple': 6, 'banana': 4, 'cherry': 2})

2. defaultdict:带有默认值的字典

普通字典访问不存在的键会报错,defaultdict则会自动创建默认值。例如按类别统计物品数量:

from collections import defaultdict
category_items = defaultdict(int)
items = [('fruit', 'apple'), ('fruit', 'banana'), ('vegetable', 'carrot'), ('fruit', 'cherry')]
for category, item in items:category_items[category] += 1
print(category_items)
#输出为:
defaultdict(<class 'int'>, {'fruit': 3, 'vegetable': 1})

defaultdict(int)表示默认值为 0,最终输出defaultdict(<class 'int'>, {'fruit': 3,'vegetable': 1}),适用于需预先初始化值的字典场景。

3. OrderedDict:有序字典

普通字典在 Python 3.6 前无序,3.7 后虽保持插入顺序,但OrderedDict能更明确表示有序性,还有操作顺序的方法。如记录用户操作步骤:

from collections import OrderedDict
user_actions = OrderedDict()
user_actions['step1'] = 'login'
user_actions['step2'] = 'browse products'
user_actions['step3'] = 'add to cart'
user_actions['step4'] = 'checkout'
for step, action in user_actions.items():print(f"{step}: {action}")

输出严格按插入顺序展示,适用于历史记录、任务流程管理等需保持元素顺序的场景。

另外大家都知道集合有去重的功能,但是集合是无序的,去重后会导致原来的对象变得无序。此时可以通过OrderedDict保持原来的顺序。举例如下:

listA = ['orange', 'apple', 'pear', 'banana','orange']
listB = set(listA)
print(listB)
#打印结果 集合去重后元组顺序改变了
{'banana', 'pear', 'orange', 'apple'}

我们通过有序字典
collections.OrderedDict.fromkeys()功能,对列表去重并保持有序

from collections import OrderedDict
listC = list(OrderedDict.fromkeys(listA))
print(listC)
['orange', 'apple', 'pear', 'banana']

4.deque:双端队列

deque允许在队列两端高效添加和删除操作。模拟任务队列,可在队首添加紧急任务,队尾添加普通任务:

from collections import deque
task_queue = deque()task_queue.append('task1')
task_queue.append('task2')
task_queue.appendleft('urgent_task')while task_queue:task = task_queue.popleft()print(f"Processing task: {task}")

appendleft在队首添加,popleft从队首取出,在广度优先搜索、缓存管理等需双向操作的队列场景中性能更优。

5.namedtuple:具名元组

namedtuple为元组元素命名,让代码更易读。如表示学生信息:

from collections import namedtuple
Student = namedtuple('Student', ['name', 'age', 'grade'])student1 = Student('Alice', 20, 'A')
print(student1.name)
print(student1.age)
print(student1.grade)

通过属性名访问元素,数据存储和传递时很方便,适用于数据结构固定、元素含义明确的场景。

6.ChainMap:合并多个映射

ChainMap可组合多个字典或映射,形成单一视图,在处理多个配置文件等场景中有用。如合并默认和用户自定义配置字典:

from collections import ChainMap
default_config = {'color': 'blue', 'font':'sans-serif'}
user_config = {'color':'red'}combined_config = ChainMap(user_config, default_config)
print(combined_config['color'])
print(combined_config['font'])
#输出为:
red
sans-serif

访问键时先在user_config查找,不存在再在default_config查找,输出red和sans-serif 。

7.UserDict:自定义字典类

UserDict是创建自定义字典类的基类。创建不允许删除键的字典类:

from collections import UserDict
class NoDeleteDict(UserDict):def __delitem__(self, key):raise NotImplementedError("删除操作不被允许")ndd = NoDeleteDict({'key1': 'value1', 'key2': 'value2'})# 尝试删除键会引发错误
del ndd['key1']

继承UserDict并覆盖方法,可定制符合需求的字典类。

8.UserList:自定义列表类

类似UserDict,UserList用于创建自定义列表类。创建只能存储整数的列表类:

from collections import UserList
class IntList(UserList):def append(self, item):if not isinstance(item, int):raise ValueError("只能添加整数")super().append(item)
il = IntList()
il.append(1)
# 尝试添加非整数会引发错误
# il.append('not an integer')  

可对列表操作进行约束和扩展,满足特定业务逻辑。

小白:哇,collections模块这么强大!

专家:熟练掌握它,你在Python数据处理上会更得心应手,快去实践吧!

常用函数及数据结构速查表

函数 / 数据结构

用法

说明

Counter

Counter(iterable)

统计可迭代对象中元素出现次数

defaultdict

defaultdict(default_factory)

带有默认值的字典,default_factory为可调用对象

OrderedDict

OrderedDict()

有序字典,保持元素插入顺序

deque

deque([iterable], maxlen=None)

双端队列,可设置最大长度maxlen

namedtuple

namedtuple('typename', 'field_names')

具名元组,typename为类型名,field_names为字段名

ChainMap

ChainMap(*maps)

合并多个映射

UserDict

class MyDict(UserDict)

用于创建自定义字典类的基类

UserList

class MyList(UserList)

用于创建自定义列表类的基类

图片

相关文章:

  • OSA实战笔记二
  • ESP8266-12S开发板控制IO控制输出-走马灯---学习系列,含代码
  • 联合索引失效情况分析
  • Windows 安装Anaconda
  • 小米便签源码部署流程
  • python 提交 命令到远程windows服务器并获取作业进程id
  • RabbitMQ Topic RPC
  • MS16-075 漏洞 复现过程
  • 小区服务|基于Java+vue的小区服务管理系统(源码+数据库+文档)
  • Java NIO(New I/O)
  • 【实验增效】5 μL/Test 高浓度液体试剂!Elabscience PE Anti-Mouse Ly6G抗体 简化流式细胞术流程
  • 连续空间链式推理与SoftCoT++介绍
  • 邂逅Node.js
  • IEEE 802.1Q协议下封装的VLAN数据帧格式
  • 如何管理和优化内核参数
  • CNBC专访CertiK联创顾荣辉:从形式化验证到AI赋能,持续拓展Web3.0信任边界
  • matlab编写的BM3D图像去噪方法
  • 深入浅出IIC协议 - 从总线原理到FPGA实战开发 -- 第三篇:Verilog实现I2C Master核
  • 【蓝桥杯真题精讲】第 16 届 Python A 组(省赛)
  • 网络安全之网络攻击spring临时文件利用
  • 美国前驻华大使携美大学生拜访中联部、外交部
  • 欧阳娜娜等20多名艺人被台当局列入重要查核对象,国台办回应
  • 探月工程鹊桥二号中继星取得阶段性进展
  • 吴双评《发展法学》|穷国致富的钥匙:制度,还是产业活动?
  • 中科院合肥物质院迎来新一届领导班子:刘建国继续担任院长
  • 上海将建设万兆小区、园区及工厂,为模型训练数据的传输提供硬件支持