当前位置: 首页 > news >正文

08 Python集合:数据 “去重神器” 和运算魔法

文章目录

    • 一、Python 中的集合概述
      • 1. 集合的特性
    • 二、集合的创建
    • 三、元素的遍历
    • 四、集合的运算
      • 1. 成员运算
      • 2. 二元运算
      • 3. 比较运算
    • 五、集合的方法
    • 六、不可变集合

一、Python 中的集合概述

在 Python 里,集合(Set)是一种无序且元素唯一的数据结构。它主要用于存储一系列独一无二的元素,并且提供了众多强大的方法来处理这些数据。集合中的元素必须是不可变类型,像整数、浮点数、字符串等都符合要求。从数学角度来看,集合的定义是:“把一定范围内明确可区分的事物当作一个整体,这个整体就是集合,其中的每个事物就是集合的元素。”在 Python 中,集合同样遵循这一定义。

1. 集合的特性

  • 无序性:集合里的元素是没有顺序的,这意味着你无法通过索引来访问它们。集合中的元素在内存中的排列是随机的。
  • 唯一性:集合中的每个元素都是独一无二的,不允许存在重复元素。要是尝试往集合里添加一个已存在的元素,集合不会发生任何改变。添加时,重复元素会被自动忽略。
  • 确定性:集合中的元素必须是可哈希的(hashable),也就是说,在程序运行过程中,这些元素的值不会发生变化。例如,整数、浮点数和字符串都是可哈希的,而列表或字典则不具备这个特性。

Python 中的集合与数学里的集合本质相同,其中“无序性”和“互异性”是其核心特性。与列表相比,列表允许元素重复,并且可以通过索引来访问元素,而集合不允许重复元素,且元素无序。不过,集合凭借其高效的元素查找和去重能力,在数据处理方面优势显著。

二、集合的创建

在 Python 中,创建集合通常有两种方式:使用{}字面量语法或者set()函数。需要注意的是,创建集合时至少要有一个元素,否则创建的将是一个空集合。

set1 = {1, 2, 3, 3, 3, 2}
print(set1)  # 输出:{1, 2, 3}set2 = {'banana', 'pitaya', 'apple', 'apple', 'banana', 'grape'}
print(set2)  # 输出:{'pitaya', 'grape', 'banana', 'apple'}set3 = set('hello')
print(set3)  # 输出:{'l', 'h', 'e', 'o'}set4 = set([1, 2, 2, 3, 3, 3, 2, 1])
print(set4)  # 输出:{1, 2, 3}set5 = {num for num in range(1, 20) if num % 3 == 0 or num % 7 == 0}
print(set5)  # 输出:{3, 6, 7, 9, 12, 14, 15, 18}

这里要特别强调,集合中的元素必须是hashable类型。所谓hashable类型,指的是能够计算出哈希码的数据类型,通常不可变类型都是hashable类型,比如整数(int)、浮点小数(float)、布尔值(bool)、字符串(str)、元组(tuple)等。而可变类型不是hashable类型,因为可变类型无法计算出确定的哈希码,所以不能作为集合中的元素。例如,不能将列表作为集合元素;同理,由于集合本身也是可变类型,所以集合也不能作为集合中的元素。我们可以创建嵌套列表,但不能创建嵌套集合,这在使用集合时需格外留意。

三、元素的遍历

在 Python 中,可以使用len函数来获取集合中元素的数量,但由于集合是无序的,不能通过索引运算来遍历集合中的元素。要遍历集合元素,可以使用for-in循环。

set1 = {'Python', 'C++', 'Java', 'Kotlin', 'Swift'}
for elem in set1:print(elem)
"""
输出:
C++
Java
Swift
Python
Kotlin
"""

四、集合的运算

Python 为集合类型提供了丰富的运算,主要包括成员运算、交集运算、并集运算、差集运算、比较运算(相等性、子集、超集)等。

1. 成员运算

可以使用成员运算符innot in来检查元素是否存在于集合中

set1 = {11, 12, 13, 14, 15}
print(10 in set1)  # False
print(15 in set1)  # True
set2 = {'Python', 'Java', 'C++', 'Swift'}
print('Ruby' in set2)  # False
print('Java' in set2)  # True

2. 二元运算

集合的二元运算主要有交集、并集、差集、对称差等运算,这些运算既可以通过运算符实现,也可以使用集合类型的方法来完成

set1 = {1, 2, 3, 4, 5, 6, 7}
set2 = {2, 4, 6, 8, 10}# 交集:返回两个集合中共同拥有的元素
print(set1 & set2)  # {2, 4, 6}
print(set1.intersection(set2))  # {2, 4, 6}# 并集:返回两个集合中所有不重复的元素
print(set1 | set2)  # {1, 2, 3, 4, 5, 6, 7, 8, 10}
print(set1.union(set2))  # {1, 2, 3, 4, 5, 6, 7, 8, 10}# 差集:返回只存在于第一个集合而不在第二个集合中的元素
print(set1 - set2)  # {1, 3, 5, 7}
print(set1.difference(set2))  # {1, 3, 5, 7}# 对称差:返回两个集合中不重复的元素
print(set1 ^ set2)  # {1, 3, 5, 7, 8, 10}
print(set1.symmetric_difference(set2))  # {1, 3, 5, 7, 8, 10}

3. 比较运算

两个集合可以使用==!=进行相等性判断。如果两个集合中的元素完全相同,==比较的结果为True,否则为False。若集合A的任意一个元素都是集合B的元素,那么集合A称为集合B的子集,即对于 ∀ a ∈ A \small{\forall{a} \in {A}} aA ,均有 a ∈ B \small{{a} \in {B}} aB ,则 A ⊆ B \small{{A} \subseteq {B}} AB ,此时称AB的子集,反过来也可以说BA的超集。如果AB的子集且A不等于B,那么A就是B的真子集。Python 为集合类型提供了判断子集和超集的运算符,即<<=>>=。当然,也可以使用集合类型的方法issubsetissuperset来判断集合之间的关系

set1 = {1, 3, 5}
set2 = {1, 2, 3, 4, 5}
set3 = {5, 4, 3, 2, 1}print(set1 < set2)  # True
print(set1 <= set2)  # True
print(set2 < set3)  # False
print(set2 <= set3)  # True
print(set2 > set1)  # True
print(set2 == set3)  # Trueprint(set1.issubset(set2))  # True
print(set2.issuperset(set1))  # True

五、集合的方法

Python 中的集合是可变类型,可以使用方法向集合中添加或删除元素。

set1 = {1, 10, 100}# 添加元素
set1.add(1000)
set1.add(10000)
print(set1)  # {1, 100, 1000, 10, 10000}# 删除元素
set1.discard(10)
if 100 in set1:set1.remove(100)
print(set1)  # {1, 1000, 10000}# 清空元素
set1.clear()
print(set1)  # set()

需要注意的是,如果使用remove方法删除不存在的元素,会引发KeyError错误。所以在上述代码中,先通过成员运算判断元素是否在集合中。集合类型还有一个pop方法,它可以从集合中随机删除一个元素,并且在删除元素的同时会返回被删除的元素,而removediscard方法只是单纯地删除元素,不会返回被删除的元素。

集合类型还有一个isdisjoint方法,用于判断两个集合是否有相同元素。如果没有相同元素,该方法返回True,否则返回False

set1 = {'Java', 'Python', 'C++', 'Go'}
set2 = {'Go', 'Swift', 'Java', 'Dart'}
set3 = {'HTML', 'CSS', 'JavaScript'}
print(set1.isdisjoint(set2))  # False
print(set1.isdisjoint(set3))  # True

六、不可变集合

Python 中还有一种不可变类型的集合,叫做frozensetsetfrozenset的区别就如同listtuple的区别。frozenset由于是不可变类型,能够计算出哈希码,因此可以作为set中的元素。除了不能添加和删除元素外,frozenset在其他方面与set相同,下面的代码简单展示了frozenset的用法:

fset1 = frozenset({1, 3, 5, 7})
fset2 = frozenset(range(1, 6))
print(fset1)  # frozenset({1, 3, 5, 7})
print(fset2)  # frozenset({1, 2, 3, 4, 5})
print(fset1 & fset2)  # frozenset({1, 3, 5})
print(fset1 | fset2)  # frozenset({1, 2, 3, 4, 5, 7})
print(fset1 - fset2)  # frozenset({7})
print(fset1 < fset2)  # False

相关文章:

  • 基于springboot的核酸检测管理系统(源码+数据库)
  • 数据库服务器备份,数据库服备份到另一台服务器的方法有哪些?
  • 【java】输入
  • 【单例模式】简介
  • 服务器频繁重启日志分析与诊断
  • AttributeError: module ‘distutils‘ has no attribute ‘version‘
  • Unity URPShader:实现和PS一样的色相/饱和度调整参数效果(修复)
  • windows 使用websocket++ (C++环境)
  • 探索MySQL InnoDB:事务、日志与锁的奥秘
  • Redis应用场景实战:穿透/雪崩/击穿解决方案与分布式锁深度剖析
  • PostgreSQL可串行化快照隔离和冻结处理
  • Kaamel白皮书:MCP安全实践
  • 论软件系统的透明性挑战及应对策略
  • ArcGIS+GPT:多领域地理分析与决策新方案
  • 产品月报|睿本云4月产品功能迭代
  • JAVA学习-练习试用Java实现“实现一个生成对抗网络(GAN) :用于图像生成或数据增强”
  • 容器内启动GUI界面相关问题。
  • PostgreSQL中的Replication_slot
  • YOLOv11改进:视觉变换器SwinTransformer目标检测网络
  • 泰迪杯特等奖案例学习资料:基于多模态融合与边缘计算的智能温室环境调控系统
  • 中国代表:美“对等关税”和歧视性补贴政策严重破坏世贸规则
  • 证监会:坚决拥护党中央对王建军进行纪律审查和监察调查决定
  • 十四届全国人大常委会第十五次会议在京闭幕
  • 笔墨如何“构城”?上海美院城市山水晋京展出
  • 辽宁省委书记、省长连夜赶赴辽阳市白塔区火灾事故现场,指导善后处置工作
  • 伊朗港口爆炸死亡人数升至70人