排序算法——选择排序
一、介绍
「排序算法sortingalgorithm」用于对一组数据按照特定顺序进行排列。排序算法有着广泛的应用,因为有序数据通常能够被更有效地查找、分析和处理。
如图所示,排序算法中的数据类型可以是整数、浮点数、字符或字符串等。排序的判断规则可根据需求设定,如数字大小、字符ASCII码顺序或自定义规则。
二、评价维度
1.运行效率:我们期望排序算法的时间复杂度尽量低,且总体操作数量较少(即时间复杂度中的常数项降低)。对于大数据量情况,运行效率显得尤为重要。
2.就地性:顾名思义,「原地排序」通过在原数组上直接操作实现排序,无须借助额外的辅助数组,从而节省内存。通常情况下,原地排序的数据搬运操作较少,运行速度也更快。
3.稳定性:「稳定排序」在完成排序后,相等元素在数组中的相对顺序不发生改变。稳定排序是多级排序场景的必要条件。假设我们有一个存储学生信息的表格,第1列和第2列分别是姓名和年龄。在这种情况下,「非稳定排序」可能导致输入数据的有序性丧失。
# 输入数据是按照姓名排序好的
# (name, age)
('A', 19)
('B', 18)
('C', 21)
('D', 19)
('E', 23)
# 假设使用非稳定排序算法按年龄排序列表,
# 结果中 ('D', 19) 和 ('A', 19) 的相对位置改变,
# 输入数据按姓名排序的性质丢失
('B', 18)
('D', 19)
('A', 19)
('C', 21)
('E', 23)
4.自适应性:「自适应排序」的时间复杂度会受输入数据的影响,即最佳、最差、平均时间复杂度并不完全相等。 自适应性需要根据具体情况来评估。如果最差时间复杂度差于平均时间复杂度,说明排序算法在某些数据下性能可能劣化,因此被视为负面属性;而如果最佳时间复杂度优于平均时间复杂度,则被视为正面属性。
5.是否基于比较:「基于比较的排序」依赖于比较运算符()来判断元素的相对顺序,从而排序整个数组,理论最优时间复杂度为𝑂(𝑛log𝑛)。而「非比较排序」不使用比较运算符,时间复杂度可达𝑂(𝑛), 但其通用性相对较差。
理想排序算法
运行快、原地、稳定、正向自适应、通用性好。显然,迄今为止尚未发现兼具以上所有特性的排序算法。因此,在选择排序算法时,需要根据具体的数据特点和问题需求来决定。
三、选择排序
1.实现原理
「选择排序selectionsort」的工作原理非常直接:开启一个循环,每轮从未排序区间选择最小的元素,将其放到已排序区间的末尾。设数组的长度为𝑛,选择排序的算法流程如下所示:
1. 初始状态下,所有元素未排序,即未排序(索引)区间为[0,𝑛−1]。
2. 选取区间[0,𝑛−1]中的最小元素,将其与索引0处元素交换。完成后,数组前1个元素已排序。
3. 选取区间[1,𝑛−1]中的最小元素,将其与索引1处元素交换。完成后,数组前2个元素已排序。
4. 以此类推。经过𝑛−1轮选择与交换后,数组前𝑛−1个元素已排序。
5. 仅剩的一个元素必定是最大元素,无须排序,因此数组排序完成。
2.代码
def selection_sort(nums: list[int]):""" 选择排序"""n = len(nums)# 外循环:未排序区间为 [i, n-1]for i in range(n-1):# 内循环:找到未排序区间内的最小元素k = ifor j in range(i + 1, n):if nums[j] < nums[k]:k = j # 记录最小元素的索引# 将该最小元素与未排序区间的首个元素交换nums[i], nums[k] = nums[k], nums[i]nums = [5, 2, 4, 6, 1, 3]
selection_sort(nums)
print(nums)
3.算法特性
‧ 时间复杂度为𝑂()、非自适应排序:外循环共𝑛−1轮,第一轮的未排序区间长度为𝑛,最后一轮 的未排序区间长度为2,即各轮外循环分别包含𝑛、𝑛−1、…、3、2轮内循环,求和为(𝑛−1)(𝑛+2)/2
‧ 空间复杂度𝑂(1)、原地排序:指针𝑖和𝑗使用常数大小的额外空间。
‧ 非稳定排序:如图所示,元素nums[i] 有可能被交换至与其相等的元素的右边,导致两者相对顺序发生改变。