数据结构-排序(1)
一,排序的基本概念
1.排序的定义
-
核心概念: 给定一个包含
n
个元素的序列(R1, R2, ..., Rn)
和一个关键码Ki
(通常是记录Ri
的一个属性),排序的目标是找到一个排列(p1, p2, ..., pn)
,使得关键码序列(Kp1, Kp2, ..., Kpn)
满足一个特定的非递减(升序)或非递增(降序)关系。 -
通俗理解: 就是把一堆杂乱无章的数据,按照某种规则(比如数字大小、字母顺序、日期先后)排列整齐的过程。
2.排序的目的与重要性
-
提高查找效率: 在有序数据上进行查找(尤其是二分查找)的速度远快于无序数据(顺序查找)。例如,在电话簿中找名字、在字典中查单词。
-
数据组织与呈现: 用户通常期望看到有序的数据,如按价格从低到高显示商品、按分数从高到低排名学生成绩、按时间顺序显示邮件。
-
数据分析和统计的基础: 许多统计计算(如中位数、百分位数)和数据分析操作(如合并、分组、去重)都依赖于或受益于数据的有序性。
-
作为其他算法的子程序: 很多高效的算法(如归并排序用于外部排序、二叉搜索树构建)都需要先对数据进行排序。
-
优化资源使用: 有序数据有时可以减少存储空间(如通过游程编码压缩)或提高某些处理过程(如合并有序文件)的效率。
3.排序的分类(关键维度)
排序算法可以从多个维度进行分类,以下是主要分类方式:
1.按存储位置:
- 内部排序: 整个排序过程完全在内存中进行。适用于数据量较小,可以一次性加载到内存的情况。这是最常见的研究对象。例如:冒泡排序、插入排序、选择排序、快速排序、堆排序、归并排序。
- 外部排序: 待排序的数据量非常大,无法一次性装入内存。排序过程需要在内存和外存(如磁盘)之间进行多次数据交换。通常基于归并排序的思想进行优化。例如:多路归并排序
2.按稳定性:
- 稳定排序: 如果待排序序列中存在关键码相等的记录
Ri
和Rj
(即Ki = Kj
),且在排序前的序列中Ri
领先于Rj
(即i < j
)。如果排序后Ri
仍然领先于Rj
,则称该排序算法是稳定的。 - 重要性: 当需要按多个关键码进行排序时(例如,先按分数降序排,分数相同的再按学号升序排),稳定性至关重要。第一次排序(按分数)的稳定性保证了分数相同的记录在第二次排序(按学号)时,其原始相对顺序(学号顺序)得以保留。
- 常见稳定排序: 冒泡排序、插入排序、归并排序、基数排序、计数排序。
- 不稳定排序: 不能保证关键码相等的记录的相对位置在排序前后保持一致。
- 常见不稳定排序: 选择排序、快速排序、堆排序、希尔排序。
3.按时间复杂度: (最常用和最重要的分类维度)
-
简单排序 / O(n²) 排序: 平均和最坏情况时间复杂度为 O(n²)。通常实现简单,代码量小,适用于小规模数据或基本有序的数据,但性能在大数据量下较差。
-
冒泡排序、插入排序、选择排序。
-
-
高效排序 / O(n log n) 排序: 平均时间复杂度为 O(n log n)。性能优异,适用于大规模数据。
-
快速排序、归并排序、堆排序。
-
-
线性时间排序 / O(n) 排序: 在特定条件下(如关键码是某个较小范围内的整数)可以达到线性时间复杂度 O(n)。它们通常不是基于比较的排序。
-
计数排序、桶排序、基数排序。
-
-
其他: 希尔排序(时间复杂度介于 O(n log n) 和 O(n²) 之间,具体取决于增量序列)。
4.按是否比较:
-
比较排序: 通过比较元素之间的大小关系来决定它们的相对顺序。排序算法的下界(即任何比较排序算法在最坏情况下所需的比较次数)是 Ω(n log n)。
-
冒泡、插入、选择、快速、归并、堆、希尔排序。
-
-
非比较排序: 不通过直接比较元素大小来确定顺序,而是利用数据的特定属性(如整数范围、位数)进行排序。它们可以突破 Ω(n log n) 的下界,达到 O(n) 的时间复杂度,但应用场景有特定限制。
-
计数排序、桶排序、基数排序。
-
5.按原地性:
-
原地排序: 排序过程中只需要常数级别的额外辅助存储空间(O(1))。主要通过在原始数组内部交换元素来完成排序。
-
冒泡排序、插入排序、选择排序、快速排序、堆排序、希尔排序。
-
-
非原地排序: 排序过程中需要额外的、与数据规模 n 成比例的存储空间(O(n) 或更多)。通常需要额外的数组来存放中间结果或最终结果。
-
归并排序、计数排序、桶排序、基数排序。
-
五、常见排序算法简述 (按时间复杂度)
1.O(n²) 算法:
-
冒泡排序: 反复遍历列表,比较相邻元素,如果顺序错误就交换它们。每一轮遍历将最大的元素“冒泡”到末尾。实现简单,效率低。
-
插入排序: 将列表视为“已排序区”和“未排序区”。每次从未排序区取出第一个元素,在已排序区中从后向前扫描找到合适的位置插入。对部分有序数据和小规模数据高效。
-
选择排序: 反复从未排序部分中选择最小(或最大)元素,将其与未排序部分的第一个元素交换位置。交换次数少,但比较次数固定为 O(n²),不稳定。
2.O(n log n) 算法:
-
快速排序: 采用分治法。选择一个基准元素,将列表划分为两部分:小于基准的部分和大于基准的部分。然后递归地对这两部分进行排序。平均性能极佳,是最常用的通用排序算法之一。原地,不稳定。
-
归并排序: 采用分治法。将列表递归地分成两半,直到每部分只有一个元素(天然有序)。然后反复合并两个已排序的子列表,最终得到完整有序列表。性能稳定 (O(n log n)),稳定,但需要额外 O(n) 空间。是外部排序的基础。
-
堆排序: 利用堆(一种特殊的完全二叉树)这种数据结构。将列表构建成最大堆(或最小堆),堆顶元素就是最大(最小)值。将堆顶元素与末尾元素交换,堆大小减一,然后重新调整堆使其满足堆性质。重复此过程直到堆为空。原地,不稳定,O(n log n) 时间复杂度稳定。
3.O(n) 算法 (非比较,特定条件下):
-
计数排序: 要求输入数据是确定范围(如 0 到 k)内的整数。创建一个计数数组统计每个整数出现的次数,然后根据计数数组重构有序序列。稳定,需要额外 O(k+n) 空间。
-
桶排序: 假设输入数据均匀分布在某个范围内。将数据分到有限数量的有序桶中(例如,范围 [0,1) 分成 10 个桶 [0,0.1), [0.1,0.2), ..., [0.9,1))。对每个桶内进行排序(可用其他算法),然后按桶顺序依次输出。性能依赖于数据分布和桶内排序算法。
-
基数排序: 从最低有效位(LSD)或最高有效位(MSD)开始,对关键码进行逐位排序。通常使用稳定排序(如计数排序)作为其子过程。适用于整数、字符串等有固定位/字符长度的数据。稳定,需要额外空间。
六、如何选择合适的排序算法?
选择排序算法需要考虑多个因素,没有绝对最好的,只有最适合特定场景的:
1.数据规模 (n):
- 很小 (n < 100): 简单排序(插入、冒泡、选择)效率差别不大,选择实现简单或稳定的(如插入)。
- 中等 (100 < n < 1000): 希尔排序、快速排序、归并排序、堆排序表现良好。插入排序对部分有序数据仍有竞争力。
- 很大 (n > 1000): 必须选择 O(n log n) 算法(快排、归并、堆排)或线性排序(如果条件满足)。快排通常是首选(平均性能好)。
2.数据初始状态:
- 基本有序: 插入排序、冒泡排序效率接近 O(n)。
- 完全随机: 快排、堆排、归并排序表现好。
- 部分有序: 适应性算法(如插入、希尔)可能更快。
3.稳定性要求:
- 需要稳定排序:归并排序、插入排序、冒泡排序、计数排序、基数排序。
- 不需要稳定排序:快排、堆排、选择排序、希尔排序。
4.空间限制:
- 内存紧张:选择原地排序(快排、堆排、插入、希尔、冒泡、选择)。
- 内存充足:归并排序、计数排序、桶排序、基数排序可以考虑。
5.关键码类型和范围:
- 如果是小范围整数:计数排序效率极高 (O(n+k))。
- 如果是整数、字符串且有固定长度:基数排序非常高效 (O(d*(n+k)))。
- 如果是浮点数且均匀分布:桶排序可能表现好。
- 通用类型:只能使用比较排序。
6.实现复杂度和维护性:
- 简单排序(冒泡、插入、选择)易于理解和实现。
- 快排、堆排、归并排序实现相对复杂,但标准库通常已优化实现。
七,排序用到的结构与函数
define MAXSIZE 10
typedef struct
{
int r[MAXSIZE+1];
int length;
}SqList;void swap(SqList *L,int i,int j)
{
int temp=L->r[i];
L->r[i]=L->r[j];
L->r[j]=temp;
}