当前位置: 首页 > news >正文

【常用算法:排序篇】6.归并排序双刃剑:逆序数秒算与搜索引擎海量数据排序

在这里插入图片描述

1. 归并排序核心思想

1. 核心特性

分治法:将数组递归拆分为子数组排序后合并,时间复杂度稳定在 (O(n \log n))。
关键特性:稳定、高效,适合大规模数据,且合并过程可嵌入业务逻辑(如逆序数统计、多路归并)。

2. 步骤解析

分治策略将数组递归分为左右两半,分别计算左半部分和右半部分的逆序数。

合并过程统计逆序数在合并两个已排序的子数组时,每当从右子数组取出元素时,左子数组中剩余的元素均与该元素构成逆序对,统计这些逆序对的数量。

递归累加逆序数总逆序数 = 左子数组逆序数 + 右子数组逆序数 + 合并过程中跨越子数组的逆序数。

3. 算法分析

  • 时间复杂度:O(n log n),与归并排序一致。
  • 空间复杂度:O(n),用于临时存储合并后的数组。
  • 关键优化点
    • 合并时的逆序数统计:通过比较左右子数组元素,动态计算跨子数组的逆序对。
    • 递归分治:将问题分解为子问题,分别处理内部逆序数。

2. 应用一:归并排序秒解逆序数问题

什么是逆序数。在一个排列中,如果一对数的前后位置与大小顺序相反,即前面的数大于后面的数,那么它们就是一个逆序。一个排列中逆序的总数就是这个排列的逆序数。
我们看下面这个序列,根据逆序数的定义,序列中逆序的个数有 5 个,分别是(7,2)、(9,2)、(7,6)、(9,6)和(14,12)。
在这里插入图片描述

1.核心逻辑

  • 逆序数定义:数组中前大后小的元素对数。
  • 合并过程统计:当右子数组元素被选中时,左子数组剩余元素数即为当前逆序数。

2.Python代码实现

def merge_sort_count(arr):if len(arr) <= 1:return arr, 0mid = len(arr) // 2left, left_cnt = merge_sort_count(arr[:mid])right, right_cnt = merge_sort_count(arr[mid:])merged, merge_cnt = merge(left, right)return merged, left_cnt + right_cnt + merge_cntdef merge(left, right):merged, i, j, count = [], 0, 0, 0while i < len(left) and j < len(right):if left[i] <= right[j]:merged.append(left[i])i += 1else:merged.append(right[j])count += len(left) - i  # 关键统计逻辑j += 1merged += left[i:] + right[j:]return merged, count

示例:数组 [2, 4, 1, 3, 5] 的逆序数为 3,合并阶段动态统计跨子数组逆序对。

3.应用场景

  • 金融数据分析(如股票交易逆序模式)
  • 推荐系统(用户行为序列分析)

3. 应用二:多路归并排序颠覆搜索引擎性能

在这里插入图片描述

1.核心挑战

  • 海量数据:4TB 数据无法全载入内存,需外部排序
  • 高效合并:通过堆优化多路归并,时间复杂度 (O(n \log k))((k) 为分块数)。

2.实现步骤

  1. 数据分块:分割为内存可容纳的小块,分别排序后写入磁盘。
  2. 多路归并
    • 堆维护:用最小堆动态选择当前最小元素。
    • I/O优化:缓冲区批量读取,减少磁盘访问次数。

3.Python代码示例

import heapqdef k_way_merge(arrays):heap = []for i, arr in enumerate(arrays):if arr:heapq.heappush(heap, (arr[0], i, 0))merged = []while heap:val, arr_idx, elem_idx = heapq.heappop(heap)merged.append(val)if elem_idx + 1 < len(arrays[arr_idx]):next_val = arrays[arr_idx][elem_idx+1]heapq.heappush(heap, (next_val, arr_idx, elem_idx+1))return merged

4.搜索引擎优化策略

  • 倒排索引合并:按权重(如TF-IDF)排序,使用跳跃指针加速定位。
  • 动态更新支持:LSM树结构结合内存组件(MemTable)与后台归并。
  • 分布式归并:跨节点局部归并后全局合并,提升吞吐量。

4. 对比与总结

场景逆序数计算搜索引擎排序
核心思想合并时统计跨子数组逆序对多路归并 + 堆优化
时间复杂度(O(n \log n))(O(n \log k))
数据结构临时数组 + 递归栈堆 + 外部存储分块
业务整合动态统计逻辑去重、动态评分、分布式支持

归并排序的威力

  • 一法多用:同一算法框架解决逆序数、海量数据排序等截然不同的问题。
  • 性能与扩展性:通过分治、堆、外部存储优化,适应从内存到分布式系统的多层次需求。

相关文章:

  • Virtualized Table 虚拟化表格 el-table-v2 表头分组 多级表头的简单示例
  • 机器学习基础课程-5-课程实验
  • 使用Docker部署MongoDB
  • AI时代的弯道超车之第七章:如何用AI赋能创业?
  • springboot项目启动报错:找不到或无法加载主类
  • SVNAdmin管理使用教程
  • ECharts:数据可视化的强大引擎
  • springboot + mysql8降低版本到 mysql5.7
  • 智能体制作学习笔记2——情感客服
  • ollama升级
  • QListWedget控件使用指南
  • 远程连接电脑的方法?异地远程桌面连接和三方软件实现
  • 海康平台对接关键类
  • Ubuntu摄像头打开失败
  • 4.重建大师菜单栏介绍
  • Solana数据索引问题与解决方案
  • Nginx+Lua 实战避坑:从模块加载失败到版本冲突的深度剖析
  • spark中的转换算子
  • 固定步长和变步长的LMS自适应滤波器算法
  • Qwen集成clickhouse实现RAG
  • 端午假期购票日历发布,今日可购买5月29日火车票
  • 陕西省安康市汉阴县县长陈永乐已任汉阴县委书记
  • 第十届影像上海博览会落幕后,留给中国摄影收藏的三个问题
  • 中美是否计划讨论美方以芬太尼为由对华征收的特别关税?外交部回应
  • 1至4月我国汽车产销量首次双超千万辆
  • 听企业聊感受,《外企聊营商》5月13日起推出