当前位置：首页 > news >正文

Python复杂元素排序：从基础到高阶

news 2025/8/18 12:46:54

一、引言

在实际编程中，我们经常需要对复杂结构的数据（如文件名、日志记录、JSON数据等）进行排序。Python提供了灵活的排序方法，但如何高效、优雅地处理复杂元素的排序呢？本文将通过一个文件名排序的案例，介绍多种排序方法，并分析它们的适用场景和性能差异。

二、问题描述

给定一个文件名列表：

lst = ["文件_01.jpg", "文件_02.jpg", "文件_04.jpg", "文件_03.jpg"]
我们希望按照文件名中的数字部分（01, 02, 03, 04）进行排序，得到：
['文件_01.jpg', '文件_02.jpg', '文件_03.jpg', '文件_04.jpg']

方法 1：split 分割法（基础版）

思路：使用 split() 方法按 _ 和 . 分割文件名，提取数字部分：

lst = ["文件_01.jpg", "文件_02.jpg", "文件_04.jpg", "文件_03.jpg"]
ls = sorted(lst, key=lambda x: x.split("_")[1].split(".")[0])
print(ls)

输出:['文件_01.jpg', '文件_02.jpg', '文件_03.jpg', '文件_04.jpg']

代码简单，不依赖额外库。适用于固定格式的文件名（如前缀_数字.后缀）。

缺点：如果文件名格式变化（如文件-01.jpg），可能失效。

无法处理数字前后有其他字符的情况（如文件_001_版本2.jpg）。

方法 2：re.split 正则分割法

思路:使用 re.split() 按 _ 或 . 分割，提取数字部分并转为 int：

import re
lst = sorted(lst, key=lambda x: x.split("_")[1].split(".")[0])
print(sorted(lst, key=lambda x: int(re.split("[_.]", x)[1])))

输出: ['文件_01.jpg', '文件_02.jpg', '文件_03.jpg', '文件_04.jpg']

优点：比 split() 更灵活，支持多种分隔符。数字转为 int，避免字符串排序问题（如 "2" 和 "10"）。

缺点：

仍然依赖固定的分隔符结构，无法处理文件001.jpg 这样的格式。

方法 3：re.search 正则匹配法（推荐）

思路: 使用 re.search(r"\d+", x) 直接匹配数字部分：

import re
lst = sorted(lst, key=lambda x: x.split("_")[1].split(".")[0])
sorted_lst = sorted(lst, key=lambda x: int(re.search(r"\d+", x).group()))
print(sorted_lst)

输出: ['文件_01.jpg', '文件_02.jpg', '文件_03.jpg', '文件_04.jpg']

优点：最健壮的方法，适用于各种数字嵌入文件名的情况（如文件123版本4.jpg）。

不依赖固定分隔符，只要数字存在就能匹配。

缺点：需要 re 模块，略微增加代码复杂度。

方法 4：natsort 自然排序库

思路: 使用第三方库 natsort，它专门处理人类可读的“自然排序”：

from natsort import natsorted
lst = sorted(lst, key=lambda x: x.split("_")[1].split(".")[0])
print(natsorted(lst))

输出: ['文件_01.jpg', '文件_02.jpg', '文件_03.jpg', '文件_04.jpg']

优点：自动识别数字部分，无需手动提取。适用于更复杂的排序场景（如 file1.txt, file10.txt, file2.txt）。

缺点：需要安装额外库（pip install natsort）。

方法 5：key 函数优化（处理缺失数字）

思路: 如果文件名可能不含数字，可以优化 key 函数：

ls = sorted(lst, key=lambda x: x.split("_")[1].split(".")[0])
def extract_num(filename):match = re.search(r"\d+", filename)return int(match.group()) if match else 0 # 默认返回 0
print(sorted(lst, key=extract_num))

优点：更健壮，即使文件名不含数字也不会报错。可扩展性强，可自定义默认值或排序规则。