当前位置：首页 > news >正文

python dict list 去重

news 2025/11/16 22:13:45

在Python中，对字典列表（list of dictionaries）进行去重操作可以通过多种方式实现。这里我将介绍几种常见的方法来完成这一任务。

方法1：使用列表推导式和set
如果你关心的是字典中的某个特定键的值是唯一的，你可以使用列表推导式结合set来去重。例如，如果每个字典都有一个"id"键，你可以这样操作：

dict_list = [
{“id”: 1, “name”: “Alice”},
{“id”: 2, “name”: “Bob”},
{“id”: 1, “name”: “Charlie”} # 重复的id
]

使用一个set来跟踪已经添加的id

seen = set()
unique_dict_list = [
x for x in dict_list if not (x[‘id’] in seen or seen.add(x[‘id’]))
]

print(unique_dict_list)
方法2：使用字典推导式和set
如果你想要基于多个字段去重，可以先创建一个由这些字段组成的元组（或任何可哈希的组合），然后使用这个元组作为去重的依据：

dict_list = [
{“id”: 1, “name”: “Alice”},
{“id”: 2, “name”: “Bob”},
{“id”: 1, “name”: “Charlie”} # 重复的id，但这里我们基于id和name去重
]

使用一个set来跟踪已经添加的元组（基于id和name）

seen = set()
unique_dict_list = [
x for x in dict_list if not ((x[‘id’], x[‘name’]) in seen or seen.add((x[‘id’], x[‘name’])))
]

print(unique_dict_list)
方法3：使用pandas库（对于更复杂的数据处理）
如果你在处理较大的数据集或者需要更高级的数据处理功能，可以使用pandas库。pandas提供了非常方便的数据去重方法：

import pandas as pd

dict_list = [
{“id”: 1, “name”: “Alice”},
{“id”: 2, “name”: “Bob”},
{“id”: 1, “name”: “Charlie”} # 重复的id
]

df = pd.DataFrame(dict_list)
unique_df = df.drop_duplicates(subset=‘id’) # 基于’id’去重
unique_dict_list = unique_df.to_dict(‘records’)

print(unique_dict_list)
方法4：自定义函数去重（基于任意键）
如果你需要根据多个键或者复杂的条件去重，可以自定义一个函数：

def is_unique(item, seen):
key = (item[‘id’], item[‘name’]) # 可以根据需要修改这里的键组合
if key not in seen:
seen.add(key)
return True
return False

dict_list = [
{“id”: 1, “name”: “Alice”},
{“id”: 2, “name”: “Bob”},
{“id”: 1, “name”: “Charlie”} # 重复的id和name组合，但这里我们基于id和name去重
]
seen = set()
unique_dict_list = [x for x in dict_list if is_unique(x, seen)]

print(unique_dict_list)
选择哪种方法取决于你的具体需求，比如数据的大小、是否需要基于多个字段去重等因素。对于大多数简单场景，方法1和方法2应该足够使用。如果需要更强大的数据处理能力，可以考虑使用pandas。

查看全文

http://www.dtcms.com/a/269104.html