当前位置：首页 > news >正文

Python编程之数据分组

news 2025/11/4 8:09:57

有哪些方式可以进行数据分组
利用Pandas库进行分组
使用itertools库的groupby分组操作
构建Python字典方式实现（小规模数据，不适用数量特别大的情况，不需要依赖其它python库）
利用NumPy的groupby函数分组操作
利用Python的Dask库提供的函数进行分组
下面看一个如何去实现坐标数据的分组示例
总结

HI，各位老铁们，今天我们利用Python来介绍一下数据分组的相关知识点。众所周知Python是一种被广泛应用的高级编程语言，在团队项目开发和实际应用中，经常需要使用python来对数据进行拆分或分组等操作，因为它是一个跨平台语言，操作和兼容性都比较方便；既然如此，接下来详细的收罗与介绍一下Python都哪些库和方法可以对数据进行分组和拆分等操作；

有哪些方式可以进行数据分组

Python pandas插件的groupby函数，用于对数组按key进行分组处理；
Python itertools插件的groupby，利用迭代器功能进行分组处理；
利用Python的字典方式进行分组处理；
Python NumPy科学计算插件库的groupby进行分组处理；
使用dask.dataframe库进行分组处理；
Python SciPy插件的group函数，用于对原数组进行相应的子集操作进行分组处理；

不同库其调用和处理方式各不相同，接下来将一一列出相应功能使用方式和示例。

利用Pandas库进行分组

使用pandas前需要提前安装pip3 install pandas
在这里插入图片描述

基本分组操作

import pandas as pd

# 示例数据
data = {
   
    'Category': ['A', 'B', 'A', 'B', 'A'],
    'Values': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# 按 'Category' 分组并计算均值
grouped = df.groupby('Category')['Values'].mean()
print(grouped)

运行后输出结果：

Category
A    30.0
B    30.0
Name: Values, dtype: float64

分裂分组

grouped_multiple = df.groupby(['Category'])['Values'].agg(['sum', 'mean', 'count'])

运行后输出结果：

          sum  mean  count
Category                  
A          90  30.0      3
B          60  30.0      2

利用分组后再进行遍历

for name, group in df.groupby('Category'):
    print(f"Group: {
     name}")
    print(group)

运行后输出结果：

Group: A
  Category  Values
0        A      10
2        A      30
4        A      50
Group: B
  Category  Values
1        B      20
3        B      40

利用自定义聚合函数进行分组

def custom_agg(x):
    return x.max() - x.min()

result = df.groupby('Category')['Values'].agg(custom_agg)

运行后输出结果：

Category    
A    40
B    20

分组后进行条件过滤

filtered = df.groupby('Category').filter(lambda x: x['Values'].sum() > 50)

运行后输出结果：

  Category  Values
0        A      10
1        B      20
2        A      30
3        B      40
4        A      50

使用itertools库的groupby分组操作

需要掌握python迭代器的使用技巧

from itertools import groupby

# 示例数据（需按分组键排序）
data = sorted([

查看全文

http://www.dtcms.com/a/26583.html

机器视觉--图像的参数

vscode将文件中行尾默认CRLF改为LF

12.1 Android中协程的基本使用

如何在 ConstraintLayout 中将 ViewPager 始终置于 ll_title 的下方

前端需要学习 Docker 吗？

【运维】源码编译安装cmake

【C++】The fundamentals of C++

Spring 接入 DeepSeek

AD(Altium Designer)器件封装——立创商城导出原理图和PCB完成器件封装操作指南

达梦存储过程执行后 sql日志信息粗读

idea从远程gitee拉取项目

2025国内十大iPaaS集成平台

老游戏回顾：d2

GoFound 与 MySQL 集成优化方案

Coze扣子新功能详解

C++蓝桥杯基础篇（四）

RocketMQ消息是如何储存的？

事务--实操演示

notepad++右键菜单不见了

Docker 私有仓库 Harbor 详解

Rust Slice（切片）类型

uniapp邪门事件

【技术洞察】2024科技绘卷：浪潮、突破、未来

算法刷题-哈希表的总结

CTF-RE: 基础模块-循环移位

scroll、offset、client三大家族和getBoundingClientRect方法

python concurrent.futures

基于YOLO11深度学习的果园苹果检测与计数系统设计与实现【python源码+Pyqt5界面+数据集+训练代码】

【Spring生命周期】Bean元信息配置阶段

Python Selenium自动化操作详解：从入门到实战

有哪些方式可以进行数据分组

利用Pandas库进行分组

使用itertools库的groupby分组操作

相关文章：