当前位置：首页 > news >正文

Java Stream流之GroupBy的用法

news 2025/11/8 10:16:25

Java Stream流之GroupBy的用法

1. 前言

在处理集合数据时，我们常常需要将数据按照某个特定条件进行分组。例如，在一个学生列表中，可能需要按班级、性别或其他属性对学生进行分类统计。Java Stream API 提供了强大的功能来实现这一点，其中 group by 是最常用的工具之一。

本教程将详细介绍如何在 Java 中使用 Stream 流的 group by 方法，包括基本用法和一些常见的实际应用场景。

2. 基础概念

什么是 GroupBy？

GroupBy 是一种数据处理操作，用于根据指定的条件将数据集中的元素分成不同的组。每组中的元素都共享某个共同属性或满足某个特定条件。这在数据分析、统计和报告生成中非常有用。

Stream API 中的 GroupBy

Java 8 引入了 Stream API，它提供了一种高效且简洁的方式来处理集合数据。group by 是 Stream API 的一部分，允许开发者轻松地将数据分组，并对每个组执行进一步的操作。

3. 基本用法

3.1 分组依据

在使用 group by 时，首先需要确定根据什么条件进行分组。这通常是一个函数，它从每个元素中提取一个键值（如某个属性的值），并根据这个键值将元素分成不同的组。

示例：按班级分组

假设我们有一个学生列表：

List<Student> students = Arrays.asList(new Student("Alice", 20, "Class A"),new Student("Bob", 21, "Class B"),new Student("Charlie", 20, "Class A"),new Student("David", 22, "Class C")
);

我们希望将这些学生按班级分组。每个学生的 className 属性将作为分组的依据。

3.2 使用 group by 进行分组

在 Stream API 中，使用 Collectors.groupingBy() 方法来实现分组操作。该方法需要一个 Classifier 函数，用于从每个元素中提取分组键。

示例代码：

Map<String, List<Student>> groupedStudents = students.stream().collect(Collectors.groupingBy(student -> student.getClassName()));

解释：

students.stream()：将学生列表转换为一个 Stream。
.collect(Collectors.groupingBy(...))：使用 Collectors.groupingBy() 方法进行分组。括号内是一个 Lambda 表达式，用于从每个学生对象中提取 className 作为分组键。
返回值：得到一个 Map<String, List<Student>>，其中键是班级名称（如 “Class A”、“Class B” 等），值是属于该班级的学生列表。

3.3 分组后的操作

一旦数据被分组，可以对每个组执行各种操作，比如统计组内元素的数量、计算平均值等。这通常通过 Collectors 中的其他方法来实现。

示例：按班级统计学生人数

Map<String, Long> classCount = students.stream().collect(Collectors.groupingBy(Student::getClassName,Collectors.counting()));

解释：

Student::getClassName：使用方法引用作为分组键提取函数。
Collectors.counting()：指定在每个组内统计元素的数量。

结果：

得到一个 Map<String, Long>，其中键是班级名称，值是该班级的学生人数。例如：

{"Class A": 2,"Class B": 1,"Class C": 1
}

4. 高级用法

4.1 自定义分组逻辑

在某些情况下，可能需要更复杂的分组条件。例如，除了按班级分组外，还可以根据年龄区间对学生进行分组。

示例：按年龄区间分组

假设我们希望将学生按照年龄段（如 “Under 20”、“20-22”、“Over 22”）进行分组。

Map<String, List<Student>> ageGroupedStudents = students.stream().collect(Collectors.groupingBy(student -> {if (student.getAge() < 20) {return "Under 20";} else if (student.getAge() <= 22) {return "20-22";} else {return "Over 22";}}));

解释：

Lambda 表达式：定义了一个自定义的分组逻辑，根据学生的年龄返回不同的区间字符串。
结果：得到一个 Map<String, List<Student>>，其中键是年龄区间，值是属于该区间的学生成绩列表。

4.2 多级分组

有时候需要按照多个条件进行分组。例如，首先按班级分组，然后在每个班级内再按性别分组。这可以通过嵌套 Collectors.groupingBy() 方法来实现。

示例：按班级和性别分组

Map<String, Map<String, List<Student>>> groupedByClassAndGender = students.stream().collect(Collectors.groupingBy(Student::getClassName,Collectors.groupingBy(student -> student.getGender())));

解释：

外层 groupingBy：按班级分组。
内层 groupingBy：在每个班级内，再按性别分组。

结果结构：

{"Class A": {"Male": [...],"Female": [...]},"Class B": {"Male": [...],...},...
}

4.3 统计和聚合操作

除了分组之外，还可以对每个组内的数据进行统计和聚合。例如，计算每个班级的平均年龄。

示例：按班级计算平均年龄

Map<String, Double> averageAgeByClass = students.stream().collect(Collectors.groupingBy(Student::getClassName,Collectors.averagingInt(Student::getAge)));

解释：

Collectors.averagingInt()：用于计算每个组内某个整数属性的平均值。
结果：得到一个 Map<String, Double>，其中键是班级名称，值是该班级学生的平均年龄。

5. 常见应用场景

5.1 统计订单数量按地区分组

假设有一个电子商务平台，需要统计每个地区的订单数量。

List<Order> orders = ...; // 订单列表Map<String, Long> orderCountByRegion = orders.stream().collect(Collectors.groupingBy(Order::getRegion,Collectors.counting()));

5.2 按产品类别计算销售额

需要统计每个产品类别的总销售额。

List<ProductSale> sales = ...; // 销售记录列表Map<String, Double> totalSalesByCategory = sales.stream().collect(Collectors.groupingBy(ProductSale::getCategory,Collectors.summingDouble(ProductSale::getAmount)));

5.3 分析用户行为按时间段分组

需要分析网站用户的访问时间分布。

List<UserVisit> visits = ...; // 用户访问记录列表Map<String, List<UserVisit>> visitsByTimeSlot = visits.stream().collect(Collectors.groupingBy(visit -> {LocalTime time = visit.getVisitTime();if (time.isBefore(LocalTime.of(12, 0))) {return "Morning";} else if (time.isBefore(LocalTime.of(18, 0))) {return "Afternoon";} else {return "Evening";}}));

6. 注意事项

6.1 空值处理

如果某些元素的分组键为 null，默认情况下会将它们放在一个特殊的 "null" 键对应的列表中。为了避免这种情况或进行特殊处理，可以在分组时提供自定义的空值处理逻辑。

示例：处理 null 分组键

Map<String, List<Student>> groupedStudents = students.stream().collect(Collectors.groupingBy(student -> {String className = student.getClassName();return className != null ? className : "Unknown Class";}));

6.2 性能考虑

对于大数据集，分组操作可能会消耗较多的内存和计算资源。因此，在处理大规模数据时，需要注意性能优化。

避免复杂的分组逻辑：尽量使用简单、高效的分组键提取函数。
并行流：如果硬件支持，可以考虑将 Stream 转换为并行流以提高处理速度。例如：

Map<String, List<Student>> groupedStudents = students.parallelStream().collect(Collectors.groupingBy(student -> student.getClassName()));

7. 总结

通过本教程的学习，您应该掌握了如何在 Java 中使用 Stream API 的 group by 方法对数据进行分组和统计。无论是在简单的分类还是复杂的多级分组场景中，Stream API 都能提供高效且简洁的解决方案。

希望这些知识能够帮助您在实际开发中更好地处理数据分组需求！

继续深入学习？

如果您想进一步提高自己的 Java 技能，可以考虑学习以下内容：

Java 8+ 新特性：掌握 Lambda 表达式、函数式接口等。
流操作高级技巧：了解 Collectors 的各种用法和性能优化方法。
数据处理框架：如 Apache Flink、Spark 等，用于处理更大规模的数据。

保持学习，不断进步！

查看全文

http://www.dtcms.com/a/136235.html

Servlet 线程安全与并发编程深度解析

【Linux 并发与竞争】

AWS CloudFront加速S3配置跨域

牟乃夏《ArcGIS Engine地理信息系统开发教程》学习笔记2

Reactor Core 中的 Flux：响应式数据流的核心实践

【MySQL】索引分类、聚簇与非聚簇索引，索引优化，常见explain分析索引案例，type字段

今日行情明日机会——20250416

Tree Shaking（摇树优化）详解

【ROS】代价地图

【技巧】chol分解时，矩阵非正定时的临时补救措施，以MATLAB为例

数学教学通讯杂志数学教学通讯杂志社数学教学通讯编辑部2025年第6期目录

深度解析C++开源OCR引擎：架构、编译优化与工业级部署指南

C++学习：六个月从基础到就业——面向对象编程：封装、继承与多态

【Pandas】pandas DataFrame tail

if constexpr

数学建模AI智能体(4.16大更新)

XSS 跨站Cookie 盗取表单劫持网络钓鱼溯源分析项目平台框架

Suno API 无水印版本在国内的稳定使用

KES2024论文 MoOnEv: Modular Ontology Evaluation and Validation tool

Unity进阶课程【四】Recorder 插件的使用 - 录制游戏画面、音频、动画、图片、无水印

咋用fliki的AI生成各类视频？AI生成视频教程

音视频小白系统入门笔记-1

Prometheus+Grafana+K8s构建监控告警系统

电商系统开发：基于飞算JavaAI的分布式事务解决方案自动化实践

【音视频开发】第四章 SDL音视频渲染

国标GB28181视频平台EasyCVR视频汇聚系统，打造别墅居民区智能监控体系

计算机视觉相机模型与标定：如何让计算机“看懂”三维世界？

HTML、CSS 和 JavaScript 常见用法及使用规范

音频基础概念

代理模式深度解析