当前位置：首页 > news >正文

DataFrame 和 Dataset的对比理解

news 2025/7/11 21:20:29

在 Spark 中，DataFrame 和 Dataset 是两种不同的数据结构，它们的关系需要从数据模型和类型系统两个层面理解，而不是简单的 “行” 或 “列” 的包含关系。

一、核心定义与关系

DataFrame = Dataset[Row]
- DataFrame是Dataset的一个特例，其元素类型固定为Row（即Dataset[Row]）。
- Row代表一行数据（如数据库中的一条记录），因此DataFrame本质上是多行 Row 的集合，每行包含多个字段（列）。
Dataset 的泛型本质
- Dataset[T]是强类型的数据集，T可以是任意类型：
  - 当T=Row时，Dataset[Row]就是DataFrame。
  - 当T=自定义类（如Person）时，Dataset[Person]是强类型的对象集合。

二、从数据模型看结构

以 “学生信息表” 为例：

姓名（name）	年龄（age）	成绩（scores）
Alice	20	[90, 85, 95]
Bob	22	[80, 82, 78]

DataFrame 的结构
- 每一行是一个Row对象，包含 3 个字段（列）。
- 整个 DataFrame 是多行 Row 的集合，类似二维表格（行 × 列）。
Dataset [Person] 的结构
- 若定义case class Person(name: String, age: Int, scores: Seq[Int])，则每个元素是Person对象，包含 3 个属性（类似行的字段）。
- 整个 Dataset 是多个 Person 对象的集合，每个对象内部封装了行数据。

三、为什么 DataFrame 被定义为 Dataset [Row]？

历史演进原因
- Spark 早期版本先推出DataFrame（基于 Row 的无类型接口），后来引入Dataset（强类型接口）。
- 为了兼容旧接口，DataFrame被定义为Dataset[Row]的别名，本质是对 Row 集合的封装。
类型系统的统一
- Dataset是更通用的抽象：
  - DataFrame（无类型） = Dataset[Row]（弱类型）。
  - 强类型Dataset[T] = 自定义类型的对象集合（如Dataset[Person]）。

四、两者的核心区别

维度	DataFrame（Dataset[Row]）	Dataset [T]（强类型）
数据类型	元素是`Row`（无类型，字段通过索引 / 名称访问）	元素是自定义类型`T`（编译时类型安全）
类型检查	运行时检查（如字段类型错误）	编译时检查（IDE 提示类型错误）
API 风格	接近 SQL（如`df.select("name")`）	接近 Scala 集合（如`ds.filter(_.age > 20)`）
性能	与 Dataset 相当（底层优化一致）	部分场景因类型推导更高效

五、如何理解 “行” 与 “列” 的关系？

DataFrame 中的 “行” 与 “列”
- 行：每个Row对象代表一行数据（如 Alice 的信息）。
- 列：每个Row中的字段（如 name、age）是列的定义，由 Schema 统一管理。
DataFrame 与 Dataset 的包含关系
- DataFrame 是 Dataset 的子集：所有 DataFrame 都是 Dataset，但 Dataset 不一定是 DataFrame（如Dataset[Person]）。
- 两者的区别在于元素类型：DataFrame 的元素是Row，而 Dataset 的元素可以是任意类型T。

六、总结：一句话理清关系

DataFrame 是 “多行 Row 的集合”，每行包含多个字段（列），本质是Dataset的特例（Dataset[Row]）。
Dataset 是更通用的抽象，可存储任意类型的对象（如 Row、自定义类），每个对象代表一行数据，对象的属性对应列。

七、实际开发中的选择

使用 DataFrame：
- 处理动态 Schema 数据（如 JSON、CSV）。
- 更习惯 SQL 风格的 API（如select、filter）。
使用强类型 Dataset [T]：
- 追求编译时类型安全。
- 希望用面向对象方式操作数据（如ds.map(person => person.name)）。

通过as[T]方法可灵活转换两者：

scala

val df: DataFrame = spark.read.csv("students.csv")
val ds: Dataset[Person] = df.as[Person]  // 转换为强类型Dataset

查看全文

http://www.dtcms.com/a/211370.html

vue2中el-table 实现前端分页

第十五章：数据治理之数据目录：摸清家底，建立三大数据目录

大数据如何让智能物流和仓储管理更高效？从预测到自动调度

Qwen2.5 VL 语言生成阶段（4）

【Python 中 lambda、map、filter 和 reduce】详细功能介绍及用法总结

2025年上半年软件架构师考试回忆版【持续更新】

VS编码访问Mysql数据库

spike：一款协议模糊测试器工具包！全参数详细教程！Kali Linux教程！

构建跨平台C/C++项目的基石：现代构建套件设计指南

趋势触发策略

关于spring @Bean里调用其他产生bean的方法

vFile文件的精读

酷柚易汛ERP仓储物流解决方案

怎样把B站的视频保存到本地

NodeRAG: 基于异构节点的基于图的RAG结构

红黑树简单模拟实现

复杂度讲解

金融科技应用：基于XGBoost与SHAP的信用评分模型构建全流程解析

【项目需求分析文档】：在线音乐播放器（Online-Music）

串扰与反射对信号完整性的影响

大数据治理：理论、实践与未来展望（二）

QWidget类关系图

地理特征类相关可视化图像总结

Windows逆向工程提升之IMAGE_RESOURCE_DIRECTORY

Java 垃圾回收

光模块（Optical Module）的工作原理、技术参数、应用场景及行业趋势

【MPC控制 - 从ACC到自动驾驶】2 车辆纵向动力学建模与离散化：MPC的“数字蓝图”

Python学习心得：代码森林的冒险

【笔记】关于synchronized关键字的底层原理之我流理解（未完）

2024 CKA模拟系统制作 | Step-By-Step | 4、题目搭建-权限控制RBAC