当前位置: 首页 > news >正文

pyspark(一) DataFrame结合jupyter入门

DataFrame描述

DataFrame是一个二维表结构,包括行、列以及schema(元数据)

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。

PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当显式调用collect()等操作时,计算就会开始

代码展示

入口以及创建

普通创建

普通创建+schema

 

 根据pandas创建

打印信息 

数据展示

打印元数据信息

展示指定行

展示列名

describe汇总

collet

防止内存溢出,打印指定行行数

toPandas()

返回指定列

返回指定列实例

分配新的列

过滤器 

分组计算示例

写入文件&读取文件&指定压缩格式

csv

parquet

转换SparkSql 

sql运行

UDF函数

相关文章:

  • 南京金九建设集团网站广州最新疫情最新消息
  • 独立站建站详细步骤百度链接收录提交入口
  • 海口建站网站模板百度上广告怎么搞上去的
  • 做算命网站建站工具
  • 营销策划公司怎么选广告关键词优化公司
  • 网站制作手机端什么推广平台好
  • Redis内存淘汰策略详解
  • Java面试题总结6
  • 【GPTs分享】每日GPTs分享之Image Generator Tool
  • 加密和签名的区别及应用场景
  • 详解字符串函数<string.h>(上)
  • 详解IP安全:IPSec协议簇 | AH协议 | ESP协议 | IKE协议
  • 回溯 Leetcode 47 全排列II
  • 鸿蒙ArkTs开发WebView问题总结
  • ChatGPT学习第三周
  • SpringBoot 自定义映射规则resultMap association一对一
  • Nacos配置
  • 动态规划--(算法竞赛、蓝桥杯)--二维费用背包
  • 如何学习自然语言处理之语言模型
  • 【投稿优惠|快速见刊】2024年图像,机器学习和人工智能国际会议(ICIMLAI 2024)
  • element-ui附件上传及在线查看详细总结,后续赋源码
  • StarRocks——中信建投基于StarRocks构建统一查询服务平台
  • WPF 【十月的寒流】学习笔记(1):DataGrid过滤
  • Unity将4个纹理图拼接成1个纹理
  • 类型字段定义影响WebApi传值及SqlSugar调用Select创建新对象
  • Vue3修改Element-plus语言与项目国际化