当前位置: 首页 > news >正文

Spark-SQL核心编程语言

利用IDEA开发spark-SQL

创建spark-SQL测试代码

 

 自定义函数UDF

 自定义聚合函数UDAF

强类型的 Dataset 和弱类型的 DataFrame 都提供了相关的聚合函数, 如 count(),

countDistinct(),avg(),max(),min()。除此之外,用户可以设定自己的自定义聚合函数。Spark3.0之前我们使用的是UserDefinedAggregateFunction作为自定义聚合函数,从 Spark3.0 版本后可以统一采用强类型聚合函数 Aggregator

案例:计算平均工资

实现方式一:RDD

 实现方式二:强类型UDAF

 

 

 实现方式三:弱类型UDAF

 

 

http://www.dtcms.com/a/133630.html

相关文章:

  • 详解@JsonFormat和@DateTimeFormat注解:处理日期格式化的利器
  • Bright+Data网页解锁器在旅游行业的创新实践
  • 【深入C++多态:基于消息解析器的设计、实现与剖析】
  • T4P: Test-Time Training of Trajectory Prediction
  • 回溯算法:List 还是 ArrayList?一个深拷贝引发的思考
  • Jenkins 代理自动化-dotnet程序
  • 配置HADOOP_HOME环境变量和maven_HOME环境变量
  • 线代第二章矩阵第二课:矩阵的加法、减法、数乘
  • Python+Playwright:编写自动化测试的避坑策略
  • Mac系统升级node.js版本和npm版本并安装pnpm
  • Node.js Session 原理简单介绍 + 示例代码
  • Sui 的工具生态简化了游戏开发者的 Web3 集成流程
  • 技术与情感交织的一生 (六)
  • My Diary Pro:记录生活,珍藏回忆
  • Android NDK 编译 so 文件 抹除导出符号 反逆向
  • 如何争取高层对项目的支持
  • Docker安装 (centos)
  • GitHub 封禁中国 IP:影响、原因及应对
  • 浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现
  • python的strip()函数用法; 字符串切片操作
  • 解锁动态规划的奥秘:从零到精通的创新思维解析(8)
  • 深入理解UML动态图:系统行为建模全景指南
  • CExercise_13_1排序算法_3快速排序算法,包括单向分区以及双向分区
  • Redis之缓存过期淘汰策略
  • 应急响应篇钓鱼攻击邮件与文件EML还原蠕虫分析线索定性处置封锁
  • 【Linux网络与网络编程】10.网络层协议IP
  • 神经网络复习
  • STM32并口屏应用实例:点亮你的显示世界之程序篇
  • Python在去中心化物联网中的应用:数据安全、智能合约与边缘计算的融合
  • AOSP Android14 Launcher3——底部任务栏Taskbar详解