当前位置: 首页 > news >正文

spark分区器

import org.apache.spark.{SparkConf, SparkContext}object Partition {// RDD: 弹性分布式数据集,特点:不可变的,可并行计算的。// 1. 分区和分区器// hash分区器 = hash(数据)%分区数 ===> 编号// 2. 自定义分区器def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 1. 从集合中创建val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)// 查看分分区数: 默认为当前机器的CPU核数println(rdd.partitions.length,rdd.getNumPartitions)// 将 RDD 保存为文本文件,保存路径为“output”rdd.saveAsTextFile("output1")// 2. 从外部存储系统(如HDFS、HBase、共性文件系统)中创建/* val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")val rdd2 = sc.textFile("hdfs://hadoop100:8020/apache-hive-2.3.4-bin.tar.gz")// 查看分分区数println(rdd1.partitions.length,rdd1.getNumPartitions)println(rdd2.partitions.length,rdd2.getNumPartitions)*/}
}
http://www.dtcms.com/a/190250.html

相关文章:

  • 探索AI新领域:生成式人工智能认证(GAI认证)助力职场发展
  • 常用的应用层网络协议对比
  • SAP学习笔记 - 开发11 - RAP(RESTful Application Programming)简介
  • 鸿蒙Next API17新特性学习之如何使用新增鼠标轴事件
  • Hadoop-HDFS-Packet含义及作用
  • HarmonyOS NEXT 适配高德地图FlutterSDK实现地图展示,添加覆盖物和移动Camera
  • 【​​HTTPS基础概念与原理​】​​SSL/TLS协议演进史:从SSLv3到TLS 1.3
  • 基于Spring AI与Hugging Face TGI构建高效聊天应用:从配置到实践全解析
  • Java Garbage Collection: 深入解析自动内存管理机制
  • RabbitMQ 快速上手:安装配置与 HelloWorld 实践(一)
  • 77. 组合【 力扣(LeetCode) 】
  • 如何保证RabbitMQ消息的顺序性?
  • 【苍穹外卖-管理端部分-学习笔记】
  • ChromeDriver进程泄漏问题分析与最佳实践解决方案
  • unity 鼠标更换指定图标
  • 关于嵌入式系统的知识课堂(一)
  • 【1000以内具有12个以上因子的整数并输出它的因子】2021-12-27
  • FFplay 音视频同步机制解析:以音频为基准的时间校准与动态帧调整策略
  • JVM调优实战
  • Qt之Qfile类
  • 用HBuilder运行小程序到微信开发者工具
  • 【​​HTTPS基础概念与原理​】​​HTTPS vs HTTP:为什么现代网站必须用HTTPS?
  • [目标检测] YOLO系列算法讲解
  • Manus逆向工程:AI智能体的“思考”与“行动”
  • Nginx 反向代理 静态文件404异常处理
  • 【SSL证书系列】客户端如何验证https网站服务器发的证书是否由受信任的根证书签发机构签发
  • MySQL知识点总结(持续更新)
  • 企业数字化转型背景下的企业知识管理挑战与经验杂谈
  • GTM4.1-CCM
  • ARM杂谈——临界段保护恢复的中断状态可靠吗