当前位置: 首页 > news >正文

spark分区器

import org.apache.spark.{SparkConf, SparkContext}object Partition {// RDD: 弹性分布式数据集,特点:不可变的,可并行计算的。// 1. 分区和分区器// hash分区器 = hash(数据)%分区数 ===> 编号// 2. 自定义分区器def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 1. 从集合中创建val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)// 查看分分区数: 默认为当前机器的CPU核数println(rdd.partitions.length,rdd.getNumPartitions)// 将 RDD 保存为文本文件,保存路径为“output”rdd.saveAsTextFile("output1")// 2. 从外部存储系统(如HDFS、HBase、共性文件系统)中创建/* val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")val rdd2 = sc.textFile("hdfs://hadoop100:8020/apache-hive-2.3.4-bin.tar.gz")// 查看分分区数println(rdd1.partitions.length,rdd1.getNumPartitions)println(rdd2.partitions.length,rdd2.getNumPartitions)*/}
}

相关文章:

  • 探索AI新领域:生成式人工智能认证(GAI认证)助力职场发展
  • 常用的应用层网络协议对比
  • SAP学习笔记 - 开发11 - RAP(RESTful Application Programming)简介
  • 鸿蒙Next API17新特性学习之如何使用新增鼠标轴事件
  • Hadoop-HDFS-Packet含义及作用
  • HarmonyOS NEXT 适配高德地图FlutterSDK实现地图展示,添加覆盖物和移动Camera
  • 【​​HTTPS基础概念与原理​】​​SSL/TLS协议演进史:从SSLv3到TLS 1.3
  • 基于Spring AI与Hugging Face TGI构建高效聊天应用:从配置到实践全解析
  • Java Garbage Collection: 深入解析自动内存管理机制
  • RabbitMQ 快速上手:安装配置与 HelloWorld 实践(一)
  • 77. 组合【 力扣(LeetCode) 】
  • 如何保证RabbitMQ消息的顺序性?
  • 【苍穹外卖-管理端部分-学习笔记】
  • ChromeDriver进程泄漏问题分析与最佳实践解决方案
  • unity 鼠标更换指定图标
  • 关于嵌入式系统的知识课堂(一)
  • 【1000以内具有12个以上因子的整数并输出它的因子】2021-12-27
  • FFplay 音视频同步机制解析:以音频为基准的时间校准与动态帧调整策略
  • JVM调优实战
  • Qt之Qfile类
  • 证券时报:中美互降关税落地,订单集中补发港口将迎高峰期
  • 万科再获深铁集团借款,今年已累计获股东借款近120亿元
  • 知名猎头公司创始人兼首席执行官庄华因突发疾病逝世,享年62岁
  • 广东:十年后省级水网主骨架全面建成,与国家骨干网互联互通
  • 学者的“好运气”:读本尼迪克特·安德森《椰壳碗外的人生》
  • 支持企业增强战略敏捷更好发展,上海市领导密集走访外贸外资企业