当前位置：首页 > news >正文

spark分区器

news 2025/7/4 14:37:18

import org.apache.spark.{SparkConf, SparkContext}object Partition {// RDD: 弹性分布式数据集，特点：不可变的，可并行计算的。// 1. 分区和分区器// hash分区器 = hash(数据)%分区数 ===> 编号// 2. 自定义分区器def main(args: Array[String]): Unit = {// 创建SparkContextval conf = new SparkConf().setAppName("Partition").setMaster("local[*]")val sc = new SparkContext(conf)// 1. 从集合中创建val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),3)// 查看分分区数: 默认为当前机器的CPU核数println(rdd.partitions.length,rdd.getNumPartitions)// 将 RDD 保存为文本文件，保存路径为“output”rdd.saveAsTextFile("output1")// 2. 从外部存储系统（如HDFS、HBase、共性文件系统）中创建/* val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")val rdd2 = sc.textFile("hdfs://hadoop100:8020/apache-hive-2.3.4-bin.tar.gz")// 查看分分区数println(rdd1.partitions.length,rdd1.getNumPartitions)println(rdd2.partitions.length,rdd2.getNumPartitions)*/}
}

http://www.dtcms.com/a/190250.html

相关文章：

探索AI新领域：生成式人工智能认证（GAI认证）助力职场发展

常用的应用层网络协议对比

SAP学习笔记 - 开发11 - RAP（RESTful Application Programming）简介

鸿蒙Next API17新特性学习之如何使用新增鼠标轴事件

Hadoop-HDFS-Packet含义及作用

HarmonyOS NEXT 适配高德地图FlutterSDK实现地图展示，添加覆盖物和移动Camera

【HTTPS基础概念与原理】SSL/TLS协议演进史：从SSLv3到TLS 1.3

基于Spring AI与Hugging Face TGI构建高效聊天应用：从配置到实践全解析

Java Garbage Collection: 深入解析自动内存管理机制

RabbitMQ 快速上手：安装配置与 HelloWorld 实践（一）

77. 组合【力扣(LeetCode) 】

如何保证RabbitMQ消息的顺序性？

【苍穹外卖-管理端部分-学习笔记】

ChromeDriver进程泄漏问题分析与最佳实践解决方案

unity 鼠标更换指定图标

关于嵌入式系统的知识课堂（一）

【1000以内具有12个以上因子的整数并输出它的因子】2021-12-27

FFplay 音视频同步机制解析：以音频为基准的时间校准与动态帧调整策略

JVM调优实战

Qt之Qfile类

用HBuilder运行小程序到微信开发者工具

【HTTPS基础概念与原理】HTTPS vs HTTP：为什么现代网站必须用HTTPS？

[目标检测] YOLO系列算法讲解

Manus逆向工程：AI智能体的“思考”与“行动”

Nginx 反向代理静态文件404异常处理

【SSL证书系列】客户端如何验证https网站服务器发的证书是否由受信任的根证书签发机构签发

MySQL知识点总结（持续更新）

企业数字化转型背景下的企业知识管理挑战与经验杂谈

GTM4.1-CCM

ARM杂谈——临界段保护恢复的中断状态可靠吗