当前位置: 首页 > news >正文

spark组件-spark core(批处理)-rdd创建

1. 从集合创建‌
通过 SparkContext.parallelize() 或 makeRDD() 将本地集合(如 List)转换为 RDD,可手动指定分区数:

List<String> list = Arrays.asList("hello", "hi", "spark", "world", "hi");
JavaRDD<String> javaRDD = sc.parallelize(list, 2);

2. 从外部存储创建‌
支持 HDFS、本地文件系统等数据源,如

JavaRDD<String> stringRDD = sc.textFile("hdfs://path/file.txt")

3. 从其他 RDD 转换‌
通过转换算子(如 map、groupByKey)生成新 RDD,形成血缘关系链。

例子

package com.spark.qichsiii.core.a_rdd_create;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;import java.util.Arrays;
import java.util.List;public class RddCreationFromCollection {public static void main(String[] args) {// 1.创建配置对象SparkConf conf = new SparkConf().setMaster("local[*]").setAppName("RddCreation");// 2.创建sparkContextJavaSparkContext sc = new JavaSparkContext(conf);// 3.编写代码// a.集合创建JavaRDD<String> stringRDD = sc.parallelize(Arrays.asList("hello","spark"));// b.从外部存储创建//JavaRDD<String> stringRDD = sc.textFile("input") ‌List<String> collect = stringRDD.collect();for(String s: collect){System.out.println(s);}// 4.关闭scsc.stop();}
}
http://www.dtcms.com/a/512873.html

相关文章:

  • 微前端(qiankun)使用教程
  • 婚纱网页制作seo技术306
  • 门户网站特点上海市网站建设公司
  • JS逆向之原型链补环境
  • 广西南宁做网站的公司小榄公司网站建设
  • 一个公司可以注册几个网站wordpress 获取友链
  • 部署大模型的API实战教程!
  • 手机版网站优化html5移动网站开发实例
  • 解释Python中的鸭子类型(Duck Typing)和它与静态类型语言的区别?
  • 数字营销网站建设国外在线crm酒店系统
  • pdw这个conda环境缺少cartopy这个库,将所有依赖下载后使用pip install ./*.whl离线安装,结果报错numpy版本不兼容
  • 用自己的电脑做视频网站微信推广
  • 强化学习2.2 MDP实践——Frozen lake
  • LeetCode 668.乘法表中第k小的数
  • 专业网站建设市场分析自媒体平台哪个收益高
  • 建设通网站怎么样网站如何做响应
  • Java 中的自引用
  • Cursor AI 技术架构、核心模型与技术参数全解析
  • 记录一次线上oom问题排查
  • 深度解析:通过ADO.NET驱动Kdbndp高效连接与操作Kingbase数据库
  • 网站排名怎么上去网站建设捌金手指花总二五
  • 上海做电子商务网站的公司快猫
  • Pycharm远程连接服务器项目
  • linux系统--LVM扩容如何把新的物理卷添加到LVM中 详细教程 超简单
  • 泉州丰泽建设局网站北京做app的公司有哪些
  • 4.8.定义模式
  • Linux命令过关挑战
  • 国内域名购买网站山西省住房和城乡建设厅网站
  • SH-PEG-Silane|巯基-聚乙二醇-硅烷|表面修饰应用
  • 科技园区建设网站的意义做实体识别的网站