当前位置: 首页 > news >正文

RDD转换算子案例

import org.apache.spark.{SparkConf, SparkContext}object Main {def main(args: Array[String]): Unit = {//打印hello worldprintln("hello world")//学习spark RDD中的转换算子//1.map://2.filter:过滤//3.flatMap:flat (扁平化) + map (映射)//4.reduceByKey:键值对的数据 (world,1),(hello,1)val conf = new SparkConf().setMaster("local[*]").setAppName("Test")val sc = new SparkContext(conf)//创建一个RDD//val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))//val rdd1=rdd.map(x=>x*2)//使用filter算子,保留偶数//val rdd1=rdd.filter(x => x % 2 == 0)//有多个句子,每个句子有多个单词,单词之间使用空格隔开//目标,把所有的单词找出来,放一个数组中//val rdd = sc.parallelize(List("hello world", "hello scala"))//val rdd1 = rdd.flatMap(_.split(" "))//hello world hello scala//词填统计的列子val rdd = sc.parallelize(List("apple", "banana", "apple",  "banana", "apple"))//val rdd1 = rdd.map(x => (x,1))//val rdd3 = rdd1.reduceByKey((x,y) => x + y)rdd.map(x => (x,1)).reduceByKey((x,y) => x + y).collect().foreach(println)//collect() 行动算子
//    rdd3.collect().foreach(println)}
}

相关文章:

  • 【Python 字典(Dictionary)】
  • Baklib知识中台引领服务智能跃迁
  • ‌云原生CAE软件
  • Nacos源码—7.Nacos升级gRPC分析四
  • 【C/C++】范围for循环
  • 如何解决按钮重复点击
  • Java高频基础面试题
  • 画家沈燕的山水实验:在传统皴法里植入时代密码
  • Java LocalDateTime类常用时间操作详解
  • 在windows系统中安装图数据库NEO4J
  • 2025年JavaScript性能优化全攻略
  • OrangePi Zero 3学习笔记(Android篇)4 - eudev编译(获取libudev.so)
  • RoPE长度外推:外插内插
  • Microsoft 365 Copilot:为Teams在线会议带来多语言语音交流新体验
  • 内存安全革命:工具、AI 与政策驱动的 C 语言转型之路
  • Mac配置php开发环境(多PHP版本,安装Redis)
  • MYSQL库表设计:范式
  • Error parsing column 10 (YingShou=-99.5 - Double) dapper sqlite
  • [Unity]-[UI]-[Image] 关于UI精灵图资源导入设置的详细解释
  • 【AI提示词】蝴蝶效应专家
  • 游戏论|暴君无道,吊民伐罪——《苏丹的游戏》中的政治
  • 越怕出错越会出错,“墨菲定律”的魔咒该怎么破?
  • 七方面118项任务,2025年知识产权强国建设推进计划印发
  • 西南大学教授、重庆健美运动奠基人之一李启圣逝世
  • 现场丨“影像上海”启幕:串联摄影、电影与当代艺术
  • 明星站台“胖都来”背后:百元起录视频,20万可请顶流