当前位置: 首页 > news >正文

spark中的转换算子

import org.apache.spark.{SparkConf, SparkContext}object Main {def main(args: Array[String]): Unit = {// 学习spark RDD中的转换算子// 1. map// 2. filter:过滤// 3. flatMap:flat(扁平化) + map(映射)// 4. reduceByKey: 键值对的数据(word,1),(hello,1)val conf = new SparkConf().setMaster("local[*]").setAppName("SparkDemo")val sc = new SparkContext(conf)// 创建一个RDD//val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10))//val rdd1 = rdd.map(x => x * 2)// 使用filter算子,保留偶数//val rdd1 = rdd.filter(x => x % 2 == 0)// 有多个句子,每个句子有多个单词,单词之间使用空格前隔开// 目标: 把所有的单词找出来,做一个数组中// val rdd = sc.parallelize(List("hello world", "hello scala"))// val rdd1 = rdd.flatMap(x => x.split(" "))// 词频统计的例子val rdd = sc.parallelize(List("apple", "banana", "apple", "banana", "apple"))// val rdd1 = rdd.map(x => (x, 1))// val rdd3 = rdd1.reduceByKey((x, y) => x + y)rdd.map(x => (x, 1)).reduceByKey((x, y) => x + y).collect().foreach(println)// collect() 行动算子//rdd3.collect().foreach(println)}
}

相关文章:

  • 固定步长和变步长的LMS自适应滤波器算法
  • Qwen集成clickhouse实现RAG
  • WK-F01和WK-F02以及WK-F01在电动三轮车和休闲三轮上的应用比较
  • JVM 与云原生的完美融合:引领技术潮流
  • Qt file文件操作详解
  • 密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
  • 服务器时间发生跳变导致hghac中对应主机状态频繁切换为crash或stop
  • OSS-承载数据的巨轮
  • Qt功能区:简介与安装
  • MCU ESP32-S3+SD NAND(贴片式T卡):智能皮电手环(GSR智能手环)性能与存储的深度评测
  • 基于C#实现中央定位服务器的 P2P 网络聊天系统
  • deepseek梳理java高级开发工程师算法面试题
  • windows文件共享另一台电脑资源管理器网络文件夹无法找到机器
  • 数字IC后端零基础入门基础理论(Day2)
  • 【算法】版本号排序
  • Kotlin Compose 与传统 Android UI 开发对比
  • 小白成长之路-Linux用户与组管理(一)
  • 【MCP教程系列】SpringBoot 搭建基于 Spring AI 的 SSE 模式 MCP 服务
  • 【测试】测试基础概念
  • 重塑“DATA+AI“的共生范式:DataBuilder如何赋能企业数据价值跃迁
  • 明查| 新一代AI诊疗系统可3秒筛查13种癌症?没有证据
  • 商务部新闻发言人就暂停17家美国实体不可靠实体清单措施答记者问
  • 以军向也门3个港口的居民发布撤离令
  • 专访|茸主:杀回UFC,只为给自己一个交代
  • 乌方:泽连斯基只接受与普京会谈,拒见其他俄代表
  • 从“求生”到“生活”:医保纳入创新药让梗阻性肥厚型心肌病患者重拾生活掌控权