当前位置: 首页 > news >正文

在shell中运行RDD程序

在shell中运行RDD程序

准备工作:启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

写交互式代码:启动之后在spark-shell中写代码。

 

进入环境:spark-shell --master yarn

逐句写代码:

// 读取文件,得到RDD

    val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

    // 将单词进行切割,得到一个存储全部单词的RDD

    val rdd2= fileRDD.flatMap(line => line.split(" "))

    // 将单词转换为元组对象,key是单词,value是数字1

    val rdd3= wordsRDD.map(word => (word, 1))

    // 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

    val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

    // 收集RDD的数据并打印输出结果

    rdd4.collect().foreach(println)

相关文章:

  • layui下拉框输入关键字才出数据
  • c++中“”符号代表引用还是取内存地址?
  • 手写 Vue 源码 === 完善依赖追踪与触发更新
  • 数组和集合
  • 【CSS】Grid 的 auto-fill 和 auto-fit 内容自适应
  • NHANES指标推荐:AISI
  • Qwen2-VL详解
  • cocos中加入protobuf和编译protobuf的方法
  • 软件设计师2025
  • SecureCRT SFTP命令详解与实战
  • Unity3D 游戏内存优化策略
  • 模拟设计中如何减小失配
  • 淘宝按图搜索商品(拍立淘)Java 爬虫实战指南
  • 罗氏线圈抗干扰特性测试方法研究
  • 霍尔传感器与罗氏线圈的对比分析
  • [D1,2] 贪心刷题
  • 3、Kafka 核心架构拆解和总结
  • 私网IP地址范围解析与应用指南
  • 低代码 x AI,解锁数智化应用的创新引擎
  • 自组织映射SOM
  • 5月LPR下调:1年期、5年期以上品种均下调10个基点
  • 确诊前列腺癌后,拜登首次发声
  • 外汇局:4月下旬外资投资境内股票转为净买入
  • 美国前总统拜登确诊前列腺癌
  • 浙江广厦:诚挚道歉,涉事责任人交公安机关
  • 《掩耳盗邻》:富人劫富,是犯罪,也是赎罪?