当前位置: 首页 > news >正文

在shell中运行RDD程序

在shell中运行RDD程序

准备工作:启动hdfs集群,打开hadoop100:9870,在wcinput目录下上传一个包含很多个单词的文本文件。

写交互式代码:启动之后在spark-shell中写代码。

 

进入环境:spark-shell --master yarn

逐句写代码:

// 读取文件,得到RDD

    val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/words.txt")

    // 将单词进行切割,得到一个存储全部单词的RDD

    val rdd2= fileRDD.flatMap(line => line.split(" "))

    // 将单词转换为元组对象,key是单词,value是数字1

    val rdd3= wordsRDD.map(word => (word, 1))

    // 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

    val rdd4= wordsWithOneRDD.reduceByKey((a, b) => a + b)

    // 收集RDD的数据并打印输出结果

    rdd4.collect().foreach(println)

http://www.dtcms.com/a/177481.html

相关文章:

  • layui下拉框输入关键字才出数据
  • c++中“”符号代表引用还是取内存地址?
  • 手写 Vue 源码 === 完善依赖追踪与触发更新
  • 数组和集合
  • 【CSS】Grid 的 auto-fill 和 auto-fit 内容自适应
  • NHANES指标推荐:AISI
  • Qwen2-VL详解
  • cocos中加入protobuf和编译protobuf的方法
  • 软件设计师2025
  • SecureCRT SFTP命令详解与实战
  • Unity3D 游戏内存优化策略
  • 模拟设计中如何减小失配
  • 淘宝按图搜索商品(拍立淘)Java 爬虫实战指南
  • 罗氏线圈抗干扰特性测试方法研究
  • 霍尔传感器与罗氏线圈的对比分析
  • [D1,2] 贪心刷题
  • 3、Kafka 核心架构拆解和总结
  • 私网IP地址范围解析与应用指南
  • 低代码 x AI,解锁数智化应用的创新引擎
  • 自组织映射SOM
  • C++_MD5算法
  • Diamond iO:实用 iO 的第一缕曙光
  • Java从入门到精通 - 程序流程控制
  • 数字化转型是往哪转?怎么转?
  • 单调栈原理
  • 数据库系统概论-基础理论
  • 信息安全 -- 什么是侧信道攻击
  • 《[CISCN 2022 初赛]ez_usb》
  • 六级阅读---2024.12 卷一 仔细阅读1
  • C++类对象的隐式类型转换和编译器返回值优化