当前位置: 首页 > news >正文

spark在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词

启动hdfs集群

[root@hadoop100 ~]# myhadoop start

[root@hadoop100 ~]# cd /opt/module/spark-yarn/bin

[root@hadoop100 ~]# ./spark-shell

写个1+1测试一下

按住ctrl+D退出

 进入环境:spark-shell --master yarn

逐个写代码:

// 读取文件,得到RDD

val rdd1 = sc.textFile("hdfs://hadoop100:8020/wcinput/word2.txt")

// 将单词进行切割,得到一个存储全部单词的RDD

val rdd2= rdd1.flatMap(line => line.split(" "))

// 将单词转换为元组对象,key是单词,value是数字1

val rdd3= rdd2.map(word => (word, 1))

// 将元组的value按照key来分组,对所有的value执行聚合操作(相加)

val rdd4= rdd3.reduceByKey((num1, num2) => num1 + num2)

// 收集RDD的数据并打印输出结果

rdd4.collect().foreach(println)

// 将结果储存在out111中

rdd.saveAsTextFile("hdfs://hadoop100:8020/out111")

在根目录下可见out111文件,文件打开后可以看到,word2.txt文件内单词被拆分

RDD的执行过程

spark大数据分布式

 
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/2401_87076425/article/details/147892134

相关文章:

  • 【秣厉科技】LabVIEW工具包——OpenCV 教程(21):CUDA 加速方案
  • 大型视频学习平台项目问题解决笔记
  • 宇树科技安全漏洞揭示智能机器人行业隐忧
  • 【Python训练营打卡】day23 @浙大疏锦行
  • 亚川科技YCS-7000 建筑设备一体化监控系统选型说明与配置原理
  • 综合实验二之grub2密文加密
  • 英语在进化等级上被认为落后的原因主要包括以下几个方面
  • 防爆手机与普通手机有什么区别
  • Android逆向学习(九) Xposed快速上手(下)
  • 2025/5/7 心得
  • E+H流量计与Profibus DP主站转Modbus RTU/TCP网关通讯
  • 【计算机网络】高频计网面试总结
  • Unity基础学习(十二)核心系统—物理系统之碰撞检测组件篇(1)刚体,碰撞体,材质
  • 密码学--希尔密码
  • 如何更改默认字体:ONLYOFFICE 协作空间、桌面编辑器、文档测试示例
  • 三层交换机,单臂路由(用DHCP自动配置ip+互通+ACL
  • vue3: pdf.js 3.4.120 using javascript
  • LeetCode 513 找树左下角的值 LeetCode 112 路径总和 LeetCode106 从中序与后序遍历序列构造二叉树
  • 单片机-STM32部分:13-1、蜂鸣器
  • AI与IoT携手,精准农业未来已来
  • 挖掘机4月销量同比增17.6%,出口增幅创近两年新高
  • 通辽警方侦破一起积压21年的命案:嫌疑人企图强奸遭反抗后杀人
  • 再获殊荣!IP SH跻身上海文化品牌全球传播力TOP 6
  • 新疆交通运输厅厅长西尔艾力·外力履新吐鲁番市市长候选人
  • 文学花边|对话《借命而生》原著作者石一枫:我给剧打90分
  • 马上评丨规范隐藏式车门把手,重申安全高于酷炫