当前位置: 首页 > news >正文

RDD实现单词计数

Scala(Spark Shell)方法

如果你在 spark-shell(Scala 环境)中运行:

1. 启动 Spark Shell

spark-shell

(确保 Spark 已安装,PATH 配置正确)

2. 执行单词统计

// 1. 读取文件(确保路径正确!)
val lines = sc.textFile("file:///home/xdt/桌面/data.txt")// 2. 拆分单词 + 统计
val wordCounts1 = lines.flatMap(line => line.split(" "))  // 按空格分割
val wordCounts2 = wordCounts1.map(word => (word, 1))           // 每个单词计数 1
val wordCounts3 = wordCounts2.reduceByKey(_ + _)               // 相同单词累加// 3. 显示结果(前20个)
wordCounts3.take(20).foreach(println)// 4. 保存结果
wordCounts3.saveAsTextFile("file:///home/xdt/桌面/wordcount_output")

3. 检查输出

  • 控制台:会打印前 20 个单词的统计结果。

  • 文件:结果保存在 ~/桌面/wordcount_output/part-00000

注意路径写法,要写自己电脑上的路径。

上面是文件来源于本地的情况,如果文件位于HDFS里,要先把HDFS启动起来。

印象里好像是start-all.sh

相关文章:

  • TDengine 在新能源行业应用
  • 华为网路设备学习-21 路由过滤(filter-policy)
  • C++ STL入门:set 集合容器
  • TDEngine 与 Grafana
  • Unicode字符集字符流
  • QT:获取软件界面窗口的尺寸大小2025.5.8
  • Java—— 集合 Collection
  • [GESP202409 六级] 小杨和整数拆分 Java
  • ​​​​​​​MySQL数据库故障排查指南
  • 382_C++_在用户会话结束时,检查是否有其他会话仍然来自同一个客户端 IP 地址,没有连接状态设置为断开,否则为连接
  • 【并发编程】MySQL锁及单机锁实现
  • [数据库之十四] 数据库索引之位图索引
  • Mac 平台获取地区标识符号
  • 2025最新免费视频号下载工具!支持Win/Mac,一键解析原画质+封面
  • 【NextPilot日志移植】整体功能概要
  • SpringBoot3 + Druid + DynamicDataSource + PgSQL 连接池优化方案
  • spring中RequestContextHolder
  • 【WEB3】区块链、隐私计算、AI和Web3.0——隐私计算(2)
  • AI赋能高频PCB信号完整性优化
  • Ubuntu上安装MySQL 8并配置Navicat远程连接
  • 泉州一家婚介机构广告牌越南新娘七天闪婚领证?市监部门介入
  • 小米回应SU7Ultra排位模式限制车辆动力:暂停推送更新
  • 湖北奥莱斯轮胎公司逃避监管排放大气污染物被罚25万元
  • 昆廷·斯金纳:作为“独立自主”的自由
  • 秦洪看盘|受阻回落,蓄积新做多能量
  • 新闻分析:电影关税能“让好莱坞再次伟大”?