当前位置：首页 > news >正文

RDD实现单词计数

news 2025/11/5 10:06:32

Scala（Spark Shell）方法

如果你在 spark-shell（Scala 环境）中运行：

1. 启动 Spark Shell

spark-shell

（确保 Spark 已安装，PATH 配置正确）

2. 执行单词统计

// 1. 读取文件（确保路径正确！）
val lines = sc.textFile("file:///home/xdt/桌面/data.txt")// 2. 拆分单词 + 统计
val wordCounts1 = lines.flatMap(line => line.split(" "))  // 按空格分割
val wordCounts2 = wordCounts1.map(word => (word, 1))           // 每个单词计数 1
val wordCounts3 = wordCounts2.reduceByKey(_ + _)               // 相同单词累加// 3. 显示结果（前20个）
wordCounts3.take(20).foreach(println)// 4. 保存结果
wordCounts3.saveAsTextFile("file:///home/xdt/桌面/wordcount_output")

3. 检查输出

控制台：会打印前 20 个单词的统计结果。
文件：结果保存在 ~/桌面/wordcount_output/part-00000。

注意路径写法，要写自己电脑上的路径。

上面是文件来源于本地的情况，如果文件位于HDFS里，要先把HDFS启动起来。

印象里好像是start-all.sh

http://www.dtcms.com/a/178985.html

相关文章：

TDengine 在新能源行业应用

华为网路设备学习-21 路由过滤（filter-policy）

C++ STL入门：set 集合容器

TDEngine 与 Grafana

Unicode字符集字符流

QT：获取软件界面窗口的尺寸大小2025.5.8

Java—— 集合 Collection

[GESP202409 六级] 小杨和整数拆分 Java

MySQL数据库故障排查指南

382_C++_在用户会话结束时，检查是否有其他会话仍然来自同一个客户端 IP 地址，没有连接状态设置为断开，否则为连接

【并发编程】MySQL锁及单机锁实现

[数据库之十四] 数据库索引之位图索引

Mac 平台获取地区标识符号

2025最新免费视频号下载工具！支持Win/Mac，一键解析原画质+封面

【NextPilot日志移植】整体功能概要

SpringBoot3 + Druid + DynamicDataSource + PgSQL 连接池优化方案

spring中RequestContextHolder

【WEB3】区块链、隐私计算、AI和Web3.0——隐私计算（2）

AI赋能高频PCB信号完整性优化

Ubuntu上安装MySQL 8并配置Navicat远程连接

Redis如何实现分布式锁

CFCA受邀参加盛京银行手机银行7.0发布会

crontab

5月8日星期四今日早报简报微语报早读

红外遥控与NEC编码协议详解

C#学习7_面向对象：类、方法、修饰符

【AI】DeepWiki 页面转换成 Markdown 保存 - Chrome 扩展

【速通RAG实战：索引】5.RAG分块策略与Embedding技术

React -＞ AI组件 -＞调用Ollama模型, qwen3:1.7B非常聪明

基础算法系列——树的入门