当前位置：首页 > news >正文

hadoop集群单词统计（ssh与web）

news 2025/9/1 6:28:43

准备工作

本文不包含部署过程，请自行搜索教程
请确保已经部署好集群并且可正常启动
准备一个txt测试文件，例如
在这里插入图片描述

一、SSH

1.通过ssh连接集群的主节点

在这里插入图片描述

2.将刚才的txt文件上传到主机中

我这个软件是finalshell
在这里插入图片描述

3.启动集群

start-all.sh

在这里插入图片描述

4.上传测试文件

# 创建目录（-p 确保父目录存在）
hdfs dfs -mkdir -p /wordcount/input# 上传本地文件到 HDFS（假设你的数据在本地 /path/to/local/input）
hdfs dfs -put /path/to/local/input/* /wordcount/input/

注意这个目录是集群上的目录，和你本地目录不是一个意思

5.计算

（1）进入mapreduce的目录
在这里插入图片描述
（2）注意你想输出的目录是不能存在的，如果已经有了会报错，删掉

hdfs dfs -rm -r /wordcount/output

（3）运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

6.结果

hdfs dfs -ls /wordcount/output
hdfs dfs -cat /wordcount/output/part-r-00000

这个part文件你也可以再从集群下载到本地导出
在这里插入图片描述

二、web

web就不用ssh连接，都是虚拟机里直接操作

1.启动集群

start-all.sh

2.创建目录并上传文件

（1）打开浏览器，直接进入本地集群
在这里插入图片描述
（2）给权限

hdfs dfs -chmod 777 /

(3)创建目录/wordcount/input

（3）可以看到这是刚刚创建的目录，现在以当前用户新建wordcount2/input

可以直接修改权限

（4）input下上传文件
在这里插入图片描述

但是可能发现上传失败
看一下记录

这里我们可以看到是想通过2和3节点上传，但是windows不知道这两个节点的ip，所以连接不到，那么给windows系统配置一下

此目录下右键hosts选择属性

用记事本打开
最后面写上ip和名称对应，保存关闭

3.运行

回虚拟机，从刚才创建的目录执行
（1）进入mapreduce的目录
在这里插入图片描述
（2）注意你想输出的目录是不能存在的，如果已经有了会报错，删掉

hdfs dfs -rm -r /wordcount/output

（3）运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

(4)下载
回到web，刷新一下
在这里插入图片描述点进新的文件夹

下面那个就是结果，直接点击下载
在这里插入图片描述
记事本打开直接看结果

查看全文

http://www.dtcms.com/a/230074.html

【Unity】R3 CSharp 响应式编程 - 使用篇（集合）（三）

星闪开发之Server-Client 指令交互控制OLED灯案例

【后端】RPC

React---扩展补充

（四）docker命令

Fullstack 面试复习笔记：项目梳理总结

Oracle OCP与MySQL OCP认证如何选？

APx500录制波形

QGIS新手教程3：QGIS矢量图层导入与导出+Shape Tools插件绘图

找到每一个单词+模拟的思路和算法

Unity与Excel表格交互热更方案

linux操作系统---网络协议

配置GDAL使用工具

什么是梯度磁场

Mysql中explain分析sql查询含义

Rocket客户端消息确认机制

Python IP可达性检测脚本解析

innovus: ecoAddRepeater改变hier层级解决办法

TinaCloud：为 TinaCMS 打造的专业云服务平台

2025年6月4日第一轮

layer norm和 rms norm 对比

【AI学习笔记】Coze工作流写入飞书多维表格（即：多维表格飞书官方插件使用教程）

【学习记录】如何使用 Python 提取 PDF 文件中的内容

2025年计算机科学与网络安全国际会议（CSNS 2025）

【Linux仓库】冯诺依曼体系结构与操作系统【进程·壹】

Delphi用if else实现 select case、switch语句功能，实现case 以字符串为分类条件。

【深度学习优化算法】02：凸性

[蓝桥杯]密码脱落

行为型-迭代器模式

Elasticsearch集群状态为RED且存在未分配分片问题排查诊断

准备工作

一、SSH

1.通过ssh连接集群的主节点

2.将刚才的txt文件上传到主机中

3.启动集群

4.上传测试文件

5.计算

6.结果

二、web

1.启动集群

2.创建目录并上传文件

3.运行

相关文章：