当前位置: 首页 > news >正文

Spark,HDFS概述

HDFS组成构架:

注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。 

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;

(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传

1.从本地剪切粘贴到HDFS把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal  (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

[root@hadoop100 hadoop-3.1.3]$ hadoop fs  -moveFromLocal  /opt/tmp/sanguo.txt  /sanguo.txt

注意到,它会把本地的文件删除掉。

2.如果要保留本地的文件,可以使用 -put 命令。具体如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo

shell操作文件下载

下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。

基本格式是:

hadoop fs -get  (服务器上的文件路径 本地文件路径)

示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。

对应的命令:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

其他shell操作

1.显示目录信息

使用-ls命令,示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -ls /

上面的命令用来查看根目录(/)下的文件。

2.创建文件夹。

使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo

3.显示文件内容

使用-cat命令。示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt

3.拷贝文件。

使用-cp命令。表示HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo

4.移动文件

使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo

5.删除文件或文件夹。

使用-rm 命令,它的格式是: -rm 要删除的文件

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt

6.递归删除

使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo

7.统计文件夹的大小信息。使用命令 -du。示例如下

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo
27  81  /jinguo
这个文件夹下面的文件信息
[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du  -h /jinguo
14  42  /jinguo/shuguo.txt
7   21   /jinguo/weiguo.txt
6   18   /jinguo/wuguo.txt

说明:27表示文件大小;81表示27*3个副本;/jinguo表示查看的目录

8. -setrep:设置HDFS中文件的副本数量

 [root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 10 /jinguo/shuguo.txt 

效果如下

相关文章:

  • Android7 Input(三)EventHub
  • HTTP响应数据包全面解析:结构、原理与最佳实践
  • [GESP202503 C++六级题解]:P1196:环线
  • 基于Vue的低代码可视化表单设计器 FcDesigner 3.2.11更新说明
  • latex下载软件
  • 蓝桥杯准备(前缀和差分)
  • 【矩阵快速幂】P3702 [SDOI2017] 序列计数|省选-
  • C++ 新特性 | C++ 11 | 移动语义
  • 【huggingface 数据下载】ssh / https 不同的下载流程,hf 镜像下载注意事项
  • ⼆、Kafka客户端消息流转流程
  • Ubuntu环境安装
  • 【网安面经合集】42 道高频 Web 安全面试题全解析(附原理+防御+思路)
  • Java基础-25-继承-方法重写-子类构造器的特点-构造器this的调用
  • 基于langchain实现GraphRAG:基于图结构的检索增强生成系统
  • Linux(24)——系统调优
  • MySQL数据库和表的操作之数据库表操作
  • Day3 蓝桥杯省赛冲刺精炼刷题 —— 排序算法与贪心思维
  • 静态路由与BFD联动实验配置
  • TCP、HTTP、HTTPS、DNS的原理
  • 科技潮流出行新体验 方程豹全新车型钛3正式开启预售
  • 家国万里·时光故事会|从徐光启到徐家汇,一颗甘薯里的家国
  • 谷神星一号海射型遥五运载火箭发射成功
  • 读懂城市|成都高新区:打造“人尽其才”的“理想之城”
  • 纽约市长称墨西哥海军帆船撞桥事故已致2人死亡
  • 刘小涛任江苏省委副书记
  • 选址江南制造总局旧址,上海工业博物馆建设有新进展