当前位置：首页 > news >正文

配置Hadoop集群环境-使用脚本命令实现集群文件同步

news 2025/10/31 17:39:49

（一）Hadoop的运行模式

hadoop一共有如下三种运行方式：

1. 本地运行。数据存储在linux本地，测试偶尔用一下。我们上一节课使用的就是本地运行模式hadoop100。

2. 伪分布式。在一台机器上模拟出 Hadoop 分布式系统的各个组件，各个组件在逻辑上是分离的，但是都运行在同一台物理机器上，以此来模拟分布式环境。

3. 完全分布式。数据存储在HDFS，多台服务器工作，企业中大量使用。

要在本地去模拟这个真实的场景功能，我们需要做好如下的准备：

1）准备3台客户机（关闭防火墙、静态IP、主机名称）

2）安装javaJDK，安装Hadoop，并配置环境变量

3）配置集群

4）单点启动

5）配置ssh

6）群起并测试集群

其中，第1项我们在之前克隆虚拟机的环节中已经完成了。现在我们来看看按照JDK和Hadoop并配置环境变量的工作。有两种思路：

1. 每台机器都去手动安装一次（上传jar包再去解压）。

2. 把一台机器装好，把module 拷贝到其他的机器。这样就不需要省略了上传和解压的工作了。

（二）scp命令--基本使用

我们在前面的课中把hadoop100上安装了java，hadoop这个两个软件，那我们要如何才能把对于的文件拷贝到hadoop101上去？

现在要学一个新的命令： scp。它可以实现服务器与服务器之间的数据拷贝。

1.基本语法

scp -r $pdir/$fname $user@$host:$pdir/$fname

说明：

（1）-r: 表示递归拷贝。如果要拷贝的是文件夹，就把文件夹下的内容都拷贝

（2）$pdir/$fname: 要拷贝的文件路径/名称

（3）$user@host:$pdir/$fname: 目的地用户@主机:目的地路径/名称

注意：要输入相应的账号和密码！

2.案例操作

来，我们一起看下案例实操。

背景

假设你已经：

（1）在两台虚拟机（hadoop100、hadoop101）都已经创建好了/opt/module,/opt/software两个目录

（2）在hadoop100这台机器中已经安装了jdk和hadoop。

目标

现在的目标是：要把hadoop100上的jdk文件夹拷贝到hadoop101中的相同的目录下。

操作

我们一起看具体操作：

1. 启动虚拟机。把hadoop100和hadoop101都启动。

2. 进入到hadoop100

3. 命令：
scp -r /opt/module/jdk1.8.0_212/ root@hadoop101:/opt/module/jdk1.8.0_212/

（三）scp命令--拓展使用

上面的例子中，我们是登录到hadoop100，然后把这台机器上的文件传递到另一台机器上。根据当前登录位置的不同，它还有其他的用法。如：

拉取。在hadoop101上，拉取hadoop100机器上的内容（如下左图）。

推送。在hadoop100机器上，把文件推送到hadoop101机器上（如上右图）。
搭桥。在hadoop101机器上，把hadoop100的文件传递到hadoop102上

我们上一节的例子的操作就是做的推送。

下面，我们通过两个任务来一起看看拉取和搭桥。

任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。

分析：使用scp进行拉取

操作：

先登录到hadoop2
使用命令：

scp -r root@hadoop101:/opt/module/hadoop-3.1.3 /opt/module/

任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目录拷贝到hadoop102上。

分析：使用scp进行搭桥

操作：

登录hadoop101
使用命令：

scp -r root@hadoop100:/opt/module/* root@hadoop102:/opt/module

第二课时

在上一节课中，我们已经学习了如何使用scp命令在两个服务器中进行文件的拷贝。这个命令可以解决很多的问题了。

下面我们来看一个典型的任务场景：在A机器上有一个conf文件夹，它下面已经有了4个文件，并且在B机器上也有相同的4个文件。

需求：我们在A机器上又新建了3个文件，那如何把这个3个新的文件也同步给B机器上呢？

请大家思考如何使用scp命令去解决这个问题。

有两种思路：

第一种：三个文件一个一个去拷贝。缺点是操作麻烦，要逐一操作。

第二种：重新把A上的conf拷贝到B上。缺点是会重复拷贝文件1，2，3，4。

所以问题来了：有没有更好的方式呢？有，就是我们要学习的rsync!

（四）rsync远程同步

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别是：rsync只对差异文件做更新，而scp是把所有文件都复制过去，所以它的效果更高一些。

1. 基本语法

rsync -av $pdir/$fname $user@$host:$pdir/$fname

语法说明：

（1）-a：归档拷贝，尽可能让拷贝的文件之间保持一致。

（2）-v：显示拷贝过程。

（3）$pdir/$fname: 要拷贝的文件路径/名称

（4）$user@host:$pdir/$fname: 目的地用户@主机:目的地路径/名称

2. 案例实操

下面我们去操作一下。

第一步：在两台机器上准备文件。

在hadoop100的/opt/conf/ 新建1.txt, 2.txt, 3.txt, 4.txt

做一次同步。

[root@hadoop100 ]$c

它会在hadoop101上创建conf目录。

第二步：在hadoop100中，添加新文件，5.txt, 6.txt, 7.txt

第三步：使用命令把新添加的文件同步到hadoop101中。

命令如下：

[root@hadoop100 ]$ rsync -av /opt/conf/ root@hadoop101:/opt/conf/

请特别注意目录最后的尾/。有/表示拷贝这文件夹下的内容，没有/表示会拷贝这个文件夹

（五）xsync脚本集群之间的同步

我们提出一个更加高级的需求：现在有A,B,C,D,E五台机器，我们在A上新增加了文件，那如何去同步到B，C，D，E上相同的目录下呢？

请大家思考一下？

1.思路

一个合适的思路是：写一个脚本，假设名为xsync，给它指定一个参数，它的作用就是把这个位置的内容同步给其他的设备。在脚本中循环调用rsync，把参数所对应的文件同步给所有的其他设备。最终我们可以把这个脚本文件放在环境变量中，可以在任何的地方都去调用。

2.步骤

（1）在/root/bin目录下创建xsync文件。在这个

（2）在该文件中编写如下代码。这个部分的代码不需要会写，能看懂，了解即可。

#!/bin/bash

#1. 判断参数个数

if [ $# -lt 1 ]

then

echo Not Enough Arguement!

exit;

#2. 遍历集群所有机器

for host in hadoop100 hadoop101 hadoop102

echo ==================== $host ====================

#3. 遍历所有目录，挨个发送

for file in $@

#4. 判断文件是否存在

if [ -e $file ]

then

#5. 获取父目录

pdir=$(cd -P $(dirname $file); pwd)

#6. 获取当前文件的名称

fname=$(basename $file)

ssh $host "mkdir -p $pdir"

rsync -av $pdir/$fname $host:$pdir

else

echo $file does not exists!

done

（3）修改执行权限。此时，我们去查看文件，可以看到它的颜色是灰色的，不具备执行权限（如下左图）。

接下来要通过命令： chmod +x xsync（或者是chmod 777 xsync）

重新查看它的颜色，它现在已经变成执行的脚本了（如上右图）。

（4）测试使用。把这个脚本同步到其他的机器中。

[root@hadoop100 ~]$ xsync /root/bin/

（六）集群同步实操

有了上面封装的xsync这个工具之后，我们就可以很方便地把hadoop100上的环境变量配置和安装的两个软件都同步到hadoop101和hadoop102上去。

对应的命令是：

xsync /etc/profile.d/my_env.sh
xsync /etc/module

查看全文

http://www.dtcms.com/a/178564.html

Apollo学习——创建cyber包

git命令积累（个人学习）

Navee滑板车强势登陆中国，以智能科技重塑城市出行新风尚

慢慢轮动着往上涨

小刚说C语言刷题—1341银行存款问题

LeetCode 3341.到达最后一个房间的最少时间 I：Dijkstra算法（类似深搜）-简短清晰的话描述

Matlab 基于Hough变换的人眼虹膜定位方法

nginx 会话保持（cookie的配置）

【计算机网络】Cookie、Session、Token之间有什么区别？

Linux复习笔记（二）网络服务配置（samba /DNS)

Python机器学习中的字典列表特征提取

Windows环境，Python实现对本机处于监听状态的端口，打印出端口，进程ID，程序名称

675SJBH国防生阅览室图书管理系统

rust程序静态编译的两种方法总结

Rust 开发环境搭建与插件

CLR是什么

mqtt选型，使用

WHAT - react-query(TanStack Query) vs swr 请求

浙大与哈佛联合开源图像编辑模型IC-Edit,实现高效、精准、快速的指令编辑～

.NET中使用HTTPS全解析

android-ndk开发(9): undefined reference to `__aarch64_ldadd4_acq_rel` 报错分析

网络靶场基础知识

rest_framework学习之认证权限

重定向及基础实验

Python变量作用域

[学习]RTKLib详解：ephemeris.c与rinex.c

如何修复WordPress数据库

Vscode (Windows端)免密登录linux集群服务器

Linux中的防火墙

【Linux学习笔记】基础IO之理解文件

相关文章：