当前位置：首页 > news >正文

大数据（2）大数据处理架构Hadoop

news 2025/9/11 21:56:01

一、Hadoop简介

1.定义

Hadoop 是一个开源的分布式计算框架，由 Apache 基金会开发，用于处理海量数据，具备高可靠性、高扩展性和高容错性。它主要由两个核心模块组成：

HDFS（Hadoop Distributed File System）：分布式文件系统，用于存储大规模数据，具备高容错能力和高吞吐量。
MapReduce：分布式计算框架，用于并行处理大数据，通过“映射-归约”模型实现任务分解与执行。

Hadoop 适合运行在廉价硬件集群上，是大数据处理的重要基础平台。

2.特性

高可靠性：通过数据冗余和副本机制，确保在节点故障时数据依然安全可用。
高效性：采用并行计算方式，能够快速处理海量数据，提升计算效率。
高可扩展性：支持通过增加节点来水平扩展系统，轻松应对数据增长。
高容错性：在节点故障时自动切换和恢复任务，确保系统稳定运行。
成本低：可以部署在普通的廉价服务器上，无需高性能硬件，节省成本。
支持运行在 Linux 操作系统上：Hadoop 主要设计为在 Linux 环境下运行，性能稳定、兼容性好。
支持多种编程语言：除 Java 外，还支持 Python、C++ 等语言开发 MapReduce 程序，方便开发者使用。

二、hadoop生态系统

组件	功能简述
HDFS	分布式存储系统
MapReduce	批处理计算框架
YARN	资源管理与任务调度
Hive	数据仓库，支持 SQL 查询
HBase	实时数据库
Pig	脚本式数据处理语言
Sqoop	RDBMS 与 Hadoop 间数据迁移
Flume	日志/数据采集工具
Kafka	高吞吐消息队列
Storm	实时流处理框架
Spark	高性能分布式计算框架
Flink	实时数据处理引擎
Oozie	工作流调度工具
Zookeeper	分布式协调服务
Ambari	集群管理与监控工具

三、HDFS启动停止命令

启动：cd /usr/local/hadoop

./sbin/start-dfs.sh

停止：./sbin/stop-dfs.sh

四、常见的linux命令

（1）目录操作命令

1. `cd`：切换目录

功能	命令
切换到 `/usr/local`	`cd /usr/local`
返回上层目录	`cd ..`
回到主文件夹	`cd ~` 或 `cd`

2. `ls`：查看文件与目录

功能	命令
查看 `/usr` 下所有文件	`ls /usr` 或 `ls -l /usr`

3. `mkdir`：新建目录

功能	命令
在 `/tmp` 下创建目录 `a`	`cd /tmp && mkdir a`
查看当前目录有多少子目录	`ls -l
创建多层目录 a1/a2/a3/a4	`mkdir -p a1/a2/a3/a4`

4. `rmdir`：删除空目录

功能	命令
删除 `/tmp/a` 目录	`rmdir /tmp/a`
依次删除 a1/a2/a3/a4（需从最内层开始）	`rmdir a1/a2/a3/a4 a1/a2/a3 a1/a2 a1`
查看当前目录下的目录数	`ls -l

（2）文件操作命令

5. `cp`：复制文件或目录

功能	命令
复制 `.bashrc` 到 `/usr/bashrc1`	`cp ~/.bashrc /usr/bashrc1`
创建 `/tmp/test` 并复制其内容到 `/usr`	`mkdir /tmp/test && cp -r /tmp/test /usr/`

6. `mv`：移动或重命名

功能	命令
移动 `bashrc1` 到 `/usr/test/`	`mv /usr/bashrc1 /usr/test/`
重命名 `test` 为 `test2`	`mv /usr/test /usr/test2`

7. `rm`：删除文件或目录

功能	命令
删除 `/usr/test2/bashrc1`	`rm /usr/test2/bashrc1`
删除整个 `test2` 目录	`rm -r /usr/test2`

（3）文件内容查看命令

8. `cat`：查看文件内容（正序）

cat ~/.bashrc

9. `tac`：查看文件内容（反序）

tac ~/.bashrc

10. `more`：分页显示

more ~/.bashrc

11. `head`：显示前几行

功能	命令
显示前 20 行	`head -n 20 ~/.bashrc`
只显示前几行，不显示最后 50 行	`head -n -50 ~/.bashrc`（需要新版本支持）

12. `tail`：显示后几行

功能	命令
显示最后 20 行	`tail -n 20 ~/.bashrc`
显示从第 51 行开始的内容	`tail -n +51 ~/.bashrc`

（4）文件时间与权限命令

13. `touch`：创建或修改时间

功能	命令
创建 `/tmp/hello` 并查看时间	`touch /tmp/hello && ls -l /tmp/hello`
修改时间为 5 天前	`touch -d "5 days ago" /tmp/hello`

14. `chown`：修改文件所有者

功能	命令
将 hello 所有者改为 root	`sudo chown root /tmp/hello && ls -l /tmp/hello`

（5）文件查找与打包压缩命令

15. `find`：查找文件

find ~ -name ".bashrc"

16. `tar`：打包与解压

功能	命令
在 `/` 下打包 `test` 为 `test.tar.gz`	`cd / && tar -czvf test.tar.gz test/`
解压到 `/tmp/`	`tar -xzvf /test.tar.gz -C /tmp/`

（6）文本查找与环境变量命令

17. `grep`：查找字符串

grep 'examples' ~/.bashrc

18. 环境变量配置

（1）配置 Java 环境变量

编辑 ~/.bashrc 文件，加入以下内容：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH

使其生效：

source ~/.bashrc

（2）查看变量值

echo $JAVA_HOME

五、常用的hadoop操作

假设你的 Hadoop 安装在 /usr/local/hadoop，用户是 hadoop。

1. 启动 Hadoop 并创建用户目录 `/user/hadoop`

登录 hadoop 用户（如果还未登录）：

su - hadoop

进入 Hadoop 安装目录并启动集群：

cd /usr/local/hadoop ./sbin/start-dfs.sh ./sbin/start-yarn.sh

查看 HDFS 是否正常运行（可选）：

jps

应该看到 NameNode、DataNode、ResourceManager、NodeManager 等进程。

在 HDFS 中为 hadoop 用户创建目录：

hdfs dfs -mkdir -p /user/hadoop

查看创建结果：

hdfs dfs -ls /user

2. 在 `/user/hadoop` 下创建 `test` 文件夹并查看

hdfs dfs -mkdir /user/hadoop/test hdfs dfs -ls /user/hadoop

输出结果应显示 /user/hadoop/test 文件夹存在。

3. 上传 `.bashrc` 文件到 HDFS 的 test 文件夹中

hdfs dfs -put ~/.bashrc /user/hadoop/test/

然后查看上传结果：

hdfs dfs -ls /user/hadoop/test

你会看到 .bashrc 文件出现在该目录下。

4. 将 HDFS 的 `test` 文件夹复制到本地 `/usr/local/hadoop` 目录下

hdfs dfs -get /user/hadoop/test /usr/local/hadoop/

然后可以用 ls 查看是否成功下载：

ls /usr/local/hadoop/test

应该能看到 .bashrc 文件。

5. 总结命令列表

操作	命令
启动 Hadoop	`./sbin/start-dfs.sh && ./sbin/start-yarn.sh`
创建 HDFS 用户目录	`hdfs dfs -mkdir -p /user/hadoop`
创建子目录 `test`	`hdfs dfs -mkdir /user/hadoop/test`
上传 `.bashrc`	`hdfs dfs -put ~/.bashrc /user/hadoop/test`
查看 HDFS 目录内容	`hdfs dfs -ls /user/hadoop/test`
下载 `test` 到本地	`hdfs dfs -get /user/hadoop/test /usr/local/hadoop/`