Hadoop复习(二)
部署Hadoop
考试不考部署,就复习选择和大题
问题 1 单项选择
2 / 2 分
下面哪个是MapReduce的核心配置文件
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
2 / 2 分
下面哪个是HDFS的核心配置文件
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
2 / 2 分
下面哪一个不属于Hadoop的部署模式
单机模式
JVM模式
伪分布式模式
完全分布式模式
2 / 2 分
启动YARN进程后我们可以看到哪些进程?
NameNode
DataNode
SecordaryNameNode
ResourceManager
NodeManager
2 / 2 分
HDFS URI我们可以从下面哪个配置文件中查看到
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
2 / 2 分
启动HDFS进程后我们可以看到哪些进程?
NameNode
DataNode
SecondaryNameNode
ResourceManager
NodeManager
2 / 2 分
启动HDFS进程的命令是哪个?
start-dfs.sh
start-yarn.sh
stop-dfs.sh
stop-yarn.sh
2 / 2 分
关闭HDFS进程的命令是哪个?
start-dfs.sh
start-yarn.sh
stop-dfs.sh
stop-yarn.sh
2 / 2 分
关闭YARN进程的命令是哪个?
start-dfs.sh
start-yarn.sh
stop-dfs.sh
stop-yarn.sh
2 / 2 分
启动YARN进程的命令是哪个?
start-dfs.sh
start-yarn.sh
stop-dfs.sh
stop-yarn.sh
2 / 2 分
下面哪个是Hadoop的核心配置文件
正确!
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
2 / 2 分
下面哪个是YARN的核心配置文件
core-site.xml
hdfs-site.xml
yarn-site.xml
mapred-site.xml
简要说明Hadoop的三种模式
独立模式:独立模式是一种在单台计算机的单个JVM进程中模拟Hadoop集群的工作模式,该模式部署的Hadoop集群实际上并不属于分布式文件系统,而是直接读写本地操作系统的文件系统,此模式部署的Hadoop通常用于快速安装并体验Hadoop的功能,并不适用于实际生产环境
伪分布式:伪分布式模式是一种在单台计算机的不同JVM进程中运行Hadoop集群的工作模式,该模式部署的Hadoop集群实际上是一个为分布式系统,因为Hadoop集群的所以守护进程都运行在一台计算机中,并不能体现出分布式的特点,所以伪分布式模式部署的Hadoop通常用于开发环境中进行测试和调试,并不适用于实际生产环境。
完全分布式:完全分布式模式是一种在多台计算机的JVM进程中运行Hadoop集群的工作模式,该模式部署的Hadoop集群属于分布式系统,因为Hadoop集群的每个守护进程都运行在不同的计算机中,所以完全分布式模式部署的Hadoop通常可作为实际生产环境
词频统计
Hadoop格式化
hadoop namenode -format
启动Hadoop
start-all.sh
创建文件word.txt,内容如下:
Hello world
Hello Hadoop
Bye worldBye Hadoop
上传至HDFS的根目录下
hdfs dfs -put word.txt /
统计词频
cd /opt/hadoop/share/hadoop/mapreducehadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /word.txt /out
查看结果目录
hdfs dfs -ls /out
这时可看到两个文件,分别是SUCCESS和part-r-00000
统计结果文件即是part-r-00000
查看结果
hdfs dfs -cat /out/part-r-80080