大数据学习1:Hadoop单机版环境搭建
1.基础知识介绍
Flume采集日志。Sqoop采集结构化数据,比如采集数据库。
存储到HDFS上。
YARN资源调度,每台服务器上分配多少资源。
Hive是基于Hadoop的一个数据仓库工具,提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。MapReduce将HDFS数据分割,整合键值对,再整到HDFS。
Spark是一款大数据处理框架,其开发初衷是改良Hadoop MapReduce的编程模型和提高运行速度。Spark主要面向批处理需求,但也支持流处理,因其优异的性能和易用的接口,Spark已经是批处理界绝对的王者。
Kafka也是一种面向大数据领域的消息队列框架,一个企业经常拆分出很多不同的应用系统,系统之间需要建立数据流管道。
2.具体流程
使用虚拟机新建了centos7的linux系统,在上面部署的
一、环境准备
1.上传下载的jdk包
2.解压JDK安装包
3.配置环境变量
4.配置免密登录,ip改成自己的ip
二、配置Hadoop
1.上传下载的Hadoop包
2.进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置,都是vim打开修改
3.初始化并启动HDFS
我的是http://192.168.59.100:9870/
三、Hadoop(YARN)环境搭建
1.修改配置文件,进入/opt/server/hadoop-3.1.0/etc/hadoop 目录下,修改以下配置
2.启动服务
在这个文件夹下面cd /opt/server/hadoop-3.1.0/sbin/
在当前目录下启动
访问地址为:http://192.168.59.100:8088/